Silben statt Wörter: Neuartige Suchmaschine für Fernsehbeiträge entwickelt

Statt auf Wörter spezialisieren Forscher eine Suchmaschine für gesprochene Fernsehbeiträge auf Silbenerkennung - das spart viel Aktualisierungsarbeit

Wer hat in den Nachrichten oder einem Politmagazin zum ersten Mal "Abwrackprämie" gesagt? Historiker, Linguisten und Journalisten könnte so etwas interessieren, aber bisher war es schwierig, dies in gesprochenem Sprachmaterial herauszufinden.

Sankt Augustin - Wann wurde in der Tagesschau das erste Mal das Wort "Abwrackprämie" von einem Sprecher ausgesprochen? Um so etwas herauszufinden, blieb einem Forscher bisher nichts anderes übrig als stundenlang Tagesschauaufnahmen abzuhören oder eine Spracherkennungssoftware einzusetzen. Bisherige Spracherkennungssoftwares jedoch müssen ständig aktualisiert werden. Jetzt haben Wissenschaftler des Fraunhofer-Instituts einen neuen Weg eingeschlagen: Statt Wörter lassen sie die von ihnen entwickelte Software jetzt Silben erkennen. Dadurch können mit weniger Material mehr Wortkombinationen gefunden werden.

"Unser System basiert auf einem Silbenlexikon statt auf einem Wortlexikon. Klassische Spracherkenner können nur eine begrenzte Zahl von Worten erkennen - die Zahl der existierenden Wörter ist jedoch unüberschaubar groß", erklärt Daniel Schneider vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS). "Im Unterschied dazu ist die Anzahl verschiedener Silben handhabbar. Mit etwa 10 000 gespeicherten Silben können wir jedes Wort zusammensetzen." Das Programm erschließt sich auch neue Worte selbst, indem es sie aus den gespeicherten Silben zusammensetzt: Fi-nanz-kri-se, Ab-wrack-prä-mie. Es muss kaum aktualisiert werden und verursacht fast keine laufenden Kosten.

Für die Suche werden die Fernsehsendungen zunächst segmentiert: Ändert sich beispielsweise der Sprecher oder wird ein Filmbeitrag in einer laufenden Sendung eingespielt - variiert also der Inhalt der Audiospur -, speichert das Programm die folgenden Szenen als neues Segment ab. Der Anwender der neuen Suchmaschine kann von Sprecher zu Sprecher navigieren, etwa nur die Beiträge eines Interviewpartners anschauen. In einem weiteren Schritt analysieren Sprachalgorithmen die einzelnen Wörter. Für den Anwender präsentiert sich das Programm wie eine herkömmliche Suchmaschine. Er gibt den Suchbegriff ein und wenige Millisekunden später hat das Programm 10 000 Stunden aufgearbeitetes Datenmaterial durchsucht. Die Ergebnisse werden wie bei Internet-Suchmaschinen im Satzzusammenhang angezeigt. Ein Klick, und die entsprechende Stelle des Filmmaterials wird abgespielt. Nach Angaben der Forscher findet das System über 85 Prozent der gesprochenen Begriffe, 99 von 100 gefundenen Beiträgen sind korrekt.

Quelle: Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS)

Silben statt Wörter: Neuartige Suchmaschine für Fernsehbeiträge entwickelt

Im Bilde

Magazin

Im Ernst

Im Druck

Cartoon