Silben statt Wörter: Neuartige Suchmaschine für Fernsehbeiträge entwickelt
"Unser System basiert auf einem Silbenlexikon statt auf einem Wortlexikon. Klassische Spracherkenner können nur eine begrenzte Zahl von Worten erkennen - die Zahl der existierenden Wörter ist jedoch unüberschaubar groß", erklärt Daniel Schneider vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS). "Im Unterschied dazu ist die Anzahl verschiedener Silben handhabbar. Mit etwa 10 000 gespeicherten Silben können wir jedes Wort zusammensetzen." Das Programm erschließt sich auch neue Worte selbst, indem es sie aus den gespeicherten Silben zusammensetzt: Fi-nanz-kri-se, Ab-wrack-prä-mie. Es muss kaum aktualisiert werden und verursacht fast keine laufenden Kosten.
Für die Suche werden die Fernsehsendungen zunächst segmentiert: Ändert sich beispielsweise der Sprecher oder wird ein Filmbeitrag in einer laufenden Sendung eingespielt - variiert also der Inhalt der Audiospur -, speichert das Programm die folgenden Szenen als neues Segment ab. Der Anwender der neuen Suchmaschine kann von Sprecher zu Sprecher navigieren, etwa nur die Beiträge eines Interviewpartners anschauen. In einem weiteren Schritt analysieren Sprachalgorithmen die einzelnen Wörter. Für den Anwender präsentiert sich das Programm wie eine herkömmliche Suchmaschine. Er gibt den Suchbegriff ein und wenige Millisekunden später hat das Programm 10 000 Stunden aufgearbeitetes Datenmaterial durchsucht. Die Ergebnisse werden wie bei Internet-Suchmaschinen im Satzzusammenhang angezeigt. Ein Klick, und die entsprechende Stelle des Filmmaterials wird abgespielt. Nach Angaben der Forscher findet das System über 85 Prozent der gesprochenen Begriffe, 99 von 100 gefundenen Beiträgen sind korrekt.