Software versteht Sprache besser als ihre Entwickler

Das US-Labor der chinesischen Suchmaschine Baidu hat einen Spracherkenner entwickelt, der Mandarin mitunter genauer versteht als ein Mensch. Dabei sprechen die meisten Entwickler selbst gar kein Chinesisch.

Baidu hat sich zu einem führenden Anbieter von Sprachsoftware entwickelt – und ist dabei Google und Apple abzuhängen. Das berichtet das Magazin Technology Review in seiner aktuellen Ausgabe 5/2016 (jetzt am Kiosk oder hier zu bestellen).

China bietet die besten Voraussetzungen für einen Siegeszug von Sprachschnittstellen. Mit 691 Millionen Nutzern sind Smartphones dort deutlich weiter verbreitet als herkömmliche Computer. Doch Tausende verschiedene Schriftzeichen machen die Texteingabe über Touchscreens frustrierend umständlich.
Baidu hat besonders beeindruckende Fortschritte bei der Spracherkennung gemacht. Davon dürften auch Menschen in anderen Ländern profitieren. „Ich sehe Sprachtechnologie nahe an dem Punkt, ab dem sie so zuverlässig ist, dass man sie einfach nutzt, ohne weiter darüber nachzudenken“, sagt Andrew Ng, Stanford-Professor und Chefwissenschaftler von Baidu. Eine leistungsfähige Sprachtechnologie würde auch die Interaktion mit allen möglichen anderen Geräten erleichtern, glaubt Ng – etwa mit Robotern oder Hausgeräten.

Im vergangenen November hat das Baidu-Labor im Silicon Valley einen wichtigen Meilenstein erreicht: ein neues Spracherkennungssystem namens Deep Speech 2. Es basiert auf einem tiefen neuronalen Netz und lernt anhand von Millionen transkribierter Sprachbeispiele, wie Audiosignale mit den entsprechenden Wörtern zusammenhängen. Nun erkennt Deep Speech 2 gesprochene Wörter in Mandarin manchmal sogar genauer als ein Mensch – obwohl es phonetisch sehr komplex ist. Noch beeindruckender erscheint diese Leistung, wenn man weiß, dass nur wenige der kalifornischen Entwickler überhaupt Chinesisch sprechen. Damit ist Deep  Speech 2 im Prinzip ein universelles Sprachsystem, das ebenso gut Englisch lernt, wenn man ihm genügend Beispiele vorsetzt.

Die meisten Sprachanfragen an Baidus Suchmaschine sind einfach und beziehen sich auf das Wetter oder die Luftverschmutzung. Dabei ist das System meist beeindruckend treffsicher. Um mit komplizierteren Fragen zurechtzukommen, hat Baidu im vergangenen Jahr seinen eigenen Sprachassistenten namens Duer herausgebracht und in seine wichtigste App integriert. Er kann Nutzern zum Beispiel die Anfangszeiten von Kinofilmen sagen oder einen Tisch im Restaurant reservieren. Irgendwann soll Duer in der Lage sein, ein sinnvolles Gespräch zu führen und auf neue Informationen darin zu reagieren. Dazu will eine Forschungsgruppe in Peking neuronale Netze wie bei Deep Speech 2 nutzen. Zusätzlich hat Baidu ein Team eingestellt, das die Anfragen bei Duer analysiert und Fehler korrigiert, sodass das System dazulernt und allmählich besser wird.

Autor: heise.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.