Startseite > Markt > Von Audrey bis Alexa

Spracherkennung – die Anfänge

Von Audrey bis Alexa

7. April 2020, 16:30 Uhr | Autor: Folker Lück / Redaktion: Alexandra Hose

Die Spracherkennung begann im Schneckentempo und war aufgrund schwacher Leistung und Fehleranfälligkeit jahrzehntelang ein Lacherfolg. Doch mittlerweile ist die KI, die hinter Alexa, Siri & Co. steckt, durchaus smart. Smarthouse Pro zeigt, was die Spracherkennung seit ihren Anfängen dazugelernt hat.

USA Anfang der 1950er Jahre: Eine riesige Rechenmaschine, fast zwei Meter hoch, vollgestopft mit Relais und Schaltkreisen, mit einem immensen Stromverbrauch. Ein aus heutiger Sicht vorsintflutlicher Großrechner namens “Audrey” vollbringt etwas noch nie Dagewesenes: Er versteht zehn gesprochene Ziffern, von null bis neun. Zumindest dann, wenn der Sprecher mit immer gleicher Stimme und ausreichend langen Pausen zwischen den einzelnen Ziffern spricht.

Zehn Jahre später, im Jahr 1962, stellt IBM die “Shoebox” vor. Das Verständnis ist von zehn Zahlen auf insgesamt 16 Worte angewachsen. Mehr noch: Die Maschine versteht die gesprochene Rechenaufgabe “Fünf plus drei plus acht plus sieben plus vier minus neun – macht zusammen?” und konnte die korrekte Antwort “17” ausspucken. Die Shoebox wurde von William C. Dersch am Advanced Systems Development Division Laboratory von IBM im kalifornischen San Jose entwickelt. Als Dersch und sein Team am 21. April 1962 den IBM-Rechner in der Größe einer Schuhschachtel auf der Weltausstellung in Seattle der breiten Öffentlichkeit vorstellten, galt das als Sensation.

Dennoch taten sich internationale IT-Forscher mit der Spracherkennung schwer. Vergleichsweise banale Neuerungen im Abstand von jeweils einer Dekade – das ist nicht der Takt der heutigen IT-Welt. Ein weiteres Jahrzehnt später, in den 1970er Jahren, forschten Statistiker, Mathematiker und Informatiker immer noch an besseren Techniken zur Spracherkennung. Ein System des amerikanischen Verteidigungsministeriums brachte es Mitte der 1970er auf ein “Verständnis” von rund 1.000 Wörtern. Nach rund 25 Jahren Forschungszeit schafften es Computer also, etwa das Vokabular eines Vorschulkindes zu verstehen. Das Problem der Forscher war bis dahin nicht die Software, sondern die Rechenleistung der Hardware. PC-Systeme waren zu leistungsschwach, um die menschliche Sprache sinnvoll zu verstehen und zu verarbeiten. Erst in den 1990er Jahren konnte Software für Spracherkennung erstmals sinnvoll auf dem Personal Computer eingesetzt werden. Die Zahl der Anbieter war plötzlich recht groß: Auf einmal buhlten IBM, Dragon, Philips, der belgische Spezialist Lernout & Hauspie und Microsoft mit ihren Programmpaketen zur Spracherkennung um die Kunden.

Nachdem nahezu die gesamte IT-Branche im Jahr 2000 mit den Folgen der geplatzten „Internet-Blase“ zu kämpfen hatte, begann im Markt für Spracherkennung eine schwierige Konsolidierungsphase. Lernout & Hauspie kaufte im Jahr 2000 Dragon Systems, ein Jahr später übernahm Scansoft die Spracherkennungstechnologie der Belgier inklusive des Markennamens „Dragon Naturally Speaking“. Im Jahr 2005 übernahm Scansoft die US-Firma Nuance und benannte sich dann in Nuance Communications um. In den vergangenen zehn Jahren übernahm Nuance wiederum eine ganze Reihe von kleineren Spezialfirmen. Dort landeten auch die jahrzehntelang entwickelten Spracherkennungstechnologien von IBM und Philips. MIttlerweile hat sich die Spracherkennung vor allem in Rechtsanwaltskanzleien und im Gesundheitsbereich etwabliert. In beiden Fällen geht es meist um standardisierte Diktieraufgaben.

Wahrhaft Bewegung in die Spracherkennung kam durch das Sprachverarbeitungssystem Siri von Apple. Siri wurde im Jahr 2011 mit dem iPhone 4S eingeführt. Nicht auf dem PC, sondern auf dem Smartphone etablierte sich damit die Spracherkennung im Massenmarkt.