Chips mit Ohren

In Science-Fiction-Streifen wie „Star Trek” oder „2001 – Odyssee im Weltraum” unterhalten sich die Helden ganz locker mit Computern. Doch die Entwicklung von Systemen, die menschliche Sprache verstehen, ist eine harte Nuss – wenn auch immer mehr Maschinen aufs Wort hören. Hermine hat stets einen guten Rat. Sie weiß, welches Waschmittel und welches Waschprogramm für welche Wäsche am besten geeignet sind. Sie weiß, wie man Kaugummispuren aus einem Hemd herausbekommt und wie man Kerzenwachs aus dem Tischtuch entfernen kann. Und Hermine gibt ihr Wissen gerne preis. Man muss sie nur danach fragen. Denn die Waschmaschine – Marke Siemens –, deren Prototyp auf der CeBIT im März erstmals zu bestaunen war, versteht die menschliche Sprache. Dafür sorgt ein Spracherkennungssystem des jungen Regensburger Unternehmens Speech Experts. Mit ihm kann Hermine recht flexible Dialoge führen. Flapsig hingeworfene Anweisungen, wie „30 Grad Buntwäsche, aber ohne Schleudern”, versteht sie ebenso wie das zusätzliche Kommando „erst in einer halben Stunde starten”. Maschinen, mit denen man per Sprache kommunizieren kann, gibt es in immer mehr Bereichen des Alltags. So erledigen viele Bankkunden Überweisungen und Kontoabfragen fast nur noch per Telefon-Banking – und verständigen sich dabei mit einem Computer am anderen Ende der Leitung. Ein maschineller Rechenknecht ist es auch, der sich hinter der freundlichen Frauenstimme verbirgt, die Anrufer bei der telefonischen Fahrplanauskunft der Deutschen Bahn unter der Rufnummer 0800/1507090 empfängt. Einige Handys, PDAs und neuerdings auch Faxgeräte können mit wenigen einfachen Sprachbefehlen bedient werden. Und sowohl Microsoft als auch Apple haben ihre neuesten Betriebssysteme Windows XP und Mac OS X mit einem Baustein zur Spracherkennung ausgestattet. „Gesprochene Sprache ist das wichtigste Kommunikationsmedium zwischen Menschen”, weiß Prof. Reinhold Häb-Umbach, der an der Universität Paderborn den Bereich Nachrichtentechnik leitet und sich mit Spracherkennung und Sprachsignalverarbeitung befasst. „ Daher sollten auch Maschinen eine natürlichsprachliche Benutzerschnittstelle haben”, fordert der Forscher. Doch das ist nicht so einfach. Das Problem ist die Vielseitigkeit der Sprache und der Art, sie zu benutzen: So kann je nach Sprecher, Situation und Umgebungsbedingungen ein und dasselbe Wort ganz unterschiedlich klingen. Und manche Wörter lassen sich ohnehin nur aus dem Satzzusammenhang heraus verstehen – zum Beispiel „ Meer” oder „mehr”. Zusätzlich stören oft Hintergrundgeräusche, etwa das Dröhnen des Motors oder Musik aus dem Radio beim Autofahren. „Der Mensch verlässt sich daher nicht nur auf das, was er hört, sondern benutzt ganz wesentlich auch Wissen über den semantischen und syntaktischen Zusammenhang, in dem eine Äußerung gemacht wird”, erklärt Häb-Umbach. Das Wissen um den Sinn des Gesagten und um den richtigen Satzbau helfen also beim Verstehen. Computer müssen da bisher weitgehend passen. „Die heutigen Spracherkennungssysteme sind noch nicht robust genug, für jeden Benutzer, in jeder Situation und bei jeder Anwendung auch nur annähernd befriedigende Resultate zu liefern”, sagt Häb-Umbach. Daher müssen bei allen Systemen Abstriche gemacht werden. Die beiden Stellschrauben, an denen die Entwickler der Systeme dabei drehen können, sind das Vokabular bekannter Wörter und der Grad, bis zu dem die Erkennungsleistung vom Sprecher abhängt. Diktiersysteme – eine der wichtigsten Anwendungen automatischer Spracherkennung – verwandeln gesprochene Wörter in Sekundenschnelle in gedruckten Text, der dann zum Beispiel auf dem Bildschirm erscheint und etwa in einem Textverarbeitungsprogramm wie Word weiter benutzt und bearbeitet werden kann. Um möglichst alles, was gesagt wird, erkennen zu können, muss ein Diktiersystem ein sehr großes Vokabular an bekannten Wörtern besitzen. Die neuesten Versionen von Diktiersystemen kennen oft weit über 100000 Wörter, die man als Nutzer selbst durch weitere Wörter ergänzen kann. Die Kehrseite der Medaille ist die nur recht beschränkte Sprecherunabhängigkeit von Diktiersystemen. Die Software kann die zahllosen in der Datenbank des Systems gespeicherten Wörter nur dann halbwegs zuverlässig erkennen, wenn sie zuvor an den jeweiligen Sprecher angepasst wurde. Dazu muss dieser bei der Installation des Systems meist ein kurzes Training absolvieren, bei dem er einen oder mehrere vorgegebene Texte vorliest. Beim Diktiersystem VoicePro hat man dabei die Wahl zwischen einem sachlich-nüchternen Text, einem Auszug aus einem Roman und einem Märchen. Zweck der Übung: Die Software analysiert beim Vorlesen die Sprechweise und passt die internen Erkennungswerkzeuge den Eigenheiten des Sprechers an. Dies erhöht später die Trefferquote bei der Spracherkennung. Auch während des Arbeitens mit dem Diktier- system lernt es dazu und verfeinert das beim Training erstellte Benutzerprofil im Hintergrund ständig weiter. Mit einem solchen Training erreichen Diktiersysteme heute eine Erkennungsrate von rund 95 Prozent – was aber auch bedeutet: Etwa jedes 20. Wort wird nicht richtig erkannt und muss per Hand nachgetragen werden. Während die ersten Diktiersysteme dem Sprecher kurze Sprechpausen zwischen allen Wörtern abverlangten, um überhaupt die einzelnen Wörter als solche identifizieren zu können, kommen die neueren Versionen auch mit kontinuierlich gesprochener „normaler” Sprache zurecht. Mit Hilfe statistischer Modelle klaubt die Software aus dem Wurm von Tönen die einzelnen Wörter heraus. „Ermöglicht hat das erst die in den letzten Jahren rasant gestiegene Leistungsfähigkeit der Rechner”, sagt Dr. Reinhard Busch, Geschäftsführer der Münchner Firma Linguatec, die Diktiersysteme sowie mehrere Fachvokabulare – spezielle Wörterbücher, die in das System integriert werden – für Berufsgruppen wie Juristen und IT-Experten anbietet. Anders ist die Situation bei Spracherkennern zur Steuerung von Geräten oder in automatischen Informationssystemen. Sie müssen sehr viele verschiedene Benutzer verstehen können. Dialekte und Akzente sowie die von Person zu Person unterschiedliche Art, bestimmte Wörter zu betonen, erfordern eine besonders strapazierfähige Software zur Worterkennung. Zusätzliche Schwierigkeiten bereitet besonders bei telefonischen Auskunftssystemen die Übertragung der Sprache via Telefonleitung: Wegen der geringen Bandbreite werden hohe Frequenzen einfach abrasiert. Das Resultat: Manche Laute, zum Beispiel die Buchstaben „ f” und „s”, klingen übers Telefon nahezu gleich. Die von einzelnen Sprechern unabhängige Erkennungsleistung eines solchen Systems wird daher mit einem geringen Wortschatz bezahlt. Er reicht von wenigen Dutzend Wörtern bei einem per Sprache bedienbaren Mobiltelefon bis zu ein paar tausend Wörtern bei automatischen Auskunftssystemen. Die Leistungsfähigkeit solcher Systeme hat sich in den letzten Jahren enorm verbessert. Während sich die ersten Systeme auf streng schematisch ablaufende Gespräche beschränken mussten – etwa: „Wenn Sie einen Mitarbeiter aus der Serviceabteilung sprechen wollen, sagen Sie bitte ‚Drei‘ ” –, können neuere Systeme mittlerweile echte Dialoge führen. Ein Musterbeispiel dafür ist „Fränki” – ein von dem Erlanger Unternehmen Sympalog entwickeltes und betriebenes System, bei dem man sich telefonisch nach den Spielplänen der Kinos in Mittelfranken erkundigen kann. Man erreicht Fränki unter der Nummer 09131/610016. Wählt man stattdessen die Nummer 09131/ 610017, landet man bei „Berti” – einem ähnlichen System, das ebenfalls von Sympalog betrieben wird und das Auskunft über die aktuellen Spielergebnisse und Tabellenplätze der Fußball-Bundesliga erteilt. Beiden Systemen gemeinsam ist ihre flexible Art der Kommunikation mit dem Anrufer. Dieser kann Fragen in ganzen Sätzen stellen, ist dabei nicht auf Floskeln angewiesen und kann die Antworten des Systems jederzeit unterbrechen. Obwohl Fränki nur über rund 1500 Wörter verfügt, kommt er mit den verschiedenen Formen von Fragen und Angaben recht gut zurecht. Das System pickt sich die relevanten Begriffe aus dem Gesagten heraus und plant seine Antwort dementsprechend. Das Besondere an Fränki und Berti: Beide Systeme sind modular aus verschiedenen Bausteinen aufgebaut. Sobald ihr Spracherkenner einen Text liefert, nimmt eines von mehreren Verstehensmodulen die Arbeit auf. Je nach Frage wird zum Beispiel ein Modul für Zeitangaben oder für Ortsangaben aktiv. Das zuständige Modul teilt dem so genannten Dialogmanager mit, welche Bedeutung in den Worten des Anrufers erkannt wurde. Der Dialogmanager entwirft auf dieser Basis den weiteren Verlauf des Dialogs. So werden Angaben des Anrufers nicht ein zweites Mal abgefragt. Beantwortet dieser beispielsweise Fränkis Frage nach dem Datum mit „6. Juni um 20 Uhr”, braucht das System später nicht mehr ausdrücklich nach der Uhrzeit fragen. Fränkis Datenbank ist zudem so flexibel angelegt, dass das System verschiedene sprachliche Variationen ein und der selben Angabe gleich gut versteht – also beispielsweise die Auskunft „nächsten Freitag um acht” richtig interpretiert. Mit Fränki und Berti will Sympalog seine Spracherkennungstechnik testen und nach den Erfahrungen damit optimieren. Der Computerriese IBM entwickelt ähnliche Systeme. So können Banken seit gut einem Jahr das „Aktien-Informations-System” des Unternehmens nutzen, um ihren Kunden flexible Abfragen von Börsenkursen per Telefon zu ermöglichen. Gemeinsam mit mehreren europäischen Partnern arbeiten die Forscher bei IBM zudem an einem System namens „Catch-2004-Olympics”. „Damit wird es möglich sein, Informationen über Sport-Events wie Veranstaltungszeiten, -orte, Preise oder Ergebnisse abzurufen sowie Tickets zu reservieren”, erklärt Siegfried Kunzmann, Leiter des IBM-Entwicklungsteams für Sprachtechnologien in Mannheim. Der Clou dabei: Das System arbeitet mehrsprachig, erkennt automatisch, ob eine Abfrage zum Beispiel in Deutsch, Spanisch oder Italienisch erfolgt, und antwortet auch in dieser Sprache. Obendrein kann die Software flexibel antworten. Das heißt: Wenn sie etwas nicht verstanden hat oder Informationen fehlen, fragt sie automatisch nach. Die Experten sprechen dabei von einem „natürlichsprachlichen Dialog” – der Königsklasse der Sprachtechnologie. „Große Datenmengen extrem schnell zu erkennen, zu analysieren, aufzubereiten und wiederzugeben, ist eine enorme technische Herausforderung”, sagt Kunzmann – und damit eine große Herausforderung für die Entwickler, an deren Lösung sie derzeit fieberhaft arbeiten. Der Pionier der Spracherkennung hieß „Radio Rex” und war ein kleiner Spielzeughund. Das Plüschtierchen mit eingebauter Elektronik kam 1920 in den USA in die Spielwarenläden und konnte mit einem freudigen Bellen antworten, wenn man ihn bei seinem Namen rief. Allerdings bellte Radio Rex auch dann, wenn man ihm irgendein anderes Wort zurief, dessen Klang eine ähnliche Tonhöhe besaß wie „Rex”. Das erste Spracherkennungssystem, das sich per Computer nutzen ließ, bauten in den fünfziger Jahren Ingenieure bei den Bell Labs in den USA. Es konnte Zahlen identifizieren, die ihm – mit langen Sprechpausen zwischen den einzelnen Ziffern – eingesagt wurden. Ins Bewusstsein der meisten Menschen rückte die Spracherkennung mit dem Filmklassiker „2001 – Odyssee im Weltraum”, der im Frühjahr 1968 in die Kinos kam. Einer der Stars dieses Films war der Roboter HAL 9000, der die Sprache der Menschen perfekt verstehen und sprechen konnte und sogar in der Lage war, seinem Gegenüber von den Lippen abzulesen. Drei Jahre nach diesem Kinoerfolg gab die Behörde für Forschungsprojekte im US-Verteidigungsministerium, die heutige DARPA, den Startschuss für ein Projekt, das zu einem Durchbruch bei der maschinellen Spracherkennung führen sollte. Bis Anfang der achtziger Jahre reichten die technischen Möglichkeiten aber nur zur Entwicklung von Systemen, die ein paar hundert Wörter erkennen konnten. Dann begann eine rasante Entwicklung. So stellten IBM-Forscher 1984 ein System vor, das rund 5000 englische Wörter erkennen konnte. Es war allerdings noch wenig praktikabel: Für die Erkennung jedes einzelnen Wortes benötigte es mehrere Minuten Rechenzeit auf einem Großrechner. Schon zwei Jahre später präsentierte IBM den ersten Prototyp eines Spracherkennungssystems, dem ein gewöhnlicher PC für seine Berechnungen genügte. Es erkannte ein Wort innerhalb weniger Sekunden. Das System besaß bereits eine Kontextprüfung, die gleich oder ähnlich klingende Wörter aufgrund des Satzzusammenhangs ausschließen konnte. Als Produkt mit dem Namen ISSS (IBM Speech Server Services) kam die Software 1992 auf den Markt. Sie konnte rund 30000 Wörter erkennen, benötigte dafür allerdings eine spezielle Hardware und ein eigenes Betriebssystem. Obendrein kostete sie über 20000 Mark. Zum Einsatz kam das System vor allem in Krankenhäusern und größeren Kliniken, wo die Ärzte damit medizinische Befunde direkt in den Rechner diktieren konnten. Etwa gleichzeitig mit IBM stellte auch die US-Firma Dragon Systems ein ähnliches Produkt vor. Die Preise für Diktiersysteme fielen rasch: Schon 1994 bot IBM eine Software an, die weniger als 1000 Dollar kostete. Zwei Jahre später folgte eine „elektronische Sekretärin”, die erstmals keine spezielle Hardware-Ausstattung mehr benötigte und die auch vor einer Geräuschkulisse brauchbare Ergebnisse lieferte. Das erste kontinuierliche Spracherkennungssystem, das vom Sprecher beim Diktieren keine Sprechpausen zwischen den einzelnen Wörtern mehr verlangte, brachte Philips Dictation Systems 1994 heraus. 1998 kam das belgische Unternehmen Lernout&Hauspie als weiterer Anbieter von Diktiersystemen für die deutsche Sprache hinzu. Inzwischen sind die Produkte von Dragon und Lernout&Hauspie in den Systemen des Unternehmens Scansoft zusammengewachsen. Viele Fortschritte der letzten Jahre hat die Spracherkennungstechnologie dem Projekt Verbmobil zu verdanken, das 1993 gestartet und 2000 abgeschlossen wurde. Unter Führung des Deutschen Forschungsinstituts für Künstliche Intelligenz (DFKI) in Saarbrücken und Kaiserslautern haben die daran beteiligten Forscher vor allem an Techniken zur Erkennung von Umgangssprache und deren automatischer Übersetzung in andere Sprachen gearbeitet. Der Leiter des DFKI, Prof. Wolfgang Wahlster, wurde dafür 2001 mit dem Deutschen Zukunftspreis des Bundespräsidenten ausgezeichnet. Die Steuerung von elektronischen Geräten per Sprache haben in den letzten Jahren vor allem Automobilhersteller vorangetrieben. So bot DaimlerChrysler bereits 1996 mit der „Linguatronic” eine Sprachsteuerung als Sonderausstattung für das Autotelefon in der Mercedes-Benz S-Klasse an. Mittlerweile lassen sich sogar Stereo- und Klimaanlagen in manchen Mercedes-Fahrzeugen per Sprache bedienen. Künftig soll dies auch beim Navigationssystem möglich sein. Bei Honda ist man schon weiter: Bereits seit einigen Monaten bietet der japanische Autobauer für seine in den USA verkauften Wagen der Accord-Reihe ein Navigationssystem an, das sich per Sprache steuern lässt. „Wir stehen am Beginn einer Revolution”, ist Brian Strachman überzeugt. Strachman ist Senior Analyst beim US-amerikanischen Marktforschungsinstitut Instat/MDR, das der Spracherkennung in einer Studie vom Juni 2002 eine rosige Zukunft voraussagt. „Die Technologie hat den Punkt erreicht, an dem sie zünden kann”, sagt Strachman. Als Treiber für den erwarteten Durchmarsch der Spracherkennung sieht der Marktforscher unter anderem die in den nächsten Jahren vermutlich weiter zunehmende Geschwindigkeit der Computer-Prozessoren, die einen größeren Wortschatz der Systeme und eine höhere Genauigkeit bei der Spracherkennung ermöglichen werden. Außerdem, so die Prognose, werden mobile Anwendungen, etwa bei Handys und PDAs, sowie die Einführung technischer Standards den Einsatz von Spracherkennungssystemen pushen. Die beiden Standards, von denen er spricht, wurden in den letzten Jahren entwickelt und liegen nun im Wettstreit miteinander: VoiceXML (Voice Extensible Markup Language) und SALT (Speech Application Language Tags) sind Techniken, die von einer Reihe großer Unternehmen vorangetrieben werden. Hinter VoiceXML stehen unter anderem IBM, Lucent, AT&T und Motorola. SALT wird neben anderen Firmen von Microsoft, Intel, Cisco und Philips unterstützt. Gemeinsam ist sowohl VoiceXML als auch SALT das Ziel, die Fülle von Informationen im Internet für einen Zugriff per Sprache zugänglich zu machen. Dazu müssen Webseiten und Browser so erweitert werden, dass sie Anfragen und Eingaben per Sprache zulassen. Solche „Voice-Portale” werden den Weg ins Web gegenüber heute deutlich vereinfachen und die Daten dort für weitaus mehr Menschen als bisher zugänglich machen, ist IBM-Experte Kunzmann überzeugt. Auf ähnliche Weise könnten Spracherkennungssysteme dazu genutzt werden, automatisch Datenbanken mit Aufnahmen gesprochener Sprache zu durchkämmen – zum Beispiel Nachrichtenarchive: Per Schlüsselwort ließen sich so Aufzeichnungen von Nachrichtensendungen aus Fernsehen oder Rundfunk heraussuchen, die sich mit diesem Schlüsselbegriff befassen. Besonders wichtig ist die Spracherkennung aus der Sicht von Siegfried Kunzmann für mobile Anwendungen. „Die Sprachtechnologie wird sich schon allein deshalb durchsetzen, weil die mobilen Geräte, die wir im Alltag immer stärker nutzen, immer kleiner und leistungsfähiger werden”, prophezeit er. „Da es am einfachsten und effizientesten ist, diese Geräte statt mit den Fingern per Sprache zu steuern oder mit ihnen zu kommunizieren, wird die Sprache die Tatstatur oder andere Eingabetechnologien irgendwann ablösen.” Hier liegt das Problem derzeit noch bei den mageren Speichern von Handys und PDAs, die nur für wenige Megabyte Platz bieten. Zwar wäre es denkbar, die Erkennung auf einen Server in einer Zentrale auszulagern. Doch dazu müssten mächtige Bündel von Daten mit Hochgeschwindigkeit über die Mobilfunkstrecke hin und her geschoben werden – und dafür ist die Übertragungsbandbreite noch zu gering. Ändern wird sich dies mit der Einführung der UMTS-Netze – in Deutschland in der zweiten Hälfte dieses Jahres. „Spätestens, wenn wir eine größere Bandbreite zur Datenübertragung bei mobilen Geräten bekommen, wird die Sprachtechnologie einen gewaltigen Sprung machen”, prophezeit Kunzmann. „Dann werden beispielsweise simultane Übersetzungsanwendungen via Telefon möglich sein.” Die haben die Entwickler von Sprachtechnologie seit langem als ein wichtiges Ziel ausgemacht. „Man ruft zum Beispiel bei einem Geschäftspartner in Spanien an und spricht wie gewohnt auf Deutsch ins Telefon. Ein Spracherkennungsmodul identifiziert und versteht das Gesprochene, das anschließend simultan ins Spanische übersetzt und am anderen Ende der Leitung auf Spanisch ausgegeben wird”, schwärmt Linguatec-Chef Reinhard Busch. Sein Unternehmen bietet seit etwa drei Jahren eine Software an, die Gespräche automatisch von Deutsch in Englisch oder umgekehrt übersetzt – bisher allerdings noch nicht via Telefon. „Dazu müssen Technologien aus den Bereichen Spracherkennung, Sprachsynthese und maschinelle Übersetzung kombiniert werden”, sagt Busch. Dabei multiplizieren sich Fehler, die die einzelnen Stufen der Verarbeitung produzieren, was die Fehlerquote des gesamten Systems in die Höhe treibt. Die Visionen der Forscher gehen über eine Verbesserung und Weiterentwicklung allein der Spracherkennung und -verarbeitung noch weit hinaus: „Die Zukunft gehört den multimodalen Systemen, bei denen der Input über mehr als einen Kanal möglich ist”, sagt Siegfried Kunzmann. Sprache, Maus und Tastatur, aber auch Gestik, Mimik und sogar Augenbewegungen sollen künftig genutzt werden, um Maschinen das mitzuteilen, was man ihnen sagen möchte. IBM stellte auf der CeBIT den Prototyp eines Headsets für Spracherkennungssysteme vor, bei dem neben dem Mikrofon eine Infrarot-Kamera platziert ist. Sie liest beim Sprechen die Lippenbewegungen ab und beobachtet außerdem Zähne und Zunge. Das kann die Erkennungsleistung deutlich steigern. Schon in wenigen Jahren soll es das Headset als Produkt zu kaufen geben. Die Erkennung gesprochener Sprache, beispielsweise durch ein Diktiersystem, erfolgt Schritt für Schritt. Zunächst wird das von einem Mikrofon aufgenommene akustische Sprachsignal digitalisiert – das heißt, in eine Folge von Nullen und Einsen verwandelt, die der Rechner verarbeiten kann. Der zweite Schritt ist die Extraktion von charakteristischen Merkmalen des Sprachsignals, um die Datenmenge zu reduzieren. Dazu extrahiert der Erkenner alle 10 Millisekunden aus den digitalisierten Daten für etwa 20 bis 30 Frequenzen deren Anteile an der Intensität des Signals und fasst diese Werte zu einem so genannten Merkmalsvektor zusammen. Mit den Merkmalsvektoren lassen sich die wahrscheinlich gesprochenen Wörter und Laute identifizieren. Dazu wendet die Spracherkennungssoftware statistische Methoden an, die drei verschiedene Wissensquellen nutzen: • Ein Aussprachelexikon, das die genaue Aussprache jedes Wortes enthält – entsprechend der Darstellung von Wörtern durch Lautschrift. • Ein akustisches Modell, das beschreibt, wie die Wörter und deren einzelne Laute – die so genannten Phoneme – akustisch realisiert werden. Dazu werden komplizierte mathematische Berechnungsverfahren und so genannte Hidden-Markov-Modelle oder künstliche neuronale Netze verwendet. In diese gehen auch verschiedene Aussprache- und Betonungsweisen und verschieden schnelle Sprechgeschwindigkeiten ein. Die Parameter der Modelle werden bei einem Training durch den Sprecher justiert. Das Resultat ist eine Reihe von Wörtern, die mit hoher Wahrscheinlichkeit gesprochen wurden. • Ein Sprachmodell, das Wissen über den Satzbau und die Position von Wörtern in einem Text enthält. Das Modell kennt aus der Analyse aller bisher ausgewerteten Eingaben und Texte die Wahrscheinlichkeiten für alle möglichen Kombinationen aus zwei oder drei aufeinander folgenden Wörtern. Es weiß beispielsweise, dass die Kombination der Wörter „guten borgen” sehr unwahrscheinlich ist, weil sie selten oder nie auftritt. Die Kombination „guten Morgen” dagegen ist aus zahlreichen vorhergehenden Spracheingaben bekannt und besitzt deshalb eine hohe Wahrscheinlichkeit. Das Ergebnis der Erkennung wird auf dem Monitor ausgegeben. Eine ganze Reihe von Eigenarten der menschlichen Sprechweise machen einem Computer das Erkennen der Sprache enorm schwer: • Jeder Mensch hat seine eigene Aussprache von Wörtern und Lauten. Aber die Aussprache eines Lautes kann, auch wenn es sich um denselben Sprecher handelt, von einer Äußerung zur anderen stark variieren – zum Beispiel geprägt durch Emotionen, eine absichtliche Betonung bestimmter Wörter oder schlicht eine Erkältung. • Die Geschwindigkeit beim Sprechen schwankt mitunter stark. • Wörter überlappen sich beim Sprechen. Die Aussprache eines Wortendes hängt dann vom Anfang des darauf folgenden Wortes ab und umgekehrt. Diesen Effekt nennt man Koartikulation. • Im kontinuierlichen Redefluss gibt es keine eindeutigen Laut- und Wortgrenzen. Diese müssen von der Software mithilfe syntaktischer und semantischer Analysen bestimmt werden. • Bei der Anwendung eines Spracherkennungssystems stören oft Bürolärm, Fahrgeräusche im Auto oder Rauschen der Telefonleitung. • Nichtssagende Laute wie Räuspern, Husten oder eingestreute „ Ähs” muss das System als unwichtig erkennen und ignorieren. • Systeme, die natürlich gesprochene Sprache verstehen sollen, müssen mit grammatischen Unregelmäßigkeiten, unvollständigen Sätzen und inhaltlichen Sprüngen zurecht kommen. • Homophone: Wörter, die gleich klingen, aber anders geschrieben werden, zum Beispiel „mehr” und „Meer”, „fiel” und „ viel” oder „wieder” und „wider”. Bislang können nur besonders leistungsfähige Systeme Homophone halbwegs zuverlässig unterscheiden. • Groß- und Kleinschreibung: Sie kann, je nach Schreibweise, Sätze mit völlig unterschiedlicher Bedeutung hervorbringen – Beispiel: „der Gefangene floh” oder „der gefangene Floh”. • Zusammengesetzte Wörter, die das System nicht erkennt, obwohl es die einzelnen Wortbestandteile kennt, können die Software aus dem Tritt bringen – Beispiel: „Steuerlüge” aus „ Steuer” und „Lüge”. • Die Verbindung von Verben mit zahlreichen verschiedenen Vorsilben bereitet bei der Erkennung große Schwierigkeiten – Beispiele: „gehen”, „mitgehen”, „vorbeigehen”, „hingehen”, „ umgehen”. Die komplexe Grammatik führt dazu, dass im Deutschen ein besonders großer aktiver Wortschatz gebraucht wird. Während eine englisch sprechende Person im täglichen Sprachgebrauch mit etwa 800 Wörtern auskommt, umfasst der Wortschatz eines Deutschen im Schnitt rund 4000 Wörter – Johann Wolfgang von Goethe benutzte sogar rund 24000 verschiedene Wörter, um sich auszudrücken. Im Englischen besitzt jedes Wort pro Grundform im Schnitt 2,2 Beugungsformen , im Deutschen dagegen 5 und im Französischen sogar 7. Die Erkennungsleistung von Spracherkennungssystemen ist je nach Aufgabenstellung sehr unterschiedlich. Während die modernsten Systeme beim Erkennen einzelner gesprochener Ziffern im Schnitt nur bei jedem 200. Versuch daneben liegen, wird etwa jedes vierte Wort eines Dialogs per Telefon nicht richtig erkannt. Doch die Technik ist deutlich besser geworden. „Während der letzten zehn Jahre nahm die Fehlerquote bei der Spracherkennung im Schnitt um rund 10 Prozent pro Jahr ab”, berichtet Xuedong Huang, der die .Net-Sprachtechnologie-Abteilung im Microsoft-Forschungszentrum in Redmond (USA) leitet. Dieser Trend wird sich in den kommenden Jahren fortsetzen, erwartet Huang. „Ein Spracherkennungssystem, das etwa genauso leistungsfähig ist wie das menschliche Ohr, wird sich in den nächsten 10 bis 40 Jahren realisieren lassen.” Die Tabelle zeigt den Vergleich der Fehlerquote von Mensch und Maschine bei der Erkennung unterschiedlicher Formen gesprochener Sprache. Der Zeitrahmen für eine Angleichung der maschinellen Erkennungsleistung an das Erkennungsvermögen des Menschen ergibt sich durch Hochrechnung aus der Annahme Huangs, dass der technische Fortschritt weiterhin zu einer Verringerung der Fehlerquote um jährlich 10 Prozent führen wird. Auch für die Sicherheit sind Sprachtechnologien interessant. Denn mit ihrer Hilfe lässt sich sehr verlässlich die Identität eines Sprechers prüfen. Visa International feilt zurzeit an der Realisierung dieser Idee. Das Kreditkarten-Unternehmen plant, Visa-Karten künftig um eine Funktion zur Spracherkennung zu erweitern. Gemeinsam mit dem US-Unternehmen Vocent Technologies entwickelt Visa dazu ein System, das den Eigentümer der Karte anhand seiner Stimme erkennen kann. Der Benutzer wird dazu aufgefordert, eine zufällig ausgewählte Zahlenfolge in ein auf der Karte integriertes kleines Mikrofon zu sprechen. Das Sprachsignal wird aufgenommen und mit Sprachmustern des Karten-Eigentümers verglichen, die auf einem Chip auf der Karte gespeichert sind. Die Stimmerkennung soll einen Missbrauch der Karte durch Fremde verhindern. Zunächst will Visa die Tauglichkeit des Systems an den weltweit rund 5000 Mitarbeitern des Unternehmens testen: Sie sollen einen Zugang zum Unternehmensnetz nur noch erhalten, nachdem sie über ihre Stimme identifiziert wurden. Wann auch die Visa-Kreditkarten mit dieser Technologie ausgestattet werden, ist noch offen. Ralf Butscher

Chips mit Ohren

Mehr aus Technik & Digitales

KI-Agent bricht aus und wird zum Hacker

Mit Wasserstoff in die Zukunft

Wie klimafreundlich sind Plug-in-Hybride wirklich?

Konkurrenz für Europas Chip-Wundermaschine?