Browse Prior Art Database

Pseudo-Spelling mit generalistischen Sprachressourcen

IP.com Disclosure Number: IPCOM000127748D
Original Publication Date: 2005-Oct-10
Included in the Prior Art Database: 2005-Oct-10
Document File: 3 page(s) / 48K

Publishing Venue

Siemens

Related People

Juergen Carstens: CONTACT

Abstract

Bei Spracherkennung auf sog. Embedded Plattformen (eingebettete Systeme, vereinigen durch ihre oftmals sehr hardwarenahe Konstruktion die grosse Flexibilitaet von Software mit der Leistungsfaehigkeit der Hardware) bestehen in der Regel Einschraenkungen hinsichtlich der zur Verfuegung stehenden Ressourcen wie Speicherplatz oder Rechenleistung. Andererseits wird mittlerweile der Ausstattungsumfang (der sog. Feature Set) von Spracherkennungssystemen immer umfassender und geht ueber den konventionellen Command&Control-Anwendungsbereich hinaus. So sollen derweil auch auf digitalen Signalprozessoren komplexe Aufgaben wie das Suchen von Telefonbucheintraegen oder die Eingabe von Staedte-/Strassennamen fuer Navigationszwecke per Sprache ausgefuehrt werden. Wuenschenswert/erforderlich ist daher eine ressourcenoptimierte Eingabe per Sprache, die auf generalistischen Sprachressourcen basiert und keine zusaetzlichen dedizierten Sprachmodelle wie Spelling-HMMs (HMM, Hidden Markov Modell) benoetigt. Bisher wurden Telefonbucheintraege haeufig durch das Buchstabieren von einzelnen Buchstaben mittels speziell trainierter Spelling-HMMs vorgenommen. Dieses bindet erhebliche zusaetzliche Ressourcen (zu den ohnehin erforderlichen Generalisten-HMMs und Digit-HMMs), die nur fuer diesen dedizierten Eingabezweck verwendet werden koennen. Daher ist es wuenschenswert, auf diesen zusaetzlichen Speicherplatz verzichten zu koennen.

This text was extracted from a PDF file.
This is the abbreviated version, containing approximately 43% of the total text.

Page 1 of 3

S

Pseudo-Spelling mit generalistischen Sprachressourcen

Idee: Klaus Lukas, DE-Muenchen

Bei Spracherkennung auf sog. Embedded Plattformen (eingebettete Systeme, vereinigen durch ihre oftmals sehr hardwarenahe Konstruktion die grosse Flexibilitaet von Software mit der Leistungsfaehigkeit der Hardware) bestehen in der Regel Einschraenkungen hinsichtlich der zur Verfuegung stehenden Ressourcen wie Speicherplatz oder Rechenleistung. Andererseits wird mittlerweile der Ausstattungsumfang (der sog. Feature Set) von Spracherkennungssystemen immer umfassender und geht ueber den konventionellen Command&Control-Anwendungsbereich hinaus. So sollen derweil auch auf digitalen Signalprozessoren komplexe Aufgaben wie das Suchen von Telefonbucheintraegen oder die Eingabe von Staedte-/Strassennamen fuer Navigationszwecke per Sprache ausgefuehrt werden. Wuenschenswert/erforderlich ist daher eine ressourcenoptimierte Eingabe per Sprache, die auf generalistischen Sprachressourcen basiert und keine zusaetzlichen dedizierten Sprachmodelle wie Spelling-HMMs (HMM, Hidden Markov Modell) benoetigt.

Bisher wurden Telefonbucheintraege haeufig durch das Buchstabieren von einzelnen Buchstaben mittels speziell trainierter Spelling-HMMs vorgenommen. Dieses bindet erhebliche zusaetzliche Ressourcen (zu den ohnehin erforderlichen Generalisten-HMMs und Digit-HMMs), die nur fuer diesen dedizierten Eingabezweck verwendet werden koennen. Daher ist es wuenschenswert, auf diesen zusaetzlichen Speicherplatz verzichten zu koennen.

Eine Ganzworteingabe fuer die Zielnamen ist fuer leistungsfaehige Systeme die benutzerfreundlichste Loesung. Diese ist aber auf kleinen Plattformen (wie einem Digitalen Signal Prozessor, DSP) haeufig nur eingeschraenkt moeglich. Grosse Vokabularien (wie Staedtenamen) erfordern damit auch eine erhebliche Bereitstellung von Ressourcen. Bei Telefonbucheintraegen muessen diese Vokabularien meist noch mittels Graphem-zu-Phonem Konversionen erzeugt werden, was weiterer Ressourcen bedarf.

Die Eingabe von Einzelbuchstaben zum Buchstabieren kann mittels vorhandener Generalisten-HMMs jedoch nur unzureichend geloest werden, da viele Buchstaben eine phonetisch aehnliche Aussprache haben (beispielsweise "A", "H", "K") und nur mittels speziell trainierter Spelling-HMMS mit entsprechender Groesse unterschieden werden koennen. Die Eingabe von speziellen Buchstabieralphabeten (z.B. "Delta", "Alpha", "Foxtrott") ist lern- und gewoehnungsbeduerftig und kann aus Gruenden der Benutzerfreundlichkeit zu Ablehnung fuehren.

Fuer ein zukuenftiges Automobil-Navigationssystem wird dieses Problem nach derzeitigem Stand der Technik derart geloest, dass das fuer sog. Digit Dialing (Digit Dialing meint die Auswahl, beispielsweise eines Listeneintrags, durch Ziffern- bzw. Zahleneingabe) genutzte Ziffern-HMM zur Eingabe der Buchstaben verwendet wird. Hierbei wird ein Schema aehnlich der Telefonzifferntastatur mit der von der SMS-Eingabe (SMS, Short Message Service) bekannten Buchs...