NVDA: Neue Sprachausgabe mit alten Prinzipien in Entwicklung

Geschrieben von Steffen Schultz keine Kommentare
Kategorisiert in : Software Schlüsselwörter : A11Y, NVDA, OpenSource, TTS

Für den freien und quelloffenen Bildschirmleser NVDA (Nonvisual Desktop Access) befindet sich derzeit eine neue Sprachausgabe in der Entwicklung. Diese basiert jedoch auf einer verhältnismäßig alten Technologie, nämlich der Formant-Synthese, wie sie bis in die 90er Jahre hinein für TTS-Systeme noch Standard war. Ein bekannter Vertreter dieses Verfahrens zur Sprachausgabe war die sogenannte Klatt-Synthese (benannt nach ihrem Erfinder Dennis Klatt), die wiederum Sprachausgaben wie Dectalk und Eloquence hervorbrachte, letztere kommt bis heute als Standardstimme des kommerziellen Screen-Readers JAWS zum Einsatz. Doch so überholt die Klatt-Synthese mittlerweile sein mag, so gern wird sie vor allem von blinden Computernutzern immer noch verwendet. Wahrscheinlich vor allem deshalb, weil trotz neuester Entwicklungen auf dem Gebiet natürlich klingender Sprachausgaben die auf Formant-Synthese basierenden Stimmen in Sachen Reaktionsschnelligkeit und Speicherauslastung immer noch um ein Vielfaches überlegen sind. Und genau darauf komt es einem blinden Nutzer an, möchte er seinen Computer ebenso schnell bedienen können wie ein sehender Nutzer. Den etwas synthetischen Klang einer Sprachausgabe nimmt man da bis zu einem bestimmten Grad gern in Kauf.

Warum das Rad neu erfinden?

Bislang wurde als Standardstimme für NVDA die quelloffene Sprachausgabe eSpeak ausgeliefert, die auch auf Linuxsystemen für z. B. den Screen-Reader Orca zum Einsatz kommt. Die Modulation dieser Sprachausgabe ist aber selbst für so manch hartgesottenen Nutzer eher eine Zumutung denn eine Hilfe und erinnert mit ihrem robotischen Klang an schlecht produzierte SciFi-Filme der 60er Jahre. Diese Tatsache lässt viele Nutzer zögern, von ihrem bisherigen Screen-Reader auf eine freie und teils sogar überlegenere Alternative umzusteigen, da dies zusätzlich den Erwerb kommerzieller TTS-Systeme bedeuten könnte, deren zweifelsohne hervorragende Qualität jedoch zu Lasten der Schnelligkeit gehen kann. Zwar gibt es für NVDA mittlerweile sogar ein Eloquence-Addon und des Weiteren die Möglichkeit, über die SAPI-Schnittstelle jede im System installierte Sprachausgabe anzusprechen - somit also auch die als SAPI-Gegenstück zur Eloquence anzusehende IBM ViaVoice TTS -, aber offiziell dürfen diese Stimmen gar nicht mehr zum Download angeboten werden. Es gibt jedoch trotzdem genügend halb-legale Download-Quellen, die sich nach kurzer Recherche im Internet finden lassen.
Hier nun setzt die Idee des NV Speech Players an. Er soll eine Neuentwicklung nach bewährten Prinzipien sein. Auch wenn die Quellcodes der Eloquence und anderer Klatt-Systeme nie öffentlich zugänglich waren, gibt es doch genügend Forschungsmaterialien und Beispiel-Quelltexte, auf Basis derer sich durchaus eine neue, auf der klatt-Synthese aufbauende Stimme erstellen lässt. Und die ersten Ergebnisse können sich durchaus hören lassen: Eine Testversion des NV Speech Players, die bislang jedoch nur Englisch spricht, erinnert schon stark an ihre Vorbilder Dectalk und Eloquence und ist schon jetzt der eSpeak klanglich weit überlegen.

Weitere Informationen über die technischen Hintergründe sowie aktuelle Testversionen des benötigten NVDA-Addons finden sich auf der Projektseite bei Bitbucket.

Über den Autor

Steffen Schultz, ein lichtloser Gelegenheitsblogger aus dem Norden Brandenburgs. Ich bin auf den Betriebssystemen Windows, Linux und Android unterwegs und berichte u. a. über meine Erfahrungen beim Nutzen von Anwendungen mit Zugangstechnologien für Blinde.

Schreibe einen Kommentar

 Angaben merken
Was ist der erste Buchstabe des Wortes whteg ?

Kommentare-Feed (RSS) dieses Artikels