Robbinaer

Das Technikblog aus dem Robbenradio

Aufruf von Oralux: Nuance Vocalizer für Linux

Geschrieben von Steffen Schultz 5 Kommentare

Wer sich als blinder Anwender erstmals mit Linux beschäftigt, wird schnell die von anderen Betriebssystemen gewohnten Sprachausgaben vermissen, da derzeit keine der unter Linux verfügbaren Stimmen an die Qualität kommerzieller Anbieter heranreicht. Als quelloffene Variante steht insbesondere für deutsche Nutzer fast nur die Espeak-Stimme zur Verfügung. Alternativ ist die auch unter Windows immer noch sehr beliebte Eloquence-Sprachausgabe als kommerzielles Produkt in Form von Voxin für einen kleinen Betrag erhältlich. Allerdings ist die einst von IBM entwickelte Sprachausgabe schon sehr alt und wird an sich nicht mehr weiterentwickelt, sondern lediglich auf aktuelle Distributionsversionen angepasst.

Oralux, die hinter dem Voxin-Projekt stehende Organisation, möchte nun herausfinden, ob Interesse an einer neuen und qualitativ hochwertigeren Sprachausgabe besteht. Diese würde auf der von Nuance bekannten Vocalizer-Technologie basieren und zahlreiche Sprachen unterstützen. Diese Sprachausgabe wäre problemlos sowohl mit Orca, als auch auf der Shell mit Speakup oder Emacspeak einsetzbar. Der Preis für die Stimmen ist naturgemäß etwas höher als die bisher angebotene Voxin-Stimme und liegt je nach Qualität der Stimme bei mindestens 58 €.

Da es sich für Oralux lohnen muss, diese Sprachausgabe zu lizensieren, bittet man um zahlreiche Rückmeldungen, ob daran überhaupt Interesse besteht. Wer also eine bessere Sprachausgabe für sein Linux-System haben möchte und bereit ist, den genannten Betrag dafür zu zahlen, sollte nicht zögern und per E-Mail an contact (at) oralux (dot) org sein Interesse bekunden. Die gewünschte Sprache sollte dabei angegeben werden. Eine Liste der verfügbaren Sprachen findet sich auf der Oralux-Website.

NVDA: Neue Sprachausgabe mit alten Prinzipien in Entwicklung

Geschrieben von Steffen Schultz keine Kommentare

Für den freien und quelloffenen Bildschirmleser NVDA (Nonvisual Desktop Access) befindet sich derzeit eine neue Sprachausgabe in der Entwicklung. Diese basiert jedoch auf einer verhältnismäßig alten Technologie, nämlich der Formant-Synthese, wie sie bis in die 90er Jahre hinein für TTS-Systeme noch Standard war. Ein bekannter Vertreter dieses Verfahrens zur Sprachausgabe war die sogenannte Klatt-Synthese (benannt nach ihrem Erfinder Dennis Klatt), die wiederum Sprachausgaben wie Dectalk und Eloquence hervorbrachte, letztere kommt bis heute als Standardstimme des kommerziellen Screen-Readers JAWS zum Einsatz. Doch so überholt die Klatt-Synthese mittlerweile sein mag, so gern wird sie vor allem von blinden Computernutzern immer noch verwendet. Wahrscheinlich vor allem deshalb, weil trotz neuester Entwicklungen auf dem Gebiet natürlich klingender Sprachausgaben die auf Formant-Synthese basierenden Stimmen in Sachen Reaktionsschnelligkeit und Speicherauslastung immer noch um ein Vielfaches überlegen sind. Und genau darauf komt es einem blinden Nutzer an, möchte er seinen Computer ebenso schnell bedienen können wie ein sehender Nutzer. Den etwas synthetischen Klang einer Sprachausgabe nimmt man da bis zu einem bestimmten Grad gern in Kauf.

Warum das Rad neu erfinden?

Bislang wurde als Standardstimme für NVDA die quelloffene Sprachausgabe eSpeak ausgeliefert, die auch auf Linuxsystemen für z. B. den Screen-Reader Orca zum Einsatz kommt. Die Modulation dieser Sprachausgabe ist aber selbst für so manch hartgesottenen Nutzer eher eine Zumutung denn eine Hilfe und erinnert mit ihrem robotischen Klang an schlecht produzierte SciFi-Filme der 60er Jahre. Diese Tatsache lässt viele Nutzer zögern, von ihrem bisherigen Screen-Reader auf eine freie und teils sogar überlegenere Alternative umzusteigen, da dies zusätzlich den Erwerb kommerzieller TTS-Systeme bedeuten könnte, deren zweifelsohne hervorragende Qualität jedoch zu Lasten der Schnelligkeit gehen kann. Zwar gibt es für NVDA mittlerweile sogar ein Eloquence-Addon und des Weiteren die Möglichkeit, über die SAPI-Schnittstelle jede im System installierte Sprachausgabe anzusprechen - somit also auch die als SAPI-Gegenstück zur Eloquence anzusehende IBM ViaVoice TTS -, aber offiziell dürfen diese Stimmen gar nicht mehr zum Download angeboten werden. Es gibt jedoch trotzdem genügend halb-legale Download-Quellen, die sich nach kurzer Recherche im Internet finden lassen.
Hier nun setzt die Idee des NV Speech Players an. Er soll eine Neuentwicklung nach bewährten Prinzipien sein. Auch wenn die Quellcodes der Eloquence und anderer Klatt-Systeme nie öffentlich zugänglich waren, gibt es doch genügend Forschungsmaterialien und Beispiel-Quelltexte, auf Basis derer sich durchaus eine neue, auf der klatt-Synthese aufbauende Stimme erstellen lässt. Und die ersten Ergebnisse können sich durchaus hören lassen: Eine Testversion des NV Speech Players, die bislang jedoch nur Englisch spricht, erinnert schon stark an ihre Vorbilder Dectalk und Eloquence und ist schon jetzt der eSpeak klanglich weit überlegen.

Weitere Informationen über die technischen Hintergründe sowie aktuelle Testversionen des benötigten NVDA-Addons finden sich auf der Projektseite bei Bitbucket.

Artikel-Feed (RSS) dieser Tag