On contributing my Thorsten-Voice voice datasets [DE]

Thorsten Müller hat fünf TTS-Stimmdatensätze mit insgesamt 40 Stunden an deutschen Sprachdaten erstellt. In diesem von der Community verfassten Beitrag spricht er über die Bedeutung, seine Stimme zu teilen.

On contributing my Thorsten-Voice voice datasets [DE]
Photo by Amin Asbaghipour


Autor: Thorsten Müller
(
You can also read this post in English)

War es meine ursprüngliche Idee, meine Stimme unter der freigiebigen Open-Source CC0-Lizenz zu veröffentlichen, damit sie jeder ohne Einschränkungen nutzen kann? Ehrlich gesagt: nein. Tatsächlich war es fast das Gegenteil.

Als ich 2019 begann, mich intensiver mit Sprachtechnologie zu beschäftigen, hatte ich ein ganz simpel klingendes Ziel vor Augen. Ich wollte meinen eigenen Sprachassistenten entwickeln. Aber lokal (ohne Cloud-Abhängigkeit). Ich wollte kein Mikrofon in meiner Wohnung, das ständig mit irgendeinem Server im Internet kommuniziert und meine Sprachdaten austauscht. Angesichts der Sensibilität der Daten und persönlichen Gesprächen im eigenen Zuhause fühlte sich diese intransparente Abhängigkeit von (US-) Cloud-Diensten für mich unangenehm an.

Meine Faszination für Sprachinteraktion mit Technologie reicht jedoch viel weiter zurück. Als teenager in den 1990er-Jahren, als ich Serien wie Knight Rider oder Star Trek sah, war ich bereits fasziniert von der Idee, dass Menschen ganz natürlich mit Technologie sprechen und Maschinen auch antworten. Damals war das reine Hollywood Science-Fiction. Jahrzehnte später wurde es Realität.

Also begann ich damit Open-Source-Projekte zu erkunden, die zu meiner Vorstellung eines Sprachassistenten der Privatsphäre respektiert passten. Darunter war unter anderem Mycroft. Im  Umfeld dieser Community lernte ich viele tolle Menschen kennen, die sich stark für offene (Sprach) Technologien und Daten engagierten. Darunter Kathy Reid, die sich seit vielen Jahren für offene  Systeme einsetzt und heute im Mozilla Data Collective aktiv ist. 

Technisch war das alles herausfordernd und spannend. Doch die Qualität der Sprachausgabe bzw.  der TTS-Stimmen (Text-to-Speech), insbesondere im Deutschen, ließ stark zu wünschen übrig.  Eben die typischen eSpeak-Stimmen: schnell, effizient, aber völlig roboterhaft. Zum Testen okay, aber nichts, was man sich im Alltag längerfristig anhören möchte. Beim Lesen der Mycroft  Dokumentation stieß ich auf die Möglichkeit, auf Basis von Audioaufnahmen meine eigene  synthetische Stimme zu trainieren. Wenn man das heute, im Jahr 2026, liest dann denkt man  vielleicht: „Einfach ein paar Sekunden aufnehmen, fertig.“ 2019 sah die Sache ganz anders aus. Die Empfehlung lautete: Mindestens 16 Stunden sauberes, neutrales Audio aufnehmen. 

Also fing ich an aufzunehmen. Abends. An Wochenenden. Satz für Satz. Monat für Monat. 

Und trotz oder vielleicht gerade wegen meiner großen Motivation und Begeisterung habe ich sehr  schnell losgelegt und dabei viele Fehler gemacht. Ich benutzte ein billiges USB-Headset statt eines  hochwertigen Mikrofons. Ich versuchte, so klar wie möglich zu sprechen und verlor dadurch  jeglichen natürlichen Sprachfluss. Die Betonung der Sätze klang eher nach einem  überambitionierten Nachrichtensprecher als nach normalem Redefluss. Nach tausenden von  Aufnahmen (etwa 10.000) trainierte ich damit mein erstes TTS-Modell. Mein Computer lief  tagelang. Und das Ergebnis? 

Nun ja … man konnte meine Stimme irgendwie erkennen. Aber die Qualität war alles andere als  gut. Neben der Stimme gab es Störgeräusche, Brummen und Echo. Also bat ich die Mycroft Community um Hilfe und zwei interessante Dinge passierten. Erstens gab es echtes Interesse.  Deutschsprachige Community-Mitglieder fragten, ob ich die Aufnahmen oder die trainierte TTS Stimme veröffentlichen wolle. Interesse? An meiner Stimme? Obwohl ich natürlich weiß, dass es  sehr viele attraktivere und bessere Stimmen gibt. Das fühlte sich gut an.

Und zusätzlich meldete sich Dominik Kreutz aus der Mycroft Community bei mir und bot an,  meine Aufnahmen zu analysieren. Sein Hilfsangebot war simpel: „Schick mir deine Aufnahmen, ich höre sie mir an.“. Da er Audio Expertise zu haben schien, war er auch bereit die Aufnahmen zu  optimieren. Aber ich dachte: Moment mal. Der ganze Grund, warum ich dieses Projekt angefangen  habe, war doch um meine Stimme nicht ins Internet zu übertragen. Und jetzt soll ich sie einem  Fremden aus einer Online-Community schicken?! Darüber musste ich ein paar Tage nachdenken.  Schließlich traf ich eine bewusste Entscheidung. Ich wollte ihm vertrauen. Also schickte ich ihm die Daten - und habe diese Entscheidung nie bereut.

Sein Feedback zur Qualität meiner Aufnahmen war hart, aber ehrlich: Die Aufnahmen waren  schlecht. Einige waren technisch vielleicht noch zu retten, aber die meisten unbrauchbar. 

Das war ein harter Schlag! Ich hatte monatelang Aufnahmen gemacht, meine Freizeit investiert und  musste nun akzeptieren, dass vieles davon im Grunde wertlos war. Beim Anhören auf voller  Lautstärke waren dort Rauschen und weitere Störgeräusche deutlich wahrzunehmen. 

In diesem Moment lernte ich eine der wichtigsten Lektionen auf diesem Weg und im KI Umfeld im  Allgemeinen: „shit in, shit out“. Oder etwas höflicher ausgedrückt: Die Qualität deiner Daten  bestimmt die Qualität deiner Ergebnisse. 

Wenn die Eingangsdaten Rauschen enthalten, nimmt das maschinelle Lernen das ernst und erzeugt  dieses Rauschen auch in der Sprachausgabe absichtlich wieder. An diesem Punkt stand ich vor der  Wahl: aufhören oder von vorne anfangen. Aber man bekommt den Geist ja bekanntermaßen nicht  wieder in die Flasche zurück. Der Tech-Enthusiast in mir war weiterhin hoch motiviert. Also  machte ich weiter. Ich kaufte besseres Equipment, baute eine kleine Aufnahmekabine aus Holz,  Teppich und Akustikschaumstoffplatten und verbrachte die nächsten Monate meiner Freizeit  (erneut) mit vielen Aufnahmesitzungen. Gleichzeitig teilte ich meine Fortschritte mit der  Community (Mycroft und Mozilla) und erkannte, dass das Interesse an freien deutschen  Stimmdaten real war. 

Und dann kam die große Frage: Was mache ich mit den vielen tausenden Aufnahmen meiner  Stimme? Veröffentliche ich gar nichts? Nur Auszüge davon? Nur ein fertig trainiertes TTS-Modell?  Oder auch alle Aufnahmen komplett? Und wenn ja, mit Einschränkungen oder komplett offen? 

Mir war die Tragweite dieser Fragen sehr bewusst. Sprachtechnologie würde eindeutig an  Bedeutung gewinnen – da war ich mir damals schon recht sicher. Und ich wusste: Wenn ich meine  Stimme veröffentliche, gebe ich die Kontrolle auf. Vielleicht schränke ich damit sogar meine persönlichen zukünftigen Möglichkeiten ein. 

ielleicht können wir demnächst unsere Wohnungstüren per Stimme öffnen oder auch auf weitere  sensible Bereiche wie Bankportale über die Stimme zugreifen. Solche Nutzungsmöglichkeiten kann ich dann nicht nutzen, wenn meine Stimme als Allgemeingut verfügbar ist. Aufgrund der rasend  schnellen Entwicklung gelten diese Probleme allerdings mittlerweile auch für Menschen, die ihre  Stimme nicht willentlich verschenkt haben. Aber das ist noch eine ganz andere Herausforderung. 

Und natürlich kamen weiterhin die offensichtlichen Bedenken auf. Was, wenn jemand meine  Stimme für Dinge benutzt, mit denen ich absolut nicht einverstanden bin? Politisch sehr  fragwürdige Inhalte? Extremismus? Betrug? Ich hatte davor zwar keine Angst, aber ich habe diese  möglichen Risiken sehr ernst genommen. 

Nachdem ich einige Tage darüber nachgedacht und mit Familie und Freunden gesprochen hatte, traf ich meine Entscheidung. Wenn ich das mache, dann richtig. CC0! Keine Einschränkungen. Genau wie bei Mozilla Common Voice. Ich wollte niemanden ausschließen. Weder Forschung noch Open Source Projekte oder den Einsatz für kommerzielle Zwecke. Ich wollte nicht anfangen, ständig „Ja,  aber nur unter bestimmten Bedingungen“ hinzuzufügen. Wenn offen, dann wirklich offen.

Rückblickend überrascht es mich immer noch, was sich im Laufe der Jahre aus „Thorsten-Voice“  entwickelt hat. Glücklicherweise primär, wenn auch nicht ausschließlich, in sehr positiver Weise. 

Irgendwann schickte mir jemand einen Link zu einem Video aus der sogenannten Reichsbürger Szene, welches mit meiner KI-Stimme vertont wurde. Das war extrem unangenehm, denn diese  Sichtweise lehne ich komplett ab. Aber in diesem Moment wurde mir bewusst – aus einem  theoretischen Risiko, wurde Realität. Meine Thorsten-Voice Stimme wurde in einem mir sehr  unangenehmen Zusammenhang verwendet. Kein schönes Gefühl. Und dennoch habe ich meine  Entscheidung nie bereut. Denn die positiven Auswirkungen überwiegen deutlich. 

Ich habe viele ermutigende Nachrichten erhalten. Ein Informatiklehrer in Berlin erzählte mir, dass  seine Klasse nun Sprachprojekte (bspw. ein Telefonmenü mit dynamischer Sprachausgabe) lokal  und ohne Cloud-Abhängigkeit entwickeln konnte. Das Schweizer Projekt „Lernstick“ nutzt unter  anderem meine Stimme für Barrierefreiheit im Bildungsbereich. Thorsten-Voice wird in Smart Home-Systemen eingesetzt. Jemand erzählte mir, meine Stimme ertöne von der Decke einer Finca  auf Mallorca. Und es gibt Anwendungsfälle in Screenreadern, die Menschen mit Seh- oder  Leseschwächen unterstützen. Und dies sind nur einige der positiven Rückmeldungen, die ich  regelmäßig bekomme. 

In solchen Momenten wird mir immer wieder bewusst: Meine Stimmspende bewirkt Dinge. 

Ich füge meinen Datensätzen immer eine persönliche Notiz hinzu. Nicht als Einschränkung,  sondern als persönliches Statement, da ich nicht beeinflussen kann, was mit meiner Stimme gesagt  wird. Aber ich kann kommunizieren, wofür ich als Person stehe. 

Ich glaube an die Gleichheit aller Menschen, unabhängig von Geschlecht, sexueller  Orientierung, Religion, Hautfarbe oder Geburtsort. Ich glaube an eine globale Welt, in der  jeder überall willkommen ist. Dass Wissen und Bildung für alle frei zugänglich sein sollte.  Und ich glaube, dass wir als Menschheit zu Großartigem fähig sind, wenn wir einander  vertrauen und zusammenarbeiten.

Heute hat sich die Situation weiterentwickelt. Die Erstellung synthetischer Stimmen ist deutlich  einfacher geworden. Man benötigt keine 16 Stunden Audiomaterial mehr. Oft genügen wenige  Sekunden. Eine einfache Sprachnachricht kann ausreichen. 

Dies birgt sowohl Chancen als auch Herausforderungen – für jeden von uns und als Gesellschaft im  Ganzen. Genau deshalb halte ich offene, transparente und ethisch fundierte Datensätze für so  wichtig und Plattformen wie Mozilla Data Collective für so bedeutsam. Viele moderne KI-Systeme  wurden mit Daten trainiert, deren Herkunft unklar und deren Einwilligung oft fragwürdig ist.  Offene Daten bieten eine echte Alternative. 

Organisationen wie Mozilla legen mit Projekten wie Common Voice und Data Collective seit Jahren den Grundstein dafür. Im Laufe der Zeit hatte ich die Gelegenheit, mit tollen Menschen in diesem  Bereich in Kontakt zu treten, die sich sehr engagiert für Offenheit und verantwortungsvollen  Umgang mit Daten einsetzen. Vielleicht ermutigt meine kurze Geschichte andere, sich ebenfalls  einzubringen. Ich kann nur sagen: Es fühlt sich gut an!

Rückblickend, nach einigen Jahren, kann ich mit voller Überzeugung sagen: Ich habe es nie bereut,  meine Stimme „verschenkt“ zu haben. Ich würde es jederzeit wieder tun. Trotz möglicher Risiken.  Denn ich bin fest davon überzeugt:

Wenn wir einander vertrauen, 
wenn wir Wissen teilen, 
wenn wir offen zusammenarbeiten, 
dann können wir gemeinsam viel Gutes erreichen. 

(und davon kann die Welt aktuell sicherlich einiges vertragen)