On contributing my Thorsten-Voice voice datasets [DE]
Thorsten Müller hat fünf TTS-Stimmdatensätze mit insgesamt 40 Stunden an deutschen Sprachdaten erstellt. In diesem von der Community verfassten Beitrag spricht er über die Bedeutung, seine Stimme zu teilen.
Autor: Thorsten Müller
(You can also read this post in English)
War es meine ursprüngliche Idee, meine Stimme unter der freigiebigen Open-Source CC0-Lizenz zu veröffentlichen, damit sie jeder ohne Einschränkungen nutzen kann? Ehrlich gesagt: nein. Tatsächlich war es fast das Gegenteil.
Als ich 2019 begann, mich intensiver mit Sprachtechnologie zu beschäftigen, hatte ich ein ganz simpel klingendes Ziel vor Augen. Ich wollte meinen eigenen Sprachassistenten entwickeln. Aber lokal (ohne Cloud-Abhängigkeit). Ich wollte kein Mikrofon in meiner Wohnung, das ständig mit irgendeinem Server im Internet kommuniziert und meine Sprachdaten austauscht. Angesichts der Sensibilität der Daten und persönlichen Gesprächen im eigenen Zuhause fühlte sich diese intransparente Abhängigkeit von (US-) Cloud-Diensten für mich unangenehm an.
Meine Faszination für Sprachinteraktion mit Technologie reicht jedoch viel weiter zurück. Als teenager in den 1990er-Jahren, als ich Serien wie Knight Rider oder Star Trek sah, war ich bereits fasziniert von der Idee, dass Menschen ganz natürlich mit Technologie sprechen und Maschinen auch antworten. Damals war das reine Hollywood Science-Fiction. Jahrzehnte später wurde es Realität.
Also begann ich damit Open-Source-Projekte zu erkunden, die zu meiner Vorstellung eines Sprachassistenten der Privatsphäre respektiert passten. Darunter war unter anderem Mycroft. Im Umfeld dieser Community lernte ich viele tolle Menschen kennen, die sich stark für offene (Sprach) Technologien und Daten engagierten. Darunter Kathy Reid, die sich seit vielen Jahren für offene Systeme einsetzt und heute im Mozilla Data Collective aktiv ist.
Technisch war das alles herausfordernd und spannend. Doch die Qualität der Sprachausgabe bzw. der TTS-Stimmen (Text-to-Speech), insbesondere im Deutschen, ließ stark zu wünschen übrig. Eben die typischen eSpeak-Stimmen: schnell, effizient, aber völlig roboterhaft. Zum Testen okay, aber nichts, was man sich im Alltag längerfristig anhören möchte. Beim Lesen der Mycroft Dokumentation stieß ich auf die Möglichkeit, auf Basis von Audioaufnahmen meine eigene synthetische Stimme zu trainieren. Wenn man das heute, im Jahr 2026, liest dann denkt man vielleicht: „Einfach ein paar Sekunden aufnehmen, fertig.“ 2019 sah die Sache ganz anders aus. Die Empfehlung lautete: Mindestens 16 Stunden sauberes, neutrales Audio aufnehmen.
Also fing ich an aufzunehmen. Abends. An Wochenenden. Satz für Satz. Monat für Monat.
Und trotz oder vielleicht gerade wegen meiner großen Motivation und Begeisterung habe ich sehr schnell losgelegt und dabei viele Fehler gemacht. Ich benutzte ein billiges USB-Headset statt eines hochwertigen Mikrofons. Ich versuchte, so klar wie möglich zu sprechen und verlor dadurch jeglichen natürlichen Sprachfluss. Die Betonung der Sätze klang eher nach einem überambitionierten Nachrichtensprecher als nach normalem Redefluss. Nach tausenden von Aufnahmen (etwa 10.000) trainierte ich damit mein erstes TTS-Modell. Mein Computer lief tagelang. Und das Ergebnis?
Nun ja … man konnte meine Stimme irgendwie erkennen. Aber die Qualität war alles andere als gut. Neben der Stimme gab es Störgeräusche, Brummen und Echo. Also bat ich die Mycroft Community um Hilfe und zwei interessante Dinge passierten. Erstens gab es echtes Interesse. Deutschsprachige Community-Mitglieder fragten, ob ich die Aufnahmen oder die trainierte TTS Stimme veröffentlichen wolle. Interesse? An meiner Stimme? Obwohl ich natürlich weiß, dass es sehr viele attraktivere und bessere Stimmen gibt. Das fühlte sich gut an.
Und zusätzlich meldete sich Dominik Kreutz aus der Mycroft Community bei mir und bot an, meine Aufnahmen zu analysieren. Sein Hilfsangebot war simpel: „Schick mir deine Aufnahmen, ich höre sie mir an.“. Da er Audio Expertise zu haben schien, war er auch bereit die Aufnahmen zu optimieren. Aber ich dachte: Moment mal. Der ganze Grund, warum ich dieses Projekt angefangen habe, war doch um meine Stimme nicht ins Internet zu übertragen. Und jetzt soll ich sie einem Fremden aus einer Online-Community schicken?! Darüber musste ich ein paar Tage nachdenken. Schließlich traf ich eine bewusste Entscheidung. Ich wollte ihm vertrauen. Also schickte ich ihm die Daten - und habe diese Entscheidung nie bereut.
Sein Feedback zur Qualität meiner Aufnahmen war hart, aber ehrlich: Die Aufnahmen waren schlecht. Einige waren technisch vielleicht noch zu retten, aber die meisten unbrauchbar.
Das war ein harter Schlag! Ich hatte monatelang Aufnahmen gemacht, meine Freizeit investiert und musste nun akzeptieren, dass vieles davon im Grunde wertlos war. Beim Anhören auf voller Lautstärke waren dort Rauschen und weitere Störgeräusche deutlich wahrzunehmen.
In diesem Moment lernte ich eine der wichtigsten Lektionen auf diesem Weg und im KI Umfeld im Allgemeinen: „shit in, shit out“. Oder etwas höflicher ausgedrückt: Die Qualität deiner Daten bestimmt die Qualität deiner Ergebnisse.
Wenn die Eingangsdaten Rauschen enthalten, nimmt das maschinelle Lernen das ernst und erzeugt dieses Rauschen auch in der Sprachausgabe absichtlich wieder. An diesem Punkt stand ich vor der Wahl: aufhören oder von vorne anfangen. Aber man bekommt den Geist ja bekanntermaßen nicht wieder in die Flasche zurück. Der Tech-Enthusiast in mir war weiterhin hoch motiviert. Also machte ich weiter. Ich kaufte besseres Equipment, baute eine kleine Aufnahmekabine aus Holz, Teppich und Akustikschaumstoffplatten und verbrachte die nächsten Monate meiner Freizeit (erneut) mit vielen Aufnahmesitzungen. Gleichzeitig teilte ich meine Fortschritte mit der Community (Mycroft und Mozilla) und erkannte, dass das Interesse an freien deutschen Stimmdaten real war.
Und dann kam die große Frage: Was mache ich mit den vielen tausenden Aufnahmen meiner Stimme? Veröffentliche ich gar nichts? Nur Auszüge davon? Nur ein fertig trainiertes TTS-Modell? Oder auch alle Aufnahmen komplett? Und wenn ja, mit Einschränkungen oder komplett offen?
Mir war die Tragweite dieser Fragen sehr bewusst. Sprachtechnologie würde eindeutig an Bedeutung gewinnen – da war ich mir damals schon recht sicher. Und ich wusste: Wenn ich meine Stimme veröffentliche, gebe ich die Kontrolle auf. Vielleicht schränke ich damit sogar meine persönlichen zukünftigen Möglichkeiten ein.
ielleicht können wir demnächst unsere Wohnungstüren per Stimme öffnen oder auch auf weitere sensible Bereiche wie Bankportale über die Stimme zugreifen. Solche Nutzungsmöglichkeiten kann ich dann nicht nutzen, wenn meine Stimme als Allgemeingut verfügbar ist. Aufgrund der rasend schnellen Entwicklung gelten diese Probleme allerdings mittlerweile auch für Menschen, die ihre Stimme nicht willentlich verschenkt haben. Aber das ist noch eine ganz andere Herausforderung.
Und natürlich kamen weiterhin die offensichtlichen Bedenken auf. Was, wenn jemand meine Stimme für Dinge benutzt, mit denen ich absolut nicht einverstanden bin? Politisch sehr fragwürdige Inhalte? Extremismus? Betrug? Ich hatte davor zwar keine Angst, aber ich habe diese möglichen Risiken sehr ernst genommen.
Nachdem ich einige Tage darüber nachgedacht und mit Familie und Freunden gesprochen hatte, traf ich meine Entscheidung. Wenn ich das mache, dann richtig. CC0! Keine Einschränkungen. Genau wie bei Mozilla Common Voice. Ich wollte niemanden ausschließen. Weder Forschung noch Open Source Projekte oder den Einsatz für kommerzielle Zwecke. Ich wollte nicht anfangen, ständig „Ja, aber nur unter bestimmten Bedingungen“ hinzuzufügen. Wenn offen, dann wirklich offen.
Rückblickend überrascht es mich immer noch, was sich im Laufe der Jahre aus „Thorsten-Voice“ entwickelt hat. Glücklicherweise primär, wenn auch nicht ausschließlich, in sehr positiver Weise.
Irgendwann schickte mir jemand einen Link zu einem Video aus der sogenannten Reichsbürger Szene, welches mit meiner KI-Stimme vertont wurde. Das war extrem unangenehm, denn diese Sichtweise lehne ich komplett ab. Aber in diesem Moment wurde mir bewusst – aus einem theoretischen Risiko, wurde Realität. Meine Thorsten-Voice Stimme wurde in einem mir sehr unangenehmen Zusammenhang verwendet. Kein schönes Gefühl. Und dennoch habe ich meine Entscheidung nie bereut. Denn die positiven Auswirkungen überwiegen deutlich.
Ich habe viele ermutigende Nachrichten erhalten. Ein Informatiklehrer in Berlin erzählte mir, dass seine Klasse nun Sprachprojekte (bspw. ein Telefonmenü mit dynamischer Sprachausgabe) lokal und ohne Cloud-Abhängigkeit entwickeln konnte. Das Schweizer Projekt „Lernstick“ nutzt unter anderem meine Stimme für Barrierefreiheit im Bildungsbereich. Thorsten-Voice wird in Smart Home-Systemen eingesetzt. Jemand erzählte mir, meine Stimme ertöne von der Decke einer Finca auf Mallorca. Und es gibt Anwendungsfälle in Screenreadern, die Menschen mit Seh- oder Leseschwächen unterstützen. Und dies sind nur einige der positiven Rückmeldungen, die ich regelmäßig bekomme.
In solchen Momenten wird mir immer wieder bewusst: Meine Stimmspende bewirkt Dinge.
Ich füge meinen Datensätzen immer eine persönliche Notiz hinzu. Nicht als Einschränkung, sondern als persönliches Statement, da ich nicht beeinflussen kann, was mit meiner Stimme gesagt wird. Aber ich kann kommunizieren, wofür ich als Person stehe.
Ich glaube an die Gleichheit aller Menschen, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geburtsort. Ich glaube an eine globale Welt, in der jeder überall willkommen ist. Dass Wissen und Bildung für alle frei zugänglich sein sollte. Und ich glaube, dass wir als Menschheit zu Großartigem fähig sind, wenn wir einander vertrauen und zusammenarbeiten.
Heute hat sich die Situation weiterentwickelt. Die Erstellung synthetischer Stimmen ist deutlich einfacher geworden. Man benötigt keine 16 Stunden Audiomaterial mehr. Oft genügen wenige Sekunden. Eine einfache Sprachnachricht kann ausreichen.
Dies birgt sowohl Chancen als auch Herausforderungen – für jeden von uns und als Gesellschaft im Ganzen. Genau deshalb halte ich offene, transparente und ethisch fundierte Datensätze für so wichtig und Plattformen wie Mozilla Data Collective für so bedeutsam. Viele moderne KI-Systeme wurden mit Daten trainiert, deren Herkunft unklar und deren Einwilligung oft fragwürdig ist. Offene Daten bieten eine echte Alternative.
Organisationen wie Mozilla legen mit Projekten wie Common Voice und Data Collective seit Jahren den Grundstein dafür. Im Laufe der Zeit hatte ich die Gelegenheit, mit tollen Menschen in diesem Bereich in Kontakt zu treten, die sich sehr engagiert für Offenheit und verantwortungsvollen Umgang mit Daten einsetzen. Vielleicht ermutigt meine kurze Geschichte andere, sich ebenfalls einzubringen. Ich kann nur sagen: Es fühlt sich gut an!
Rückblickend, nach einigen Jahren, kann ich mit voller Überzeugung sagen: Ich habe es nie bereut, meine Stimme „verschenkt“ zu haben. Ich würde es jederzeit wieder tun. Trotz möglicher Risiken. Denn ich bin fest davon überzeugt:
Wenn wir einander vertrauen,
wenn wir Wissen teilen,
wenn wir offen zusammenarbeiten,
dann können wir gemeinsam viel Gutes erreichen.
(und davon kann die Welt aktuell sicherlich einiges vertragen)