Wie du mit KI ganz einfach deine Stimme klonst und deine YouTube-Videos mehrsprachig anbieten kannst

Wie du mit KI ganz einfach deine Stimme klonst und deine YouTube-Videos mehrsprachig anbieten kannst

Möchtest du mehr zum Thema erfahren?

Als YouTube in jüngster Vergangenheit damit anfing, Videoinhalte mithilfe von Künstlicher Intelligenz automatisch in verschiedene Sprachen zu übersetzen, war der Aufschrei groß. Zu viele der automatisch übersetzten Titel passten nicht, zu künstlich wirkte die roboterhafte Stimme, die den maschinell übersetzten Videoinhalt vortrug.

Doch dann tat sich eine ganze Menge und ich recherchierte und fand viele durchdachte Services, die genau das Gleiche taten. Nur viel besser, aufwendiger und mithilfe von Cloning. Voice Cloning sorgt dafür, dass zwar weiterhin eine Roboterstimme zum Einsatz kommt, aber eine, die sich ganz genau so wie deine eigene anhört.

Also stieg ich ab in diesen Kaninchenbau, probierte, testete, zahlte viel Geld für Premium-Accounts und werde dir hier nun meine Ergebnisse aus all diesen Versuchen offenlegen. Denn tatsächlich ist es möglich, seine Videos so zu übersetzen, dass kaum hörbar ist, dass dies mittels KI passiert ist.

Was genau meint das Klonen einer Stimme per KI?

KI hat sich in den vergangenen Jahren rasant weiterentwickelt und ist in Bereiche vorgedrungen, die fernab der bekannten Chatbots liegen. KI kann Bilder aus dem Nichts erzeugen, neuerdings sogar Videos kreieren und selbstverständlich auch problemlos die Tonlage der eigenen Stimme kopieren, um darauf aufbauend künstlich erzeugte Voice-Overs zu erstellen.

Das Klonen einer Stimme, in Englisch einfach Voice Cloning genannt, versucht dabei, auf Basis von KI und mithilfe von bereits vorhandenen Sprachaufnahmen, eine digitale Version deiner eigenen Stimme zu erzeugen. Ziel dabei ist immer, dass die vorgegebene Klangfarbe möglichst genau getroffen wird.

Elevenlabs Voice Changer
Der Elevenlabs Voice Changer

Technisch gesehen nutzen diese KIs Text-to-Speech (TTS) und Voice-Synthesis-Modelle. Darunter Tacotron 2 (Google), VITS (Kakao) oder eben Whisper mit TTS (OpenAI). Es gibt aber noch einige mehr, die sich mit dem Klonen von Stimmen befassen. Mal gelingt das besser, mal schlechter.

Meist reicht dabei bereits eine kurze Aufnahme von wenigen Minuten aus, um daraus einen Klon der eigenen Stimme zu erzeugen. Das ist verblüffend, vor allem weil es sich teilweise wirklich erschreckend authentisch und somit echt anhört. Ich selbst war komplett überrascht, wie exakt die KI meine Stimme kopierte. Doch dazu später noch mehr.

Welche Services gibt es, um die eigene Stimme zu klonen?

Da könnte ich nun sehr weit ausholen, denn inzwischen tummeln sich natürlich eine Vielzahl an Anbietern auf dem Markt der KI-Stimmen. Alle mal mehr oder weniger gut und alle mit bestimmten Vorteilen – oft aber auch Nachteilen. Gerade preislich und qualitativ gibt es dabei die größten Unterschiede.

Empfehlenswert sind ElevenLabs, die sehr natürliche Stimmen erzeugen können. Resemble.ai, was eine ausgeglichene Qualität liefert. Und mein persönlicher Favorit Dittodub, welches sich ganz konkret an YouTuber richtet und am einfachsten zu bedienen ist. Marktführer ist aber klar Elevenlabs.

Letzteres empfehle ich dir daher auch aus voller Überzeugung und beziehe mich hier auf meine eigenen Tests mit dieser Plattform. Das hat viele stichhaltige Gründe, vor allem aber, weil sich YouTube-Videos damit meiner Erfahrung nach am komfortabelsten in weitere Sprachen synchronisieren lassen, die sich teilweise unglaublich authentisch und flüssig anhören.

Dittodub zum Synchronisieren von YouTube-Videos nutzen

Dein YouTube-Projekt anlegen
Dein YouTube-Projekt anlegen

Das Wunderbare bei Dittodub ist, dass du den Service für einen Dollar relativ einfach ausprobieren kannst. Damit lassen sich dann bereits mehrere kurze Videos oder auch YouTube Shorts übersetzen und mit einer Klonstimme synchronisieren. Auf diese Weise habe ich den Dienst ebenfalls getestet, da sich Shorts für den ersten Versuch besser eignen als lange Videos, die entsprechend viel von der Zeit verbrauchen, die es zum Start dazu gibt. Außerdem sind Shorts schnelllebig und es zeigt sich nach einigen Wochen bereits, ob du ein internationales Publikum anziehen kannst oder eben nicht.

Hast du dich bei Dittodub registriert und angemeldet, landest du direkt auf dem Dashboard mit deinen Projekten. Hier erstellst du nun ein neues. Jetzt kannst du entweder das Video direkt bei Dittodub hochladen, oder erst auf YouTube und dann den Link einfügen bzw. deinen eigenen YouTube-Kanal verlinken. Letzteres ist die einfachste und wohl auch angenehmste Methode.

Anschließend wählst du noch die gewünschte Sprache aus. Jede Sprache wird einzeln konvertiert und benötigt daher auch zwingend Credits, also Zeit. Wenn du ein Video mit einer Minute Länge also in drei weitere Sprachen synchronisierst, bekommst du auch 3 Minuten abgezogen. Das ist wichtig zu wissen. Am besten ist es, du nutzt wirklich nur die Sprachen, die in deinen YouTube-Analytics erscheinen, wenn du diese nach Ländern sortierst. Probiere erst die Länder zu erreichen, in denen du ohnehin schon erste Klicks angezogen hast.

Bei mir waren das im Test Englisch, Italienisch und Koreanisch. Frag mich nicht, warum das so ist. Aber in den Analytics tauchten diese Länder auf und ich wollte herausfinden, ob eine Synchronisierung mir mehr Views einbringt und ich so vielleicht auch ein größeres Publikum dort erreichen kann.

Die eigene Stimme mithilfe von Dittodub klonen

Klone deine eigene Stimme
Klone deine eigene Stimme

Im Grunde ist die Sache bei Dittodub ganz einfach. Genau das ist der Unterschied zu anderen Services dieser Art, die es einem oft unnötig schwer machen. Du musst nur dein Video auswählen, die gewünschte Sprache der Synchronisation wählen und anschließend auf »Generate Trascript« klicken.

Dittdub erstellt nun ein Transkript des Videos. Also eine Textform des Gesprochenen. Das ist wichtig, da darauf aufbauend dann die eigentliche Übersetzung entsteht. Deshalb muss der transkribierte Text auch händisch überprüft und bestätigt werden. Das wiederum geschieht im nächsten Schritt.

Dort startest du das Video und liest dir den übersetzten Text dazu durch. Passt etwas nicht, kannst du es per Hand korrigieren. Hast du es kontrolliert, gehst du oben auf den »Speaker« und erstellst eine neue Stimme oder wählst eine bereits vorhandene. Dieser Schritt ist nur einmalig notwendig.

Wichtig ist zu erwähnen, dass du beim Erstellen der Stimme nach Möglichkeit ein längeres Video hochladen solltest. Je mehr vom Original vorhanden ist, desto authentischer wird sich die geklonte Stimme anhören.

Hast du eine Stimme hinzugefügt, klickst du unten rechts auf »Validate« und bestätigst damit, dass alles korrekt ist. Nun erstellt Dittodub deine KI-Stimme und übersetzt (bei YouTube-Videos) auch automatisch die Metadaten für dich.

KI-Stimme für YouTube Videos nutzen

Sobald die Bearbeitung fertig ist, kannst du deine geklonte Stimme testen. Oben rechts findest du alle Sprachen, in die Dittodub dein Video übersetzt hat. Ein Klick lädt diese und sobald du das Video abspielst, wird die dazugehörige Sprachversion abgespielt.

Videos in Ditto übersetzen
Videos in Ditto übersetzen

Die Metadaten kopierst du über das Icon und kannst sie dann direkt bei YouTube hinzufügen. Die übersetzte Fassung deiner Stimme hingegen, lädst du als Audiodatei herunter. Auch diese fügst du dann in YouTube deinem Video hinzu.

All das geht in den Details deines Videos bei YouTube. Dort findest du den Reiter »Sprachen« und kannst beliebige auswählen, die Metadaten hinzufügen und eine entsprechend synchronisierte Fassung als Audiodatei hochladen. Wichtig ist, dass du keine Timing-Anpassungen in YouTube selbst vornehmen darfst. Deshalb ist Dittodub so genial, weil das Tool deine Klonstimme auch in Geschwindigkeit und Timing bereits automatisch korrigiert, sodass es perfekt zum Video passt.

Fazit zu KI-Klonstimmen für YouTube

Nun muss ich dir ehrlicherweise noch sagen, dass YouTube eine Weile benötigt, ehe dein Kanal in den anderen Ländern angezeigt wird. Ein paar Wochen dauert das mindestens. Du bemerkst dann einen Anstieg der Views aus diesen Ländern. Das alles lässt sich in den YouTube Analytics nachvollziehen.

Persönlich halte ich Dittodub für das beste Tool seiner Art. Speziell für YouTube natürlich. Weil es die Dinge besonders einfach macht. Übersetzungen erfordern nur wenige Klicks und die geklonte Stimme klingt, jedenfalls in meinem Fall, unfassbar echt. Eben genau wie die eigene. Betonungen sind ebenfalls fast immer richtig. Aber nur »fast«.

Wenn du es ausprobieren möchtest, empfehle ich dir die 1-Dollar-Testversion. So habe ich das auch gemacht. Nach dem Monat lässt sich dann entscheiden, ob sich der Account lohnt und YouTube den eigenen Kanal international pusht. Spannend war der Versuch allemal.

Offenlegung Werbelinks: Mit einem Stern (*) gekennzeichnete Links und Buttons sind sogenannte Affiliate-Links. BloggerPilot bekommt bei einem Kauf eine Provision, die sich jedoch nicht auf den Endpreis auswirkt. Es ist uns wichtig zu betonen, dass dies keinen Einfluss auf unsere Bewertung oder Meinung hat.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert