You are currently viewing Sprach-KI: Zu gefährlich für die Öffentlichkeit?

VALL-E 2, ein KI-Sprachgenerator von Microsoft, soll nun eigenen Angaben zufolge „menschliches Niveau“ erreicht haben, doch sei Wissenschaflter:innen zufolge zu gefährlich um veröffentlicht zu werden. Wie es heißt soll die neue KI fähig sein mit nur wenigen Sekunden Audio als Quelle eine menschliche Stimme überzeugend nachzubilden und sie alles sagen zu lassen, was man will.


VALL-E 2 – Next Generation TTS

Microsoft zufolge, sei VALL-E 2 in der Lage,

„genaue, natürliche Sprache in der exakten Stimme des ursprünglichen Sprechers zu erzeugen, vergleichbar mit menschlicher Leistung“

ein entsprechendes Paper veröffentlichte man am 17. Juni auf dem Pre-Print Server arXiv (also noch nicht peer-reviewed). Der neue KI-Sprachgenerator sei jedoch so gut, dass es zu gefährlich sei ihn zu veröffentlichen, sie benötige nur ein kurzes Beispiel der Originalstimme um mit dieser so sprechen zu können, dass man sie nicht mehr vom jeweiligen Original unterscheiden könne. Insbesondere durch zwei Schlüsselmerkmale habe man die Sprachqualität deutlich verbessern können: „Repetition Aware Sampling“ und „Grouped Code Modeling“.

Gleichwertig oder gar „besser“ als das Original

Wie es heißt übertreffe VALL-E 2 alles in diesem Bereich bisher dagewesene bezüglich sowohl der allgemeinen Sprachqualität als auch der Fähigkeit, eine bestimmte Stimme nachzuahmen. „Menschliches Niveau“ bedeutet in diesem Zusammenhang, dass die von VALL-E 2 erzeugte Sprache in Benchmarks, die von Microsoft verwendet wurden, die Qualität menschlicher Sprache erreichte oder übertraf.

Wer schon einmal YouTube Videos gesehen hat, welche mit Hilfe von TTS (text-to-speech) Generatoren vertont wurden, der weiß, dass diese bisher immer recht einfach von einer echten, menschlichen Stimme zu unterscheiden waren, sei es die allgemeine Aussprache, immer genau gleich klingende Wiederholungen oder schlicht einzelne Worte, mit denen so ein Generator nicht klar kommt (in recht vielen Videos ist mir das tatsächlich wiederholt bei einem eigentlich recht einfachen Wort aufgefallen: „bei“. Warum auch immer ausgerechnet das für die betreffende KI so problematisch ist.).

„Reines Forschungsprojekt“

Offenbar hat man all diese „typischen“ Probleme bei Microsofts neuer KI nun beseitigen können, und das so gut, dass man zunächst aufgrund des Missbrauchspotenzials nicht riskieren möchte diese zu veröffentlichen. Wenn man bedenkt, dass es schon jetzt Betrüger gibt, die einem Abos oder ähnliches anhängen wollen, indem sie einen in einem Telefongespräch das Wort „ja“ zu entlocken versuchen, kann man sich vielleicht vorstellen, was los wäre, wenn diese KI in die falschen Hände geriete und ggf schon ein „Hallo“ ausreichen würde um daraus anschließend ein „Ja“ zu generieren (natürlich kommen die in der Regel damit nicht durch, aber ärgerlich ist sowas allemal).

Daher sehe man VALL-E 2 bei Microsoft auch als reines Forschungsprojekt, auch andere Unternehmen, die sich mit der Entwicklung von KI beschäftigen, wie zum Beispiel OpenAI, haben sich selbst ähnliche Beschränkungen auferlegt was ihre jeweiligen Stimmtechnologien betrifft. Bevor man eine solche Software veröffentlichen könne müsse sichergestellt sein, dass zum einen der jeweilige Originalsprecher der Nutzung seiner Stimme auch zugestimmt habe, sowie, dass ein zuverlässiges Modell zur Erkennung synthetischer Sprache zur Verfügung stehe.



Schreibe einen Kommentar