Autotune

KI-Innovation der Johns Hopkins trifft den perfekten Ton

Einst eine Lösung für Amateur-Sänger, die auf Karaoke-Nächten den Ton nicht getroffen haben, haben sich Auto-Tune und andere Software von Clubs bis zur Musikproduktion entwickelt, aber nie über künstlich klingende Töne hinaus.

Nun haben Forscher der Johns Hopkins University diese Technologie weiterentwickelt und dabei signifikante Verbesserungen gegenüber den bisherigen Fähigkeiten herkömmlicher Auto-Tune-Techniken erzielt. Mehr als nur Auto-Tune auf Steroiden, korrigiert diese Innovation namens Diff-Pitcher problemlos falsches Singen, während der ursprüngliche Stimmklang und die Natürlichkeit erhalten bleiben, was ihre möglichen Anwendungen über Unterhaltung und die Musikindustrie hinaus in den Bereich Gesundheitswesen erweitert.

„Diff-Pitcher ist ein generatives tiefes neuronales Netzwerk, das die Tonkorrektur-Technologie auf ein neues Niveau hebt. Seine Präzision und Kontrolle können nicht nur musikalischen Künstlern und Produzenten helfen, sondern auch neue Möglichkeiten in Bereichen wie Stimmrehabilitation und Assistenztechnologien eröffnen“, sagte Teammitglied Jiarui Hai, Doktorand im Department of Electrical and Computer Engineering der Whiting School of Engineering.

Hai und der leitende Forscher Mounya Elhilali, der Charles Renn Faculty Scholar und Professor für Elektro- und Computertechnik, stellten ihre neue Technologie im Herbst 2023 auf der IEEE-Workshop on Applications of Signal Processing to Audio and Acoustics vor.

In der Musik ist die Fähigkeit von Tonkorrektursoftware, den Klang einer Stimme oder eines Instruments auf den gewünschten Ton anzupassen, entscheidend. Diff-Pitcher verwendet fortschrittliche Algorithmen, um die Natürlichkeit und Qualität der Tonkorrektur zu verbessern und damit ältere Tools zu übertreffen. Im Gegensatz zu älterer Software, die auf Paaren von korrigierten und originalen Stimmaufnahmen trainiert wurde, analysiert Diff-Pitcher die visuelle Darstellung (Spektrogramm) der originalen Stimmaufnahmen, die korrigiert werden müssen. Es identifiziert Zielnoten, sagt erforderliche Anpassungen voraus und verwandelt das korrigierte Spektrogramm in Audio, um die Tonkorrektur in zwei einfachen Schritten zu erreichen.

Nach Hai ist Diff-Pitcher nicht nur wegen seiner Fähigkeit, authentische und kontrollierte Stimmen zu erzeugen, bemerkenswert, sondern auch wegen der verwendeten Methode, dies zu erreichen.

„Die Ergebnisse klingen wirklich natürlich, und anders als bei älteren Methoden der Tonkorrektur können wir immer noch regulieren, wie hoch oder tief die Stimme geht“, sagte Hai.

Die Forscher planen, Diff-Pitcher weiter zu verfeinern, um Stimmen noch natürlicher klingen zu lassen und die Fähigkeiten des Tools über die Verbesserung der Musikproduktion hinaus zu erweitern. Sie glauben, dass Diff-Pitcher ein breites Anwendungsspektrum hat, einschließlich der Unterstützung von Personen, die sich einer Stimmrehabilitation unterziehen, insbesondere solche mit stimmlichen Beeinträchtigungen.

„Die Technologie könnte die Behandlung für eine Vielzahl von sprachbezogenen Störungen revolutionieren, wertvolle Unterstützung für postlaryngektomierte Patienten bieten und zur Stimmrehabilitation von Schlaganfallpatienten beitragen“, sagte Hai.

Popular