Kolloquium - Details zum Vortrag

Sie werden über Vorträge rechtzeitig per E-Mail informiert werden, wenn Sie den Newsletter des kommunikationstechnischen Kolloquiums abonnieren.

Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich.

Bachelor-Vortrag: Rekonstruktion des Phasenspektrums von Sprachsignalen mit Machine-Learning-Algorithmen

Daniel Wilhelm
Mittwoch, 17. Juni 2020
14:00 Uhr
virtueller Konferenzraum

Die Verarbeitung von Audio- bzw. Sprachsignalen findet häufig im Zeit-Frequenzspektrum statt. Dieses setzt sich zusammen aus dem Magnituden- und den Phasenspektrum. Da das Magnitudenspektrum relevanter für die Verständlichkeit von Sprachsignalen ist, werden Berechnungen, wie z. B. eine Störgeräuschreduktion, oft nur mit diesem durchgeführt und das Phasenspektrum wird unverändert übernommen. Um eine möglichst optimale Sprachqualität zu erhalten, muss jedoch auch das Phasenspektrum berücksichtigt werden. Eine Möglichkeit ist es, das Phasenspektrum auf Basis des verbesserten Magnitudenspektrums zu rekonstruieren. Ein weit verbreiteter Ansatz hierfür ist der Griffin-Lim-Algorithmmus. Dieser ist ein iterativer Algorithmus, der als Eingabe nur das Magnitudenspektrum erhält und sich dann in jedem Schritt mit dem passenden Zeitsignal annähert. Eine hinreichende Sprachqualität erfordert jedoch typischerweise viele Iterationen, die auf das gesamte Signal wirken, was dazu führt, dass ein hoher Rechenaufwand entsteht und der Einsatz in einer Echtzeit-Implementierung erschwert wird.

In dieser Arbeit wird daher ein anderer Ansatz zur Rekonstruktion des Phasenspektrums aus dem Magnitudenspektrum eines Sprachsignals entwickelt, bei dem das Phasenspektrum mit Hilfe von einem Machine-Learning-Algorithmus geschätzt wird. Ebenfalls wird die Anwendungsmöglichkeit auf beschädigte Sprachsignale, bei denen Lücken im Zeit-Frequenzspektrum vorhanden sind, untersucht. In dem hier vorgestellten Algorithmus werden die Ableitungen des Phasenspektrums (nach der Zeit und nach der Frequenz) von einem neuronalen Netz geschätzt und danach zu einem möglichst passenden Phasenspektrum zusammengeführt. Es werden passende Vorverarbeitungsschritte für die an das neuronale Netz zu übergebenden Daten gesucht. Eine Reduktion der zu verarbeitenden Datenmenge wird vorgeschlagen, um den Rechenaufwand zu reduzieren. Anschließend werden verschiedene Versuche durchgeführt, um die Schätzung des Phasenspektrums zu verbessern. Dabei werden u.a. die Komplexität und weitere Eigenschaften des neuronalen Netzes variiert, sowie mehrere Möglichkeiten zur Zusammensetzung des Phasenspektrums aus den Phasenableitungen eingesetzt. Ein Vergleich mit dem Griffin-Lim-Algorithmus wird ebenfalls durchgeführt. Zum Abschluss werden beschädigte Sprachsignale betrachtet und die Anwendungsmöglichkeit des erarbeiteten Algorithmus für diesen Fall bewertet.

zurück