Colloquium - Details
You will receive information about presentations in time if you subscribe to the newsletter of the Colloquium Communications Technology.
Master-Vortrag: Robuste Schätzung der Sprecherstimme bei Hearables und Hörgeräten mit Mehr-Sensor-Systemen
Marcel Kohn
Mittwoch, 9. März 2022
14:00 Uhr
virtueller Konferenzraum
Durch den Verschluss des Gehörgangs durch Hörgeräte oder Hearables wird die Eigenwahrnehmung der eigenen Stimme gestört. Wenn keine Gegenmaßnahmen ergriffen werden, wird die eigene Stimme als dröhnend empfunden, was als Okklusionseffekt bezeichnet wird. Er kann durch die so genannte aktive Okklusionsunterdrückung (AOC) verhindert werden. Dieser Algorithmus nutzt jedoch in der Regel einen akustischen Hear-Through aus, so dass er in lauten Umgebungen eher nachteilig ist. Bei einem alternativen Ansatz arbeitet das Gerät im aktiven Geräuschunterdrückungsmodus (ANC), so dass alle Umgebungsgeräusche blockiert werden. Dann kann eine verbesserte Wahrnehmung der eigenen Stimme erreicht werden, wenn eine Schätzung des Luftschalls der eigenen Stimme durch das Gerät wiedergegeben wird, um das Gefühl eines unverschlossenen Ohres zu erzeugen. Da ANC-Geräte jedoch in der Regel in lauten Umgebungen getragen werden, ist die Schätzung dieses Signals eine Herausforderung. Eine Möglichkeit, die natürliche Wahrnehmung wiederherzustellen, besteht darin, den gedämpften Luftschall der Stimme zu rekonstruieren und so eine natürliche Wahrnehmung zu erzeugen.
In dieser Arbeit wrid ein neuronales Netzwerk in ein ANC-System integriert, um die Sprachkomponenten der Stimme des Sprechers von den Umgebungsgeräuschen zu trennen. Nach Anwendung eines Equalizers zur Berücksichtigung weiterer akustischer Einflüsse wird das entrauschte Sprachsignal über einen Kopfhörerlautsprecher im Gehörgang wiedergegeben. Im Vergleich zu bestehenden Sprachverbesserungssystemen wird das Signal eines zusätzlichen Mikrofons an der Innenseite des Kopfhörers als Nebeninformation berücksichtigt. Innerhalb einer Messreihe werden die für das Training benötigten Daten mit Testpersonen aufgenommen. Darüber hinaus werden gerätebezogene Übertragungsfunktionen gemessen, die zusammen mit Ambisonics-Aufnahmen höherer Ordnung (HOA) zur Vergrößerung der Trainingsdatenmenge verwendet werden können, was zu 1736 Stunden Audiodaten für 21 Testpersonen führt.
Eine Untersuchung verschiedener rekurrenter neuronaler Faltungsnetzwerke zeigt insbesondere, dass die Verwendung des inneren Mikrofons sowohl zu der gewünschten Störgeräuschreduktion als auch zu einer Verschlechterung der Sprachqualität führt. Weitere Änderungen an der Netzarchitektur des untersuchten Netzes führen zu erhöhten Werten bei wahrnehmungsmotivierten Metriken. Darüber hinaus wird eine auf Multimasking basierende Netzwerkerweiterung getestet, die in der Lage ist, die Dämpfung von Störsignalen dynamisch durch einen einzigen Parameter zu reduzieren, was zu vergleichbar hohen Ergebnissen führt.