Output-Target-Interpolation für Spektrale Fehlerfunktionen (de)
* Presenting author
Abstract:
Beim Trainieren künstlicher neuronaler Netze spielt die Fehlerfunktion eine maßgebliche Rolle. Bei Audio-Anwendungen kommen häufig spektrale Fehlerfunktionen zum Einsatz; diese vergleichen die Spektrogramme der Netzwerkausgaben mit den gewünschten Ergebnissen. Dies führt oft zu besseren Resultaten, als die Audiosignale direkt zu vergleichen. Allerdings haben Forschungsarbeiten gezeigt, dass spektrale Fehlerfunktionen auch unerwünschte Eigenschaften haben, die beispielsweise das Erlernen korrekter Tonhöhen erschweren: Je weiter Ausgabe- und Zielsignal voneinander entfernt sind, desto schlechter ist der Gradient der Fehlerfunktion.Wir zeigen, dass das Verhalten spektraler Fehlerfunktionen durch simple Interpolation von Netzwerk- und wahren Ausgaben verbessert werden kann. Neben einer theoretischen Begründung führen wir ebenfalls Experimente auf einfachen synthetischen Datensätzen und mit realistischen “Differentiable Digital Signal Processing”-Modellen durch. Ferner untersuchen wir die Übertragbarkeit der Ergebnisse auf allgemeine Autoencoder-Architekturen für Audiodaten. Unsere Methode ist einfach zu implementieren und benötigt minimale zusätzliche Rechenkapazitäten. Damit stellt sie ein vielversprechendes Werkzeug zur Verbesserung des Trainings neuronaler Modelle zur Audiogenerierung dar.