paint-brush
Solos: Ein Datensatz zur audiovisuellen Musikanalyse - Zusammenfassung und Einführungvon@kinetograph
160 Lesungen

Solos: Ein Datensatz zur audiovisuellen Musikanalyse - Zusammenfassung und Einführung

Zu lang; Lesen

In diesem Artikel stellen Forscher Solos vor, einen sauberen Datensatz mit Solo-Musikdarbietungen zum Trainieren von Modellen maschinellen Lernens für verschiedene audiovisuelle Aufgaben.
featured image - Solos: Ein Datensatz zur audiovisuellen Musikanalyse - Zusammenfassung und Einführung
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Juan F. Montesinos, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};

(2) Olga Slizovskaia, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};

(3) Gloria Haro, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]}.

Linktabelle


Abstrakt

In diesem Artikel stellen wir einen neuen Datensatz mit Musikdarbietungsvideos vor, der zum Trainieren von Methoden des maschinellen Lernens für verschiedene Aufgaben verwendet werden kann, wie etwa audiovisuelle blinde Quellentrennung und -lokalisierung, modalübergreifende Korrespondenzen, modalübergreifende Generierung und im Allgemeinen jede audiovisuelle selbstüberwachte Aufgabe. Diese von YouTube gesammelten Videos bestehen aus Solo-Musikdarbietungen von 13 verschiedenen Instrumenten. Im Vergleich zu zuvor vorgeschlagenen audiovisuellen Datensätzen ist Solos sauberer, da ein großer Teil seiner Aufnahmen aus Probeaufnahmen und manuell überprüften Aufnahmen besteht, wodurch sichergestellt wird, dass bei der Videonachbearbeitung weder Hintergrundgeräusche noch Effekte hinzugefügt wurden. Darüber hinaus ist es nach bestem Wissen und Gewissen der einzige Datensatz, der den gesamten Instrumentensatz des URMP-Datensatzes [1] enthält, einem hochwertigen Datensatz mit 44 audiovisuellen Aufnahmen von klassischen Musikstücken mit mehreren Instrumenten und einzelnen Audiospuren. URMP sollte zur Quellentrennung verwendet werden, daher bewerten wir die Leistung von zwei verschiedenen Quellentrennungsmodellen, die mit Solos trainiert wurden, auf dem URMP-Datensatz. Der Datensatz ist öffentlich verfügbar unter https://juanfmontesinos.github.io/Solos/


Indexbegriffe —audiovisuell, Datensatz, multimodal, Musik

I. EINLEITUNG

Es besteht ein wachsendes Interesse an multimodalen Techniken zur Lösung von Problemen des Music Information Retrieval (MIR). Musikalische Darbietungen haben einen hochgradig multimodalen Inhalt und die verschiedenen beteiligten Modalitäten sind stark korreliert: Klänge werden durch die Bewegung des Spielers erzeugt und bei Kammermusikdarbietungen stellen die Partituren eine zusätzliche Kodierung dar, die ebenfalls für die automatische Analyse von Musik genutzt werden kann [2].



Auf der anderen Seite können wir durch visuelle Inspektion der Szene Informationen über die Anzahl der Tonquellen, ihren Typ, ihre räumlich-zeitliche Position und auch ihre Bewegung extrahieren, die natürlich mit dem emittierten Ton in Verbindung steht. Außerdem ist es möglich, selbstüberwachte Aufgaben auszuführen, bei denen eine Modalität die andere überwacht. Dies bringt ein weiteres Forschungsfeld mit sich, die Cross-Modal-Korrespondenz (CMC). Wir können bahnbrechende Arbeiten für beide Probleme, BSS und CMC, finden. [11], [12] nutzen audiovisuelle Daten zur Tonlokalisierung und [13], [14], [15] zur Sprachtrennung. Im Zusammenhang mit Musik haben sich visuelle Informationen auch als hilfreich für modellbasierte Methoden sowohl bei der Quellentrennung [16], [17] als auch bei der Lokalisierung [2] erwiesen. Mit der Blüte der Deep-Learning-Techniken nutzen viele neuere Arbeiten sowohl Audio- als auch Videoinhalte, um Musikquellentrennung [18]–[20], Quellenassoziation [21], Lokalisierung [22] oder beides [23] durchzuführen. Einige CMC-Arbeiten untersuchen durch Synchronisierung generierte Merkmale [24], [25] und beweisen, dass diese Merkmale für die Quellentrennung wiederverwendbar sind. Diese Arbeiten verwenden Netzwerke, die auf selbstüberwachte Weise trainiert wurden, indem Paare korrespondierender/nicht korrespondierender audiovisueller Signale zu Lokalisierungszwecken verwendet wurden [22] oder der Mix-and-Separate-Ansatz zur Quellentrennung [18]–[20], [23]. Obwohl Deep Learning es ermöglichte, klassische Probleme auf eine andere Weise zu lösen, trug es auch zur Schaffung neuer Forschungsfelder wie der Crossmodal Generation bei, bei der das Hauptziel darin besteht, Video aus Audio zu generieren [26], [27] oder umgekehrt [28]. Neuere Arbeiten im Zusammenhang mit menschlicher Bewegung verwenden das Skelett als innere Darstellung des Körpers, die weiter in Video umgewandelt werden kann [29], [30], was das Potenzial von Skeletten zeigt. Der Hauptbeitrag dieses Papiers sind Solos, ein neuer Datensatz mit Aufnahmen musikalischer Darbietungen von Solisten, der zum Trainieren tiefer neuronaler Netzwerke für alle oben genannten Felder verwendet werden kann. Verglichen mit einem ähnlichen Datensatz von Musikinstrumenten, der in [23] und seiner erweiterten Version [31] vorgestellt wurde, enthält unser Datensatz tatsächlich die gleiche Art von Kammerorchesterinstrumenten wie der URMP-Datensatz. Solos ist ein Datensatz von 755 realen Aufnahmen von YouTube, der mehrere Funktionen bietet, die in den oben genannten Datensätzen fehlen: Skelette und qualitativ hochwertige Zeitstempel. Die Quellenlokalisierung wird normalerweise indirekt von Netzwerken gelernt. Daher ist es nicht einfach, eine praktische Grundwahrheit für die Lokalisierung bereitzustellen. Trotzdem zeigen Netzwerke oft auf die Hände des Spielers, als wären sie die Tonquelle. Wir erwarten, dass die Handlokalisierung dazu beitragen kann, zusätzliche Hinweise zur Verbesserung audiovisueller BSS zu liefern, oder als Quellen-Grundwahrheitslokalisierung verwendet werden kann. Um die Vorteile der Verwendung von Solos aufzuzeigen, haben wir einige beliebte BSS-Architekturen trainiert und ihre Ergebnisse verglichen.