著者:
(1)フアン・F・モンテシノス、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}
(2)オルガ・スリゾフスカイア、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}
(3)Gloria Haro、情報通信技術学部、ポンペウ・ファブラ大学、バルセロナ、スペイン {[email protected]}。
本稿では、オーディオビジュアルブラインド音源分離と定位、クロスモーダル対応、クロスモーダル生成、そして一般的にはオーディオビジュアル自己教師ありタスクなど、複数のタスクの機械学習手法のトレーニングに使用できる音楽演奏ビデオの新しいデータセットを紹介します。YouTubeから収集されたこれらのビデオは、13種類の楽器のソロ音楽演奏で構成されています。以前に提案されたオーディオビジュアルデータセットと比較して、Solosは、録音の大部分がオーディションと手動でチェックされた録音であるため、バックグラウンドノイズやビデオ後処理で追加された効果がないことが保証されており、よりクリーンです。さらに、私たちの知る限り、これは、個別のオーディオトラックを含む44のマルチ楽器クラシック音楽作品のオーディオビジュアル録音の高品質データセットであるURMP [1]データセットに存在する楽器セット全体を含む唯一のデータセットです。URMPは音源分離に使用することを意図していたため、Solosでトレーニングされた2つの異なる音源分離モデルのURMPデータセットでのパフォーマンスを評価します。データセットは https://juanfmontesinos.github.io/Solos/ で公開されています。
索引用語— オーディオビジュアル、データセット、マルチモーダル、音楽
音楽情報検索(MIR)の問題を解決するためのマルチモーダル技術への関心が高まっています。音楽演奏は高度にマルチモーダルな内容であり、関連するさまざまなモダリティは高度に相関しています。音は演奏者の動きによって発せられ、室内楽の演奏では楽譜が追加のエンコードを構成し、音楽の自動分析にも活用できます[2]。
一方、シーンを視覚的に検査することで、音源の数、種類、時空間的な場所、動きに関する情報を抽出できます。これらは当然、発せられた音に関連しています。さらに、1 つのモダリティが他のモダリティを監督する自己教師ありタスクを実行できます。これには、クロスモーダル対応 (CMC) という別の研究分野が含まれます。BSS と CMC の両方の問題に対する先駆的な研究があります。[11]、[12] は、音源定位にオーディオビジュアルデータを使用し、[13]、[14]、[15] は音声分離に使用しています。音楽のコンテキストでは、視覚情報は、音源分離 [16]、[17] と定位 [2] の両方でモデルベースの方法に役立つことも証明されています。ディープラーニング技術の隆盛により、最近の多くの研究では、オーディオとビデオの両方のコンテンツを利用して、音楽の音源分離 [18]~[20]、音源関連付け [21]、定位 [22]、またはその両方 [23] を実行しています。いくつかの CMC 研究では、同期から生成される特徴を探索し [24]、[25]、これらの特徴が音源分離に再利用可能であることを証明しています。これらの研究では、位置特定目的のために対応する/対応しないオーディオビジュアル信号のペアを使用して自己教師あり方式でトレーニングされたネットワークを使用します [22] 、または音源分離のためのミックス アンド セパレート アプローチを使用します [18]–[20]、[23]。ディープラーニングによって古典的な問題を別の方法で解決することが可能になったにもかかわらず、クロスモーダル生成などの新しい研究分野の創出にも貢献しました。クロスモーダル生成の主な目的は、オーディオからビデオを生成することです [26]、[27]、またはその逆です [28]。人間の動きに関連する最近の研究では、スケルトンを身体の内部表現として使用し、さらにビデオに変換できます [29]、[30]。これはスケルトンの可能性を示しています。この論文の主な貢献は Solos です。これは、前述のいずれの分野でもディープ ニューラル ネットワークをトレーニングするために使用できる、ソリストの音楽パフォーマンス録音の新しいデータセットです。 [23]およびその拡張バージョン[31]で提示された同様の楽器データセットと比較すると、私たちのデータセットには、URMPデータセットにあるのと同じタイプの室内オーケストラ楽器が含まれています。 SolosはYouTubeから収集された755の実際の録音のデータセットであり、前述のデータセットにはないいくつかの機能(スケルトンと高品質のタイムスタンプ)を提供します。 音源定位は通常、ネットワークによって間接的に学習されます。したがって、実用的な定位の真実を提供することは簡単ではありません。それでも、ネットワークはしばしばプレーヤーの手を音源であるかのように指し示します。手の定位は、オーディオビジュアルBSSを改善するための追加の手がかりを提供するのに役立つか、音源の真実の定位として使用できるかが期待されます。 Solosを使用する利点を示すために、いくつかの一般的なBSSアーキテクチャをトレーニングし、その結果を比較しました。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。