paint-brush
솔로: 시청각 음악 분석을 위한 데이터 세트 - 개요 및 소개~에 의해@kinetograph
160 판독값

솔로: 시청각 음악 분석을 위한 데이터 세트 - 개요 및 소개

너무 오래; 읽다

이 논문에서 연구원들은 다양한 시청각 작업에 대한 기계 학습 모델을 훈련하기 위한 솔로 음악 연주의 깨끗한 데이터 세트인 Solos를 소개합니다.
featured image - 솔로: 시청각 음악 분석을 위한 데이터 세트 - 개요 및 소개
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) Juan F. Montesinos, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};

(2) Olga Slizovskaia, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};

(3) Gloria Haro, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]}.

링크 표


추상적인

본 논문에서는 시청각 블라인드 소스 분리 및 현지화, 교차 모드 대응, 교차 모드 생성 및 일반적으로 시청각 자체 감독 작업. YouTube에서 수집한 이 동영상은 13가지 악기의 독주 연주로 구성되어 있습니다. 이전에 제안된 시청각 데이터 세트와 비교할 때 Solos는 많은 양의 녹음이 오디션 및 수동으로 확인된 녹음이므로 비디오 후처리에 추가된 배경 소음이나 효과가 없음을 보장하므로 더 깔끔합니다. 게다가, 이는 우리가 아는 한, URMP [1] 데이터세트에 존재하는 전체 악기 세트를 포함하는 유일한 데이터세트입니다. 이는 개별 악기가 포함된 다중 악기 클래식 음악 작품의 44개 시청각 녹음으로 구성된 고품질 데이터세트입니다. 오디오 트랙. URMP는 소스 분리에 사용되도록 의도되었으므로 Solos에서 훈련된 두 가지 서로 다른 소스 분리 모델의 URMP 데이터 세트에 대한 성능을 평가합니다. 데이터 세트는 https://juanfmontesinos.github.io/Solos/에서 공개적으로 제공됩니다.


색인 용어 — 시청각, 데이터 세트, 다중 모드, 음악

I. 소개

MIR(음악 정보 검색) 문제를 해결하기 위한 다중 모드 기술에 대한 관심이 높아지고 있습니다. 음악 공연은 매우 다양한 형식의 콘텐츠를 가지며 관련된 다양한 형식은 높은 상관관계를 가지고 있습니다. 소리는 연주하는 연주자의 동작에 의해 방출되며 실내악 연주에서 악보는 음악의 자동 분석에 활용될 수 있는 추가 인코딩을 구성합니다. 2].



다른 한편으로, 장면을 시각적으로 검사함으로써 우리는 음원의 수, 유형, 시공간적 위치 및 자연스럽게 방출되는 소리와 관련된 모션에 대한 정보를 추출할 수 있습니다. 게다가, 한 양식이 다른 양식을 감독하는 자기 감독 작업을 수행하는 것도 가능합니다. 여기에는 또 다른 연구 분야인 CMC(Cross Modal Correspondence)가 수반됩니다. BSS와 CMC 문제 모두에 대한 선구적인 작품을 찾을 수 있습니다. [11], [12]는 소리 위치 파악을 위해 시청각 데이터를 사용하고 음성 분리를 위해 [13], [14], [15]를 사용합니다. 음악의 맥락에서 시각적 정보는 소스 분리[16], [17] 및 위치 파악[2] 모두에서 모델 기반 방법을 돕는 것으로 입증되었습니다. 딥 러닝 기술의 발전으로 많은 최근 작업에서는 오디오 및 비디오 콘텐츠를 모두 활용하여 음악 소스 분리[18]-[20], 소스 연관[21], 현지화[22] 또는 둘 다[23]를 수행합니다. 일부 CMC 작업은 동기화에서 생성된 기능을 탐색하고 [24], [25] 이러한 기능을 소스 분리에 재사용할 수 있음을 입증합니다. 이러한 작업은 현지화 목적을 위해 대응/비대응 시청각 신호 쌍을 사용하는 자체 감독 방식으로 훈련된 네트워크를 사용하거나 소스 분리를 위한 혼합 및 분리 접근 방식을 사용합니다[18]-[20] , [23]. 딥러닝을 사용하면 고전적인 문제를 다른 방식으로 해결할 수 있음에도 불구하고 오디오에서 비디오를 생성하는 것이 주요 목표인 교차 모드 생성과 같은 새로운 연구 분야를 만드는 데에도 기여했습니다[26], [27] 또는 그 반대로 [28]. 인간 동작과 관련된 최근 연구에서는 골격을 신체의 내부 표현으로 활용하고 있으며 이는 골격의 잠재력을 보여주는 비디오 [29], [30]로 추가로 변환될 수 있습니다. 이 논문의 주요 기여는 앞서 언급한 모든 분야에 대한 심층 신경망을 훈련하는 데 사용할 수 있는 솔리스트의 음악 연주 녹음에 대한 새로운 데이터 세트인 Solos입니다. [23]에 제시된 유사한 악기 데이터 세트와 확장 버전 [31]에 비해 우리 데이터 세트에는 URMP 데이터 세트에 있는 동일한 유형의 실내악 오케스트라 악기가 포함되어 있습니다. Solos는 YouTube에서 수집한 755개의 실제 녹음으로 구성된 데이터 세트로, 위에서 언급한 데이터 세트에서 누락된 몇 가지 기능(스켈레톤 및 고품질 타임스탬프)을 제공합니다. 소스 현지화는 일반적으로 네트워크를 통해 간접적으로 학습됩니다. 따라서 실용적인 현지화 실측 정보를 제공하는 것은 간단하지 않습니다. 그럼에도 불구하고 네트워크는 종종 플레이어의 손이 음원인 것처럼 지적합니다. 우리는 손 위치 파악이 시청각 BSS를 개선하기 위한 추가 단서를 제공하는 데 도움이 되거나 소스 지상 진실 위치 파악으로 사용될 수 있을 것으로 기대합니다. Solos 사용의 이점을 보여주기 위해 우리는 몇 가지 인기 있는 BSS 아키텍처를 교육하고 그 결과를 비교했습니다.


이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .