저자:
(1) Juan F. Montesinos, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};
(2) Olga Slizovskaia, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};
(3) Gloria Haro, 스페인 바르셀로나 폼페우 파브라 대학교 정보통신기술부 {[email protected]}.
University of Rochester Multi-Modal Music Performance Dataset(URMP)[1]은 클래식 음악 작품의 44개 다중 악기 비디오 녹음이 포함된 데이터 세트입니다. 실제 개별 트랙을 갖기 위해 작품에 존재하는 각 악기를 독립형 마이크를 사용하여 비디오 및 고품질 오디오와 함께 별도로 녹음했습니다. 개별적으로 연주하기는 하지만 서로 다른 연주자에게 공통된 타이밍을 설정하기 위해 피아니스트가 연주하는 지휘 영상을 사용하여 악기를 조정했습니다. 동기화 후 개별 비디오의 오디오는 마이크의 고품질 오디오로 대체된 다음 다양한 녹음을 조합하여 혼합을 만들었습니다. 개별 고품질 오디오 녹음을 추가하여 오디오 혼합과 시각적 콘텐츠를 만들었습니다. 모든 플레이어가 왼쪽에서 오른쪽으로 동일한 수준으로 배열된 공통 배경을 가진 단일 비디오로 합성되었습니다. 각 작품에 대해 데이터 세트는 MIDI 형식의 악보, 고품질 개별 악기 오디오 녹음 및 조립된 작품의 비디오를 제공합니다. 그림 1에 표시된 데이터세트에 있는 악기는 실내악 오케스트라에서 흔히 사용되는 악기입니다. 모든 좋은 특성에도 불구하고 작은 데이터 세트이므로 딥 러닝 아키텍처를 훈련하는 데 적합하지 않습니다.
악기 연주의 시청각 녹음에 대한 두 가지 다른 데이터세트인 Music[23]과 MusicES[31]가 최근에 발표되었습니다. 음악은 아코디언, 어쿠스틱 기타, 첼로, 클라리넷, 얼후, 플루트, 색소폰, 트럼펫, 튜바, 바이올린, 실로폰 등 11개 카테고리에 걸쳐 536개의 솔로 녹음과 149개의 듀엣 비디오로 구성됩니다. 이 데이터세트는 YouTube에 쿼리하여 수집되었습니다. MusicES [31]는 MUSIC을 약 1475개의 녹음으로 원래 크기의 약 3배로 확장했지만 대신 아코디언, 기타, 첼로, 플루트, 색소폰, 트럼펫, 튜바, 바이올린 및 실로폰의 9개 범주로 확장했습니다. 음악과 솔로에는 바이올린, 첼로, 플루트, 클라리넷, 색소폰, 트럼펫, 튜바 등 7가지 공통 카테고리가 있습니다. MusicES와 Solos의 공통 카테고리는 6개입니다(클라리넷을 제외한 이전 카테고리). Solos와 MusicES는 상호보완적입니다. 둘 사이에는 5%의 작은 교차점이 있습니다. 이는 두 데이터 세트를 더 큰 데이터 세트로 결합할 수 있음을 의미합니다.
우리는 시청각 데이터 세트의 유용성을 보여주는 몇 가지 예를 문헌에서 찾을 수 있습니다. Sound of Pixels [23]는 분리된 소스를 얻기 위해 비디오 스트림에서 나오는 시각적 특징을 사용하여 더욱 현명하게 선택되는 오디오 스펙트럼 구성 요소를 생성하는 오디오 소스 분리를 수행합니다. 이 아이디어는 재귀적인 방식으로 혼합물에 존재하는 다양한 소리를 분리하기 위해 [20]에서 더욱 확장되었습니다. 각 단계에서 시스템은 혼합물에 남아 있는 오염원에서 가장 두드러진 오염원을 분리합니다. Sound of Motions [19]는 광학 흐름에서 얻은 조밀한 궤적을 사용하여 오디오 소스 분리를 조절합니다.
동일한 악기 혼합물을 분리하는 경우에도 마찬가지입니다. 시각적 컨디셔닝은 [18]에서도 다양한 장비를 분리하는 데 사용됩니다. 훈련 중에 분류 손실은 분리된 사운드에 사용되어 개체 일관성을 강화하고 공동 분리 손실은 추정된 개별 사운드가 재조립된 후 원래의 혼합을 생성하도록 강제합니다. [17]에서 저자는 소스별 모션 정보를 포함하는 행렬에 정렬되도록 강제되는 활성화 행렬을 사용하여 비음수 행렬 분해 항을 최소화하는 에너지 기반 방법을 개발했습니다. 이 모션 매트릭스에는 각 플레이어 경계 상자에 있는 클러스터 모션 궤적의 평균 크기 속도가 포함되어 있습니다.
최근 작품에서는 시청각 작업에서 뼈대 사용이 증가하는 것을 보여줍니다. Audio to Body Dynamics[29]에서 저자는 피아노나 바이올린과 같은 악기를 연주하는 연주자의 움직임을 재현하는 골격을 예측하는 것이 가능하다는 것을 보여줍니다. 스켈레톤은 실내악 연주에서 음표 시작 또는 피치 변동이 있는 신체 또는 손가락 동작과 같은 시청각 대응을 설정하는 데 유용한 것으로 입증되었습니다[21]. 최근 연구[32]는 Sound of Motions[19]와 유사하게 소스 분리 문제를 다루고 있지만 조밀한 궤적을 뼈대 정보로 대체합니다.
이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .