상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 실험

저자:

(1) Dinesh Kumar Vishwakarma, 인도 델리 소재 델리 기술 대학교 정보 기술부 생체 인식 연구소;

(2) Mayank Jindal, 인도 델리 소재 델리 공과대학 정보기술학과 생체인식연구소

(3) Ayush Mittal, 인도 델리 소재 델리기술대학교 정보기술학과 생체인식연구소

(4) Aditya Sharma, 인도 델리 소재 델리 공과대학교 정보기술학과 생체인식 연구소.

링크 표

5. 실험

이 부분에서는 다양한 양식과 사전 기능 융합 모델에 대한 다양한 모델 아키텍처를 검토합니다. 나중에 표준 LMTD-9 데이터세트와 제안된 데이터세트에 대해 검증하여 작업을 검증합니다. 마지막으로 모델 견고성을 탐색하기 위한 비교 연구가 논의됩니다. 모든 실험은 128GB DDR4 RAM 및 Nvidia Titan RTX(24GB) GPU 구성을 갖춘 GPU 워크스테이션에서 수행되었습니다.

5.1. 데이터세트

프레임워크를 검증하기 위해 제안된 데이터 세트와 표준 LMTD-9 [2] 데이터 세트를 활용합니다. 포괄적인 세부 사항은 다음과 같이 언급됩니다.

5.1.1. 영어 영화 예고편 데이터세트(EMTD)

EMTD: 제안된 데이터 세트에는 섹션 3에서 언급한 대로 IMDB에서 가져온 1700개의 고유 예고편으로 구성된 별도의 훈련 세트와 300개의 고유 예고편으로 구성된 검증 세트가 포함되어 있습니다.

5.1.2. 라벨이 지정된 영화 예고편 데이터세트(LMTD-9)

LMTD [16], [20]은 예고편 링크, 예고편 메타데이터, 줄거리/요약, 22개의 개별 레이블/장르에 속하는 약 9,000개의 영화 예고편으로 구성된 고유한 예고편 ID를 포함하는 다중 레이블 대규모 영화 예고편 데이터세트입니다. 검증을 위해 1980년 이후에 출시된 헐리우드 예고편과 장르 목록에 특정한 예고편만 포함하는 LMTD-9[2]의 검증 세트(하위 부분)가 사용됩니다. 데이터 세트에는 비디오 품질과 종횡비가 다른 다양한 길이의 예고편이 포함되어 있습니다.

5.2. 다양한 모델의 분류 결과

이 섹션에서는 다양한 프레임워크 변형을 사용한 실험에 대해 설명합니다. 우리는 별도의 양식과 사전 융합된 기능을 기반으로 3가지 프레임워크를 실험했습니다.

MS(비디오 프레임 분석): 비디오 프레임의 상황 기반 특징만을 고려한 모델입니다.
MD(Dialogues-metadata 분석): 오디오의 대화와 메타데이터의 설명을 특징으로 고려하는 모델입니다.
MSD(다중 양식 분석): 비디오 프레임의 상황 기반 기능, 오디오의 대화 및 메타데이터의 설명을 기능으로 고려하는 모델입니다.

사전 융합된 기능을 갖춘 4.2.3절에서 제안된 아키텍처가 MSD에 사용됩니다. 그러나 입력 코퍼스가 약간 수정되었습니다. 섹션 4.4에 정의된 코퍼스는 MSD에 사용됩니다. LMTD-9 및 EMTD의 MSD에 대한 정밀도, 재현율 및 F1 점수는 표 5에 설명되어 있습니다. 그러나 MSD와 MS 및 MD의 AU(PRC) 비교는 다음 섹션에서 논의됩니다.

다양한 장르의 공연에서 약간의 변형을 볼 수 있습니다. 주요 장르에 속하는 대부분의 예고편이 정확하게 분류되어(F1 점수 0.84 이상), 이는 제안된 모델이 좋은 성능을 발휘하고 있음을 보여줍니다. 액션 장르는 EMTD와 LMTD-9에서 각각 F1 점수 0.88과 0.89로 5개 장르 중 가장 성능이 좋은 장르였습니다. 로맨스 장르는 F1 점수 기준으로 모든 장르 중에서 가장 성적이 낮은 장르로 나타났습니다. 두 장르 모두 행복, 미소, 웃음 등과 같은 유사한 단어가 지배하기 때문에 많은 로맨스 장르 예고편이 코미디로 잘못 분류되는 것으로 관찰되었습니다.

5.3. AU(중국) 비교

AU(PRC), 즉 정밀도-재현율 곡선 아래 영역은 다중 레이블 분류 문제를 다룰 때 분류 결과를 비교하기 위해 계산됩니다. AU(PRC) 측정은 다중 레이블 데이터 세트의 클래스 불균형으로 인한 노이즈 효과를 보상하여 모델의 실제 성능을 비교하는 데 도움이 됩니다. AU(PRC) 곡선은 그림 5, 그림 6 및 그림 7에 설명된 대로 두 데이터 세트의 3개 모델 모두에 대해 생성되었습니다. EMTD의 검증 세트에서 거의 유사한 AU(PRC) 값이 92%, MSD, MD, MS에서 각각 91%, 88%입니다. 그러나 우리는 MSD가 LMTD9 데이터 세트에 대해 82% AU(PRC) 값을 제공한다는 것을 발견했습니다. 이는 다른 두 모델, 즉 표 6에서와 같이 MD와 MS의 각각 72% 및 80% AU(PRC)보다 큽니다.

그러나 연구 내에서 실험한 일부 다른 모델과의 전반적인 비교를 위해 표 6에 결과를 언급합니다. 최상의 아키텍처를 선택하기 위해 모델은 두 검증 데이터 세트 모두에서 AU(PRC) 측면에서 비교됩니다. 기능 모델 데이터 세트의 구현 EMTD LMTD-9 Dialogue(MD) E-Bi LSTM 0.87 0.66 ECnet 0.91 0.72 Situation(MS) ECnet 0.86 0.75 TFAnet 0.88 0.80 Fused Feature(MSD) ECnet 0.92 0.82 언급된 모든 모델은 다음을 결정하는 데 도움이 됩니다. 융합된 기능에 가장 적합한 모델입니다. MD는 EMTD에서는 MSD와 비슷한 AU(PRC) 값을 갖지만 LMTD-9에서는 MSD가 MD보다 성능이 뛰어납니다. LMTD-9의 MS도 마찬가지입니다. MSD는 두 데이터 세트 모두에서 동시에 우수한 성능을 보였지만 MS와 MD의 경우 개별적으로는 그렇지 않습니다. 따라서 교차 데이터세트 검증을 통해 MSD가 더욱 강력한 것으로 입증되었습니다. 우리는 제안된 MSD가 가장 성능이 좋은 모델이라는 결론을 내렸습니다.

5.4. 기준 비교

이 섹션에서는 표 7에 설명된 대로 각 장르에 대한 AU(PRC) 메트릭을 개별적으로 사용하여 영화 장르 분류에 대한 이전 접근 방식과 최신 비교를 수행하여 제안된 모델의 성능을 검증합니다. 표에 언급된 모든 결과 7은 소수점 이하 두 자리까지 표시되며 Fish 등을 제외한 표준 LMTD-9 데이터 세트를 기반으로 합니다. 알. [22], 그 결과는 MMX Trailer-20 데이터 세트를 기반으로 합니다. 연구에서는 로맨스 장르를 고려하지 않는다. 그러나 다른 장르의 경우 Fish et. al [22] 및 MSD는 주목할 가치가 있습니다. MSD는 평균적으로 MSD보다 20% 더 나은 성능을 보입니다. 저수준 시각적 특징 기반 분류[23]는 24가지 저수준 시각적 특징을 기반으로 하며, SAS-MC-v2[24]는 트레일러 분류를 위해 시놉시스만 사용합니다(Fish et. 알. [22] 및 CTT-MMC-TN [25]은 높은 수준의 기능을 기반으로 합니다. 낮은 수준의 기능 접근 방식 [23, 24]과 비교하면 MSD는 평균 10% 성능이 우수하고, 높은 수준 기능을 사용하는 접근 방식과 비교하면 [22, 25] 평균 8% 성능이 우수합니다. 각 장르마다. 또한 코미디 장르는 다른 4개 장르에 비해 대부분의 작품에서 좋은 성과를 보인 반면 공상과학 소설은 AU(PRC) 값이 상대적으로 낮습니다. 이는 공상과학 장르가 다른 유사한 장르(예: 액션)와 기능이 겹치기 때문에 적절한 구별이 불가능하기 때문일 수 있습니다.

비교 연구는 제안된 모델이 기존 접근 방식보다 성능이 뛰어나고 우수한 결과를 제공하므로 강력하다는 것을 보여줍니다. 더 나은 성능은 제안된 아키텍처에 인지적 특징과 정서적 특징이 모두 포함되어 모델이 각 장르의 실질적인 특성을 학습하고 장르를 보다 정확하게 예측하는 데 도움이 되기 때문입니다.

이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .

상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 실험

너무 오래; 읽다

링크 표