paint-brush
상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 제안된 방법론~에 의해@kinetograph
125 판독값

상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 제안된 방법론

너무 오래; 읽다

본 논문에서 연구자들은 상황, 대사, 메타데이터 특징을 활용하여 영화 장르 분류를 위한 다중 양식 프레임워크를 제안합니다.
featured image - 상황 및 대화 기반 심층 네트워크의 다단계 프로파일링: 제안된 방법론
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) Dinesh Kumar Vishwakarma, 인도 델리 소재 델리 기술 대학교 정보 기술부 생체 인식 연구소;

(2) Mayank Jindal, 인도 델리 소재 델리 공과대학 정보기술학과 생체인식연구소

(3) Ayush Mittal, 인도 델리 소재 델리기술대학교 정보기술학과 생체인식연구소

(4) Aditya Sharma, 인도 델리 소재 델리 기술 대학교 정보 기술부 생체 인식 연구소.

링크 표

4. 제안된 방법론

4.1. 설명

영화 줄거리/설명은 영화를 설명하는 중요한 기능입니다. 개봉하는 영화에서 언급되는 줄거리가 너무 짧거나 언급되지 않는 경우가 대부분이다. 이를 고려하여 우리는 섹션 4.2에서 자세히 논의한 것처럼 영화 예고편에서 추출한 대화와 연결된 설명을 사용하여 최종적으로 영화 장르를 예측하기로 결정했습니다. 설명은 섹션 3에서 이미 언급한 대로 IMDB 웹사이트에서 메타데이터로 가져옵니다.


그림 1: 프레임워크의 파이프라인

4.2. 대화

이 섹션에서는 영화 장르를 예측하기 위해 예고편 오디오의 대화 목록(대화에 연결된 설명/줄거리)을 처리하는 아키텍처를 제안합니다. 이 스트림의 중요한 단계에는 (1) 영화 예고편에서 음성(대화)을 추출하고 (2) 음성 및 메타데이터를 기반으로 장르를 예측하는 모델을 설계하는 것이 포함됩니다.

4.2.1. 데이터 전처리

(.wav) 형식의 오디오 파일은 (.mp4) 비디오 예고편에서 추출됩니다. 다음으로 오디오 파일은 작은 오디오 클립으로 분할되어 [17]에서 제안한 대로 대화로 변환됩니다. 모든 텍스트가 수집되어 입력 코퍼스를 형성합니다. 설명/플롯(메타데이터에서 사용 가능한 경우)도 이 코퍼스에 병합됩니다. 우리의 연구는 영어 예고편만을 대상으로 합니다. 영화 줄거리와 마찬가지로 예고편에서 추출된 음성은 텍스트 코퍼스의 보충 자료로 사용될 수 있으며, 이는 텍스트 맥락과 영화 장르 간의 관계를 더 잘 이해하는 데 도움이 될 수 있습니다. 교육/테스트 단계에서 각 예고편에 대한 단일 레코드로 구성된 코퍼스를 생성한 후 다음과 같은 전처리 단계가 수행되었습니다. 즉, 모든 텍스트를 소문자로 변환하고 숫자, 구두점, 불용어 및 웹 링크를 제거했습니다. 위에서 얻은 텍스트는 훈련/테스트를 위해 모델/사전 훈련된 모델에 대한 입력으로 공급되는 데 사용됩니다.


표 2: 의미와 약어

4.2.2. 특징 추출(대화)


4.2.3. ECnet(임베딩 – 컨볼루션 네트워크)

인지 기반 장르 감지 아키텍처를 구축하려면 텍스트 코퍼스 형태의 예고편의 중요한 기능을 모델에서 학습해야 합니다. 이는 Embedding과 CNN(Convolution Neural Network) 레이어의 조합을 사용하여 달성할 수 있습니다. 다중 레이블 분류 네트워크의 계층은 표 3에 설명되어 있습니다. 임베딩은 단어를 숫자 벡터 형태의 수학적 표현으로 변환하기 위해 NLP 문제에 사용되는 널리 사용되는 기술 중 하나입니다.


그림 2: ECnet 아키텍처


실제로 아키텍처에 입력을 보내기 전에 어휘를 설계하고 각 데이터 포인트에 대한 코퍼스의 크기를 고정해야 합니다. 10,395 단어 크기의 어휘를 설계하고 각 말뭉치의 단어 수의 최대 길이는 훈련 말뭉치에서 가장 긴 문장의 길이인 330으로 설정했습니다. 말뭉치의 단어 수가 최대 길이보다 작으면 말뭉치는 0으로 채워집니다. 2~3분짜리 영화 예고편의 경우 예고편의 일부 부분에 말이 없을 수 있으므로(보컬만 있을 수 있음) 330 단어이면 충분합니다.


이제 입력 데이터의 각 코퍼스에 대해 모양 (330)(330은 각 데이터 포인트의 단어 수)의 입력을 가지며, 이는 그림 2와 같이 아키텍처의 첫 번째 레이어에 공급됩니다. , 임베딩 레이어. 제안된 아키텍처에서 각 단어의 임베딩 길이가 64로 간주되므로 임베딩 레이어는 차원(330, 64)의 출력을 제공합니다.


표 3: ECnet 아키텍처의 매개변수


임베딩 레이어 다음에는 임베딩 레이어의 출력이 1차원 컨볼루션 레이어에 공급됩니다. 이번에도 컨볼루션 레이어는 (330, 64,)의 출력 형태를 제공합니다. 동일한 출력을 얻기 위해 컨볼루션 레이어의 입력에 패딩을 균일하게 적용합니다. 다음으로, 최대 풀링 계층을 사용하여 데이터 차원을 (330, 64,)에서 (165, 64,)로 줄입니다. 아키텍처 다음에는 2차원 데이터를 1차원 데이터로 변환하고 출력을 조밀한 레이어로 보내기 위한 평면화 레이어가 이어집니다.


표 3에 설명된 것처럼 평탄화된 레이어는 모양(10560)의 출력을 제공하며 이는 입력으로 조밀한 레이어에 공급되고 (32,)의 출력 모양을 제공합니다. 마지막으로 최종 Dense 레이어는 5개 장르를 나타내는 (5,)의 출력 형태를 반환하는 아키텍처에 적용됩니다. 우리 아키텍처의 최종 밀집 계층에서는 다중 레이블 분류 문제에 가장 적합한 활성화 함수로 "시그모이드"를 사용합니다.

4.3. 상황

이 섹션에는 영화 예고편의 시각적 기능에 대해 제안한 작업이 포함되어 있습니다. 이 스트림의 기본 단계에는 (1) 예고편에서 비디오 프레임을 가져오고, (2) 프레임에서 상황을 추출하고, (3) 아키텍처를 구축하여 최종적으로 예고편을 장르로 분류하는 작업이 포함됩니다.


시각적 특징을 위해 영상에서 추출된 각 프레임을 기반으로 상황과 사건을 추출하여 새로운 상황 기반 영상 분석 모델을 제안한다. 따라서 모델을 함께 모아서 모델을 학습/테스트하기 위한 코퍼스가 생성됩니다.


우리는 장르 분류를 위해 상황, 사건, 대화 분석을 융합하여 새로운 프레임워크를 제안하고 있습니다. 프레임워크에 대한 자세한 내용은 아래 섹션에 설명되어 있습니다.

4.3.1. 비디오에서 프레임 추출


영화 예고편의 일부 하위 집합을 사용하여 다양한 실험을 한 결과 10𝑡ℎ마다 프레임을 가져오는 것이 프레임의 중복을 피하는 데 도움이 된다는 사실이 밝혀졌습니다(비디오의 연속 프레임은 유사하게 나타남). 따라서 중복 프레임을 폐기한 후 고려되는 최종 비디오 프레임은 다음과 같이 표현될 수 있다. (9):



후속 섹션에서는 모든 예고편에 대해 이러한 프레임을 고려합니다.

4.3.2. 특징 추출(상황)


그림 3: 위 프레임의 상황: (a) 군인들이 야외에서 행진합니다. (b) 얼굴에 피를 묻힌 유령이 나무를 따라 서 있는 여인 (c) 사람들이 방에서 생일을 축하하고 있다. (d) 한 남자가 경마장에서 질주하고 있다



그리고 상황 S가 이미지 I에 속할 확률은 다음과 같이 나타낼 수 있습니다. (11).




𝛼은 신경의 매개변수를 나타냅니다. 회로망. 이제 특정 순서로 이미지의 의미론적 역할을 정의할 수 있습니다. 따라서 더 나아가, Eq. (12)는 Eq. (13).



방정식. (13)은 Eq.와 같이 더욱 단순화될 수 있다. (14).



주어진 특정 이미지/프레임에 대해 최대값 확률을 갖는 상황은 Eq. (14)가 해당 이미지에 대해 고려됩니다.



이제 작업은 다음 섹션에서 논의되는 모델 아키텍처를 제안하는 텍스트 분류 작업으로 변환됩니다. 다음 단계로 진행하기 전에 텍스트 전처리가 수행됩니다. 섹션 4.2.1에 언급된 대로 모든 텍스트를 소문자로 변환하고 숫자, 구두점 및 중지 단어를 제거합니다. 영화 예고편 장르를 예측하기 위한 테스트 절차에서도 이와 동일한 단계가 수행됩니다.

4.3.3. TFAnet(기간 주파수 인공 신경망)

시각적 특징을 추출한 후 예고편의 최종 장르를 분류하려면 강력한 아키텍처가 필요합니다. 이 모델은 대화 스트림에서 제안한 모델과 다릅니다. 여기서는 그림 4와 같이 Dense 레이어와 Dropout 레이어로 구성된 Deep 네트워크로 구성된 TFAnet(Term Frequency Artificial Neural Network)을 제안합니다.


제안된 아키텍처에 앞서 [19]에서 TF-IDF를 사용한 텍스트 표현에 대해 논의하겠습니다. 이 아키텍처에서는 각 데이터 포인트의 코퍼스에 있는 단어 수를 사용하는 것이 제안됩니다. 따라서 우리는 영화 예고편 장르를 분류하기 위한 기능으로 코퍼스의 단어 수를 사용합니다. 많은 단어를 어휘 세트의 기능으로 포함시키기 위해 EMTD에서 다양한 출시 날짜의 예고편을 사용하여 모델을 훈련하는 동안 사용할 수 있는 방대한 자료를 얻습니다. 유니그램, 바이그램 및 트라이그램의 조합은 코퍼스에서 기능으로 사용되며 TF-IDF(용어 빈도-역 문서 빈도) 알고리즘은 텍스트를 숫자 형식으로 나타냅니다. 가져온 총 n-gram 기능은 약 34,684개입니다. 이제 텍스트 기반 기능이 수학적 형식으로 변환되었으므로 다음(인공 신경망)은 예고편의 장르를 분류하도록 학습됩니다.


표 4: TFAnet의 매개변수


TFAnet(Term Frequency Artificial Neural Network)의 아키텍처는 Table 4와 같습니다. 위에서 설명한 입력 형태는 (34684,)입니다. 이 입력은 조밀한 레이어에 제공되어 (64,) 모양의 출력을 제공합니다. 그런 다음 0.4 비율로 과적합을 줄이기 위해 드롭아웃 레이어를 적용합니다. 다시, 조밀한 레이어가 적용되고 모양이 (32,)인 출력을 얻은 다음 비율이 0.2인 드롭아웃 레이어를 얻습니다. 마지막으로, 밀집 레이어가 적용되어 모양 (5,)의 출력을 제공하여 시그모이드를 활성화 함수로 사용하여 최종적으로 다섯 가지 장르를 예측합니다.


그림 4: TFAnet 아키텍처


MSD 모델의 훈련 단계 알고리즘은 알고리즘 1로 작성됩니다.


테스트 단계의 프로세스는 알고리즘 2로 이해할 수 있습니다.






이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .