Technology

7wk_Multimodal Learning

뉴욕킴 2024. 4. 20. 19:47

Multimodal Learning

다중 모달리티는 현실 세계의 정보가 다양한 형태로 존재하는 것을 의미합니다. 예를 들어, 시각적 자료(이미지, 비디오)와 텍스트 자료가 서로 다른 정보를 제공할 수 있습니다. 이러한 서로 다른 모달리티 간의 관계를 이해하고 통합하는 것이 중요합니다.

다중 모달 작업 예시

  1. 이미지/비디오 캡셔닝(Image Captioning): 이미지나 비디오에서 내용을 설명하는 문장이나 문단을 생성합니다.
  2. 텍스트 기반 이미지/비디오 검색: 텍스트 쿼리를 통해 관련 이미지나 비디오를 선택합니다.
  3. 시각적 질문응답(VQA, Visual Question Answering): 텍스트 질문과 이미지(또는 비디오)를 바탕으로 텍스트 답변을 생성합니다.
  4. 공간적 위치 파악: 텍스트 설명과 이미지를 바탕으로 사건이 발생한 위치를 지정합니다.
  5. 시간적 위치 파악: 텍스트 설명과 비디오를 바탕으로 사건이 발생한 시점을 지정합니다.

다중 모달 학습의 주요 기술

  • 이미지 캡셔닝 (Image Captioning): 신경망을 사용해 이미지를 설명하는 문장을 생성합니다. 예를 들어, Mao et al.의 "Multimodal Recurrent Neural Networks"와 같은 기술이 있습니다.
  • 시각적 질문응답 (VQA, Visual Question Answering): 이미지와 관련 질문을 입력으로 사용하여 적절한 답변을 생성합니다.
  • 시각적 대화(Visual Dialog): 이미지에 대한 정보를 바탕으로 대화를 진행합니다.
  • 표현 학습: 서로 다른 모달리티의 데이터를 공통된 임베딩 공간에서 표현을 학습하여, 각 모달리티 간의 관계를 이해합니다.

중요 연구 및 알고리즘

  • Transformer: 다양한 모달리티의 정보를 통합하는 데 유용한 아키텍처로, 주의 기반 메커니즘을 사용하여 데이터의 중요 부분에 집중합니다.

 

  • BERT: 양방향 인코더 표현을 사용하여 언어 이해에 있어 깊은 통찰을 제공합니다.

- 트랜스포머(Transformer)의 인코더를 활용하여 대규모 언어 모델을 사전 훈련하는 방식입니다.

- 양방향 인코더를 사용하여, 문맥의 왼쪽과 오른쪽 모두를 동시에 고려합니다. 이는 기존의 단방향 언어 모델보다 더 효과적으로 문맥을 이해할 수 있게 해줍니다.

- 자기지도학습(self-supervised learning): 사람의 평가 없이 모델 스스로 학습 데이터로부터 학습을 진행합니다.

훈련 과제

마스크된 언어 모델링(Masked Language Modeling, MLM)
문장 내 무작위로 선택된 15%의 토큰을 마스크하고, 이를 문맥을 통해 예측하도록 합니다. 이는 문장 완성 테스트와 유사한 방식으로, 주어진 문맥을 바탕으로 숨겨진 단어를 추측합니다.
다음 문장 예측(Next Sentence Prediction, NSP)
두 문장이 실제로 연속적인 관계인지 예측하는 이진 분류 문제입니다. 훈련 데이터의 절반은 실제 연속적인 문장으로 구성되고, 나머지 절반은 무작위로 선택된 문장으로 구성됩니다. 이 과제는 모델이 두 문장 간의 관계를 이해하는 데 도움을 줍니다.
현재 활용

BERT는 현재 다양한 자연어 처리 작업에 널리 사용되는 사전 훈련된 모델로, 뛰어난 성능을 제공합니다. 특히, 문장 이해 및 생성, 질문 응답, 문서 요약 등의 과제에 효과적으로 활용됩니다.

 

 

  • VilBERT: BERT를 기반으로 하여 시각적 정보와 텍스트 정보 사이의 교차 모달 주의를 사용하여 표현을 학습합니다.

- VilBERT는 비전(이미지)과 언어(텍스트) 데이터를 동시에 처리하기 위해 설계된 모델로, 각각의 데이터 유형에 대한 특성을 동시에 학습하고, 이 두 모달리티 간의 상호작용을 통해 정보를 통합합니다.

- Co-attention Transformer 구조를 사용하여, 텍스트와 이미지 간의 연관성을 학습합니다. 여기서 Query는 자기 모드(self-mode)에서, Key와 Value는 다른 모드에서 가져옵니다. 이는 트랜스포머 디코더가 인코더 시퀀스에 주의를 기울이는 방식과 유사합니다.

* 훈련 과제

1. 마스크된 다중 모달 모델링(Masked Multi-Modal Modelling)
- BERT의 MLM(Masked Language Modeling)에 비유되며, 이미지 영역에서 의미론적 클래스에 대한 분포를 예측합니다. 이 때, Faster R-CNN 모델의 예측을 ground truth로 사용합니다.
- 텍스트 부분은 원래 MLM과 동일하게 처리되며, 시각적 신호에도 주의를 기울입니다.

2. 다중 모달 정렬 과제(Multi-Modal Alignment Task)
- BERT의 NSP(Next Sentence Prediction)와 유사하며, 입력으로 이미지와 텍스트 쌍을 받아 여러 이미지 패치를 추출하여 처리합니다.
- 출력 임베딩은 [IMG]와 [CLS]에 해당하며, 전체 이미지와 문장을 나타내도록 학습됩니다.
- 이 임베딩이 정렬되어 있는지 분류합니다.

* 하류 작업(Downstream Tasks)
- 캡션 기반 이미지 검색(Caption-Based Image Retrieval)
텍스트로 기술된 이미지를 기반으로 코퍼스에서 가장 관련성 높은 이미지를 검색합니다. 이는 웹 검색 엔진의 이미지 검색과 유사하지만, 검색 쿼리가 더 설명적입니다.
VilBERT는 텍스트와 이미지 정보를 효과적으로 통합하여 다양한 시각적-언어적 작업에 활용됩니다. 이를 통해 모델은 복잡한 시나리오에서도 의미 있는 정보를 추출하고, 더 정확한 인사이트를 제공할 수 있습니다.

 

  • CLIP: 대규모 이미지-텍스트 쌍 데이터셋을 사용하여 이미지 인코더와 텍스트 인코더를 함께 학습시키는 방식으로, 자연어 지도 하에 시각적 모델을 훈련합니다. 

훈련 과정

  • 데이터셋: WebImageText (WIT), 인터넷에서 수집된 약 4억 개의 이미지-텍스트 쌍을 포함합니다.
  • 모델 아키텍처: 이미지 인코더로는 ResNet-D (ResNet-50에서 발전된 모델) 또는 Vision Transformer (ViT)를 사용하며, 텍스트 인코더로는 Transformer가 사용됩니다.
  • 학습 방식: 배치 내의 진정한 쌍(I1, T1 등) 사이의 유사성(점곱)을 최대화하고, 다른 모든 쌍(I1, T2 등) 사이의 유사성을 최소화하여 행렬의 외적을 항등 행렬에 가깝게 만듭니다.

테스트 및 응용

  • 분류기 구현: 텍스트 프롬프트 ("A photo of a _______")를 사용하여 학습된 텍스트 인코더로부터 제로샷 선형 분류기를 합성합니다. 이는 모델이 자연어에 대한 깊은 이해를 바탕으로 유연하게 적응할 수 있음을 의미합니다.
  • 이미지와 텍스트의 의미적 정렬: 이미지 인코딩은 텍스트의 의미와 정렬되어 있으며, 해당 텍스트 프롬프트와의 내적이 클 경우 관련 이미지를 효과적으로 식별할 수 있습니다.
  • 일반적 사용 사례:
    • 텍스트를 임베딩하여 관련성이 높은 이미지나 비디오를 검색합니다.
    • 이미지를 임베딩하여 해당 이미지를 설명하는 문장을 선택하거나 생성합니다.

CLIP은 텍스트와 이미지 간의 의미적 연결을 통해 다양한 시각적 작업에 강력하고 유연한 성능을 제공하는 효과적인 도구입니다.

 

결론

다중 모달 학습은 이미지, 텍스트 등 다양한 데이터 소스에서 정보를 통합하여 더 풍부하고 정확한 결과를 도출할 수 있도록 합니다. 이를 통해 모델은 보다 정교하고 세밀한 이해를 할 수 있으며, 실제 세계의 복잡한 문제를 해결하는 데 큰 도움이 됩니다.