Multimodal Learning다중 모달리티는 현실 세계의 정보가 다양한 형태로 존재하는 것을 의미합니다. 예를 들어, 시각적 자료(이미지, 비디오)와 텍스트 자료가 서로 다른 정보를 제공할 수 있습니다. 이러한 서로 다른 모달리티 간의 관계를 이해하고 통합하는 것이 중요합니다.다중 모달 작업 예시이미지/비디오 캡셔닝(Image Captioning): 이미지나 비디오에서 내용을 설명하는 문장이나 문단을 생성합니다.텍스트 기반 이미지/비디오 검색: 텍스트 쿼리를 통해 관련 이미지나 비디오를 선택합니다.시각적 질문응답(VQA, Visual Question Answering): 텍스트 질문과 이미지(또는 비디오)를 바탕으로 텍스트 답변을 생성합니다.공간적 위치 파악: 텍스트 설명과 이미지를 바탕으로 사건이..