2024/04/20 3

7wk_Multimodal Learning

Multimodal Learning다중 모달리티는 현실 세계의 정보가 다양한 형태로 존재하는 것을 의미합니다. 예를 들어, 시각적 자료(이미지, 비디오)와 텍스트 자료가 서로 다른 정보를 제공할 수 있습니다. 이러한 서로 다른 모달리티 간의 관계를 이해하고 통합하는 것이 중요합니다.다중 모달 작업 예시이미지/비디오 캡셔닝(Image Captioning): 이미지나 비디오에서 내용을 설명하는 문장이나 문단을 생성합니다.텍스트 기반 이미지/비디오 검색: 텍스트 쿼리를 통해 관련 이미지나 비디오를 선택합니다.시각적 질문응답(VQA, Visual Question Answering): 텍스트 질문과 이미지(또는 비디오)를 바탕으로 텍스트 답변을 생성합니다.공간적 위치 파악: 텍스트 설명과 이미지를 바탕으로 사건이..

Technology 2024.04.20

7wk_Convolutional Operation for Multi-channel Inputs

합성곱 신경망(Convolutional Neural Networks, CNN)의 핵심 개념 중 하나는 데이터와 합성곱 필터(커널) 간의 행렬 곱셈을 통한 특징 추출입니다. 여기서 주요 차이점은 다음과 같습니다: 희소 연결(Sparse Connection): CNN에서 필터는 입력 데이터의 그리드와 같은 로컬 데이터에만 연결되어 있어, 전체 데이터 대신 특정 지역의 특징을 추출하게 됩니다. 이러한 방식은 전체 데이터를 고려하는 대신, 중요하다고 생각되는 부분에 집중하여 필터링합니다. 이는 계산 효율성을 높이고, 데이터 내 중요 정보에 대한 집중력을 향상시키는 특징을 가집니다. 파라미터 공유(Parameter Sharing): 합성곱 신경망에서 동일한 필터가 입력 이미지의 모든 픽셀에 적용됩니다. 이는 모든..

Deep Learning 2024.04.20

7wk_ Foundation Models

Foundation Models 전이 학습(Transfer Learning)은 머신러닝의 한 분야로, 이미 한 작업에서 학습된 지식을 다른 관련 작업에 적용하여 모델의 학습을 가속화하고 개선하는 기법입니다.이 방법은 학습 과정에서 얻은 특성(예: 이미지 인식에서의 특징, 언어 처리에서의 단어 임베딩)을 다른 모델로 전달함으로써, 새로운 작업에 대해 더 적은 데이터로 더 빠르게 좋은 성능을 달성할 수 있도록 돕습니다. 예를 들어, 한 모델이 개와 고양이의 이미지를 구분하는 데 사용된 학습을 통해 획득한 이미지 처리 능력을, 다른 종류의 동물을 구분하는 작업에 적용할 수 있습니다. 이 경우, 초기 학습에서 얻은 저수준의 특징(예: 모양, 가장자리, 질감 등)이 새로운 작업에도 유용하게 사용될 수 있습니다. ..

Technology 2024.04.20
728x90