Technology

1wk_XOR, CNN, ImageNet-1K, AlexNet, ZFNet, GoogleNet , VGGNet, ResNet, VIT

뉴욕킴 2024. 3. 9. 12:01

 

XOR 함수

  • 두 개의 이진 입력을 받아 서로 다를 때만 1을, 그 외의 경우에는 0을 출력하는 논리 함수
  • 딥러닝 연관성: 신경망이 XOR 문제를 해결할 때 생성되는 비선형 결정 경계의 중요성을 강조함

 

딥러닝

  • 단층 퍼셉트론의 한계: 초기 신경망 모형인 단층 퍼셉트론으로는 XOR 문제를 해결할 수 없음
  • 다층 퍼셉트론의 등장: XOR 문제를 해결하기 위해 은닉층을 포함한 다층 퍼셉트론이 개발됨 

 

해결방안과 의의

  • 비선형 함수와 은닉층: 비선형 활성화 함수와 은닉층을 이용하여 XOR 같은 비선형 문제 해결 
  • 딥러닝의 발전: XOR 문제는 딥러닝 모델들의 복잡성과 유연성을 이해하는데 중요한 사례로 여겨짐

Convolutional Neural Networks (CNN, 합성곱 신경망)

  • 이미지비디오 데이터에서 사용되는 딥러닝의 한 방법
  • 이미지의 고유한 특징을 학습해서 객체 인식, 분류 작업에 매우 효과적임 

 

합성곱 신경망(CNN)의 기본 구조

  • 합성곱 계층: CNN의 핵심 요소로, 이미지에서 특징을 추출하는 필터들로 구성
  • 활성화 함수: 대표적인 활성화 함수로 ReLU(Rectified Linear Unit)가 있으며, 비선형 변환을 제공
  • 풀링 계층: 필터를 통과한 후의 특징 맵(feature map)을 압축하여 주요 정보를 간략화
  • 완전 연결 계층(Fully Connected Layer): 앞서 추출된 특징들을 기반으로 최종적인 분류를 결정

 

CNN의 특징과 중요성

  • 특징 추출: 다양한 필터를 통해 이미지의 세부적인 특징부터 추상적인 특징까지 다층적으로 학습
  • 공간적 정보 보존: 합성곱 계층을 통해 이미지의 공간적 구조를 유지하면서 정보를 처리하므로 위치 인식이 가능
  • 파라미터 감소: 풀링 계층을 통해 파라미터의 수를 줄이고, 과적합을 방지하는데 기여
  • 다양한 응용 분야: CNN은 이미지 및 비디오 인식, 의료 영상 분석, 자율주행차 등 다양한 분야에서 응용
    → 이미지 분류: 사진 속 개체를 분류하는 작업
    →  객체 검출: 이미지 내 특정 객체의 위치를 감지
    →  영상 인식: 비디오에서 장면이나 행동을 인식하는 기술에 사용

ImageNet-1K

  • 대규모 이미지 데이터셋 중 하나 
  • 1.4M color images in 1,000 classes / 1천 4백만개 이미지가 2만 2천개 이상의 다양한 클래스로 구성 
  • c.f., Full dataset (ImageNet): 14M in 22K classes / 클래스 수 
  • Has various resolutions, but normally preprocessed as 224×224 / 해상도 

→ 딥러닝 모델, 특히 합성곱 신경망(CNN)을 훈련시키고 벤치마킹하는 데 널리 사용

→  데이터셋의 크기와 다양성 덕분에, "ImageNet-1K"는 모델의 이미지 인식 능력을 평가하는 데 매우 좋은 자원으로 사용

 


 

AlexNet 

  • AlexNet이 더 많은 레이어들로 깊은 계층 구조를 이루고 있으며, 많은 필터를 사용하여 진정한 deep network를 구현했음을 알 수 있
  • Cross-GPU parallelization 기법: AlexNet은 2개의 GPU에서 병렬적으로 학습할 수 있게 설계
  • In ImageNet ILSVRC challenge 2012, significantly outperform the runner-up (top 5 error of 16% < 26%) 
  • Basically similar to LeNet, but deeper, bigger, and featured layers of CONV, RELU, POOL(기본적으로 LeNet과 유사하지만 CONV, RELU, POOL의 더 깊고 더 크고 기능이 있는 레이어)

       → 에러 10% 이상 더 잡음 


ZFNet (2013) 

  • The winner of ILSVRC 2013 (AlexNet: 16.4%의 classification 에러율로 우승, ZFNet: 11.7% 에러율로 우승)
  • Engineered AlexNet
  • feature map을 시각화하여 블랙박스를 들여다보고, 모델의 성능을 개선하는 것을 목표로 고안

→  중간 중간 어떤걸 뽑아내는건지 시각화처럼 만들어냄 

 

  • Visualization of the 1st layer features →  zf net이 더 의미있는 데이터가 많음


GoogleNet (2014)

  • 인셉션 넷을 추가로 도입 (Inception module) → 다양한 크기의 속성들을 찾아냄, 합침 


VGGNet (2014)

  • 2등 했지만 나중에는 구글넷보다 더 효과 잇엇음 → 작은 피쳐 사이즈를 넣는게 더 효과적이다.

 


ResNet (2015)

  • 깊은 신경망에서 발생하는 그레디언트 소실 문제를 해결하고, 더 깊은 네트워크를 효과적으로 학습할 수 있도록 도와줌

 

장점

  • 깊은 네트워크 학습 가능성: ResNet은 스킵 연결(skip connection)을 사용하여 그레디언트 소실 문제를 완화 → 매우 깊은 신경망도 효과적으로 학습 가능
  • 효율적인 학습: ResNet은 학습 과정에서 더 빠르게 수렴할 수 있음 (스킵 연결은 정보의 흐름을 원활하게 만들어주고, 그레디언트가 잘 전달되어 경사 하강법의 수렴을 도와줌)
  • 정확도 향상: ResNet은 깊은 네트워크를 학습할 수 있어서, 복잡한 데이터셋에서 높은 정확도를 달성할 수 있음

단점

  • 모델 복잡성: ResNet은 일부 잔차 블록에서 추가되는 스킵 연결 때문에 모델의 복잡성이 증가할 수 있음
  • 메모리 요구량: 깊은 ResNet 모델은 많은 수의 레이어를 포함하므로, 메모리 요구량이 높아질 수 있음
  • 과적합 가능성: 깊은 네트워크의 경우, 훈련 데이터에 대한 과적합이 발생할 수 있음
     

 

→ 아무리 깊어도 학습이 가능하게 구성되어 있음

 

 


ViT: Visual Transformer (2021)

  • 기존 CNN 기반 SOTA 모델보다 성능이 좋다.
  • Fine-Tuning 과정에서 적은 리소스로도 더 좋은 성능을 보여준다
  • 기존 Transformer 모델처럼 Parameter에 한계가 아직 없다. 더 많은 데이터와 더 많은 Parameter로 더 좋은 성능을 보여줄 수 있다.
  • CNN, RNN과 다르게 공간에 대한 bias가 없다. 따라서 많은 사전 데이터 학습이 필요하다.(많은 데이터를 사전 학습 해야 된다. 적은 데이터로 사전 학습 시 성능이 나빠진다)

 

 

 

1. Image Patch 만들기
트랜스포머는 NLP분야에서 출발한만큼 1D 임베딩들을 필요로 합니다. 논문 저자들은 이미지 패치를 만들어 1D임배딩을 만들어 나갑니다. 이해를 돕기 위해 대표 이미지 기준으로 설명드리면 [300,300,3]의 이미지를 [100,100,3] 이미지 9개로 만들었습니다.

2-1. Patch Embedding 만들기
패치화된 각 이미지를 1차원으로 만듭니다 (Linear Projection). 앞서 하나의 패치가 [100,100,3]이었다면 각 픽셀들을 일렬로 이어 붙여서 [1,100X100X3]인 1차원으로 만듭니다.

4) Vision transformer(★작성중) - 한땀한땀 딥러닝 컴퓨터 비전 백과사전 (wikidocs.net)

 

4) Vision transformer(★작성중)

NLP 분야에서의 트렌스포머를 컴퓨터 비전에 적용한 네트워크입니다. CNN만 이용한 네트워크 보다 좋은 성능을 보여주고 있습니다. 쳅터1에서 정리한 Transformer을…

wikidocs.net

쉽게 이해하는 ViT(Vision Transformer) 논문 리뷰 | An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (tistory.com)

 

쉽게 이해하는 ViT(Vision Transformer) 논문 리뷰 | An Image is Worth 16x16 Words: Transformers for Image Recognition at

ViT(Vision Transformer) 논문 리뷰를 해보겠습니다. Transformer는 NLP 테스크에서 Bert, GPT-3 등 기반 알고리즘으로 유명하죠. 이런 Transformer 알고리즘을 Vision 분야에서 사용합니다. 시작하기 앞서서 Transform

hipgyung.tistory.com


참고자료

1) LeNet, AlexNet, ZFNet(레이어 8개 이하) - 한땀한땀 딥러닝 컴퓨터 비전 백과사전 (wikidocs.net)

 

1) LeNet, AlexNet, ZFNet(레이어 8개 이하)

## LeNet-5 **LeNet**은 CNN을 처음 개발한 Yann LeCun의 연구팀이 1998년에 제시한 단순한 CNN입니다. ### LeNet의 등장 배경 LeNet 이…

wikidocs.net

[딥러닝] ResNet의 개념 - 로스카츠의 AI 머신러닝 (losskatsu.github.io)

 

[딥러닝] ResNet의 개념

딥러닝 - ResNet의 개념

losskatsu.github.io


Point

ZFNet (2013) 

  • The winner of ILSVRC 2013 (AlexNet: 16.4%의 classification 에러율로 우승, ZFNet: 11.7% 에러율로 우승)
  • Engineered AlexNet
  • feature map을 시각화하여 블랙박스를 들여다보고, 모델의 성능을 개선하는 것을 목표로 고안

→  중간 중간 어떤걸 뽑아내는건지 시각화처럼 만들어냄 

 

ViT: Visual Transformer (2021)

  • 기존 CNN 기반 SOTA 모델보다 성능이 좋다.
  • Fine-Tuning 과정에서 적은 리소스로도 더 좋은 성능을 보여준다
  • 기존 Transformer 모델처럼 Parameter에 한계가 아직 없다. 더 많은 데이터와 더 많은 Parameter로 더 좋은 성능을 보여줄 수 있다.
  • CNN, RNN과 다르게 공간에 대한 bias가 없다. 따라서 많은 사전 데이터 학습이 필요하다.(많은 데이터를 사전 학습 해야 된다. 적은 데이터로 사전 학습 시 성능이 나빠진다)

'Technology' 카테고리의 다른 글

5wk_Super Resolution and Image Translation  (0) 2024.04.06
4wk_Style Transfer  (0) 2024.03.30
3wk_Human Pose Estimation (HPE)  (0) 2024.03.23
3wk_Instance Segmentation  (0) 2024.03.21
2wk_Object Recognition (객체 인식), R-CNN, Fast R-CNN  (0) 2024.03.16