1wk_XOR, CNN, ImageNet-1K, AlexNet, ZFNet, GoogleNet , VGGNet, ResNet, VIT
XOR 함수
- 두 개의 이진 입력을 받아 서로 다를 때만 1을, 그 외의 경우에는 0을 출력하는 논리 함수
- 딥러닝 연관성: 신경망이 XOR 문제를 해결할 때 생성되는 비선형 결정 경계의 중요성을 강조함
딥러닝
- 단층 퍼셉트론의 한계: 초기 신경망 모형인 단층 퍼셉트론으로는 XOR 문제를 해결할 수 없음
- 다층 퍼셉트론의 등장: XOR 문제를 해결하기 위해 은닉층을 포함한 다층 퍼셉트론이 개발됨
해결방안과 의의
- 비선형 함수와 은닉층: 비선형 활성화 함수와 은닉층을 이용하여 XOR 같은 비선형 문제 해결
- 딥러닝의 발전: XOR 문제는 딥러닝 모델들의 복잡성과 유연성을 이해하는데 중요한 사례로 여겨짐
Convolutional Neural Networks (CNN, 합성곱 신경망)
- 이미지나 비디오 데이터에서 사용되는 딥러닝의 한 방법
- 이미지의 고유한 특징을 학습해서 객체 인식, 분류 작업에 매우 효과적임
합성곱 신경망(CNN)의 기본 구조
- 합성곱 계층: CNN의 핵심 요소로, 이미지에서 특징을 추출하는 필터들로 구성
- 활성화 함수: 대표적인 활성화 함수로 ReLU(Rectified Linear Unit)가 있으며, 비선형 변환을 제공
- 풀링 계층: 필터를 통과한 후의 특징 맵(feature map)을 압축하여 주요 정보를 간략화
- 완전 연결 계층(Fully Connected Layer): 앞서 추출된 특징들을 기반으로 최종적인 분류를 결정
CNN의 특징과 중요성
- 특징 추출: 다양한 필터를 통해 이미지의 세부적인 특징부터 추상적인 특징까지 다층적으로 학습
- 공간적 정보 보존: 합성곱 계층을 통해 이미지의 공간적 구조를 유지하면서 정보를 처리하므로 위치 인식이 가능
- 파라미터 감소: 풀링 계층을 통해 파라미터의 수를 줄이고, 과적합을 방지하는데 기여
- 다양한 응용 분야: CNN은 이미지 및 비디오 인식, 의료 영상 분석, 자율주행차 등 다양한 분야에서 응용
→ 이미지 분류: 사진 속 개체를 분류하는 작업
→ 객체 검출: 이미지 내 특정 객체의 위치를 감지
→ 영상 인식: 비디오에서 장면이나 행동을 인식하는 기술에 사용
ImageNet-1K
- 대규모 이미지 데이터셋 중 하나
- 1.4M color images in 1,000 classes / 1천 4백만개 이미지가 2만 2천개 이상의 다양한 클래스로 구성
- c.f., Full dataset (ImageNet): 14M in 22K classes / 클래스 수
- Has various resolutions, but normally preprocessed as 224×224 / 해상도
→ 딥러닝 모델, 특히 합성곱 신경망(CNN)을 훈련시키고 벤치마킹하는 데 널리 사용
→ 데이터셋의 크기와 다양성 덕분에, "ImageNet-1K"는 모델의 이미지 인식 능력을 평가하는 데 매우 좋은 자원으로 사용
AlexNet
- AlexNet이 더 많은 레이어들로 깊은 계층 구조를 이루고 있으며, 많은 필터를 사용하여 진정한 deep network를 구현했음을 알 수 있
- Cross-GPU parallelization 기법: AlexNet은 2개의 GPU에서 병렬적으로 학습할 수 있게 설계
- In ImageNet ILSVRC challenge 2012, significantly outperform the runner-up (top 5 error of 16% < 26%)
- Basically similar to LeNet, but deeper, bigger, and featured layers of CONV, RELU, POOL(기본적으로 LeNet과 유사하지만 CONV, RELU, POOL의 더 깊고 더 크고 기능이 있는 레이어)
→ 에러 10% 이상 더 잡음
ZFNet (2013)
- The winner of ILSVRC 2013 (AlexNet: 16.4%의 classification 에러율로 우승, ZFNet: 11.7% 에러율로 우승)
- Engineered AlexNet
- feature map을 시각화하여 블랙박스를 들여다보고, 모델의 성능을 개선하는 것을 목표로 고안
→ 중간 중간 어떤걸 뽑아내는건지 시각화처럼 만들어냄
- Visualization of the 1st layer features → zf net이 더 의미있는 데이터가 많음
GoogleNet (2014)
- 인셉션 넷을 추가로 도입 (Inception module) → 다양한 크기의 속성들을 찾아냄, 합침
VGGNet (2014)
- 2등 했지만 나중에는 구글넷보다 더 효과 잇엇음 → 작은 피쳐 사이즈를 넣는게 더 효과적이다.
ResNet (2015)
- 깊은 신경망에서 발생하는 그레디언트 소실 문제를 해결하고, 더 깊은 네트워크를 효과적으로 학습할 수 있도록 도와줌
장점
- 깊은 네트워크 학습 가능성: ResNet은 스킵 연결(skip connection)을 사용하여 그레디언트 소실 문제를 완화 → 매우 깊은 신경망도 효과적으로 학습 가능
- 효율적인 학습: ResNet은 학습 과정에서 더 빠르게 수렴할 수 있음 (스킵 연결은 정보의 흐름을 원활하게 만들어주고, 그레디언트가 잘 전달되어 경사 하강법의 수렴을 도와줌)
- 정확도 향상: ResNet은 깊은 네트워크를 학습할 수 있어서, 복잡한 데이터셋에서 높은 정확도를 달성할 수 있음
단점
- 모델 복잡성: ResNet은 일부 잔차 블록에서 추가되는 스킵 연결 때문에 모델의 복잡성이 증가할 수 있음
- 메모리 요구량: 깊은 ResNet 모델은 많은 수의 레이어를 포함하므로, 메모리 요구량이 높아질 수 있음
- 과적합 가능성: 깊은 네트워크의 경우, 훈련 데이터에 대한 과적합이 발생할 수 있음
→ 아무리 깊어도 학습이 가능하게 구성되어 있음
ViT: Visual Transformer (2021)
- 기존 CNN 기반 SOTA 모델보다 성능이 좋다.
- Fine-Tuning 과정에서 적은 리소스로도 더 좋은 성능을 보여준다
- 기존 Transformer 모델처럼 Parameter에 한계가 아직 없다. 더 많은 데이터와 더 많은 Parameter로 더 좋은 성능을 보여줄 수 있다.
- CNN, RNN과 다르게 공간에 대한 bias가 없다. 따라서 많은 사전 데이터 학습이 필요하다.(많은 데이터를 사전 학습 해야 된다. 적은 데이터로 사전 학습 시 성능이 나빠진다)
1. Image Patch 만들기
트랜스포머는 NLP분야에서 출발한만큼 1D 임베딩들을 필요로 합니다. 논문 저자들은 이미지 패치를 만들어 1D임배딩을 만들어 나갑니다. 이해를 돕기 위해 대표 이미지 기준으로 설명드리면 [300,300,3]의 이미지를 [100,100,3] 이미지 9개로 만들었습니다.
2-1. Patch Embedding 만들기
패치화된 각 이미지를 1차원으로 만듭니다 (Linear Projection). 앞서 하나의 패치가 [100,100,3]이었다면 각 픽셀들을 일렬로 이어 붙여서 [1,100X100X3]인 1차원으로 만듭니다.
4) Vision transformer(★작성중) - 한땀한땀 딥러닝 컴퓨터 비전 백과사전 (wikidocs.net)
4) Vision transformer(★작성중)
NLP 분야에서의 트렌스포머를 컴퓨터 비전에 적용한 네트워크입니다. CNN만 이용한 네트워크 보다 좋은 성능을 보여주고 있습니다. 쳅터1에서 정리한 Transformer을…
wikidocs.net
쉽게 이해하는 ViT(Vision Transformer) 논문 리뷰 | An Image is Worth 16x16 Words: Transformers for Image Recognition at
ViT(Vision Transformer) 논문 리뷰를 해보겠습니다. Transformer는 NLP 테스크에서 Bert, GPT-3 등 기반 알고리즘으로 유명하죠. 이런 Transformer 알고리즘을 Vision 분야에서 사용합니다. 시작하기 앞서서 Transform
hipgyung.tistory.com
참고자료
1) LeNet, AlexNet, ZFNet(레이어 8개 이하) - 한땀한땀 딥러닝 컴퓨터 비전 백과사전 (wikidocs.net)
1) LeNet, AlexNet, ZFNet(레이어 8개 이하)
## LeNet-5 **LeNet**은 CNN을 처음 개발한 Yann LeCun의 연구팀이 1998년에 제시한 단순한 CNN입니다. ### LeNet의 등장 배경 LeNet 이…
wikidocs.net
[딥러닝] ResNet의 개념 - 로스카츠의 AI 머신러닝 (losskatsu.github.io)
[딥러닝] ResNet의 개념
딥러닝 - ResNet의 개념
losskatsu.github.io
Point
ZFNet (2013)
- The winner of ILSVRC 2013 (AlexNet: 16.4%의 classification 에러율로 우승, ZFNet: 11.7% 에러율로 우승)
- Engineered AlexNet
- feature map을 시각화하여 블랙박스를 들여다보고, 모델의 성능을 개선하는 것을 목표로 고안
→ 중간 중간 어떤걸 뽑아내는건지 시각화처럼 만들어냄
ViT: Visual Transformer (2021)
- 기존 CNN 기반 SOTA 모델보다 성능이 좋다.
- Fine-Tuning 과정에서 적은 리소스로도 더 좋은 성능을 보여준다
- 기존 Transformer 모델처럼 Parameter에 한계가 아직 없다. 더 많은 데이터와 더 많은 Parameter로 더 좋은 성능을 보여줄 수 있다.
- CNN, RNN과 다르게 공간에 대한 bias가 없다. 따라서 많은 사전 데이터 학습이 필요하다.(많은 데이터를 사전 학습 해야 된다. 적은 데이터로 사전 학습 시 성능이 나빠진다)