Technology

2-2. Deep Belief Networks

뉴욕킴 2024. 5. 4. 11:49
  • 사전 지식 

KL-Divergence(쿨백-라이블러 발산): 두 확률 분포의 차이를 측정하는 지표

→ 주로 두 확률 분포가 얼마나 다른지를 비교하는 데 사용됩니다.

KL-Divergence는 정보 이론과 확률 이론에서 많이 사용되며, 분포 간의 거리를 측정하여 모델의 학습 및 평가에 유용하게 활용

 

DKL(Q || P) vs DKL(P || Q) 일때 차이는?

DKL(P || Q)는 확률 분포 P를 기준으로, 분포 Q와의 차이를 나타냅니다. 이는 P를 얼마나 잘 나타내는지를 평가하는 지표로서, 모델의 학습 및 평가에 유용합니다.

반면에 DKL(Q || P)는 확률 분포 Q를 기준으로, 분포 P와의 차이를 나타냅니다. 이는 Q를 얼마나 잘 나타내는지를 평가하는 지표로서, 다른 관점에서의 분포 비교에 사용될 수 있습니다.

 

 


 

Boltzmann Machines(BM): 이진 랜덤 벡터에 대한 확률 분포를 나타내기 위해 에너지 함수를 사용하는 확률 분포

에너지가 낮을수록 해당 상태의 확률이 높아집니다. 이를 통해 시각 단위(v)와 숨겨진 단위(h)로 나누어지며, 시각 단위는 관찰 가능한 데이터를, 숨겨진 단위는 데이터의 숨겨진 구조를 나타냅니다. 시각 단위와 숨겨진 단위 간의 상호 작용을 통해 모델은 데이터의 구조를 학습하고, 이를 기반으로 새로운 데이터를 생성할 수 있습니다. 이 과정에서 모델은 시각 단위와 숨겨진 단위 간의 유사성을 학습하게 됩니다. 이유는 각 단위의 활성화가 다른 단위에 영향을 줄 때, 비슷한 패턴을 가진 단위들이 함께 활성화되는 경향이 있기 때문입니다. 따라서 모델은 유사한 패턴을 공유하는 시각 단위와 숨겨진 단위 간의 연결을 강화시키는 방향으로 학습됩니다.

 

→ 학습된 Boltzmann Machines는 시각 단위의 패턴을 잘 재현하고 새로운 데이터를 생성하는 데 사용(데이터의 잠재적인 구조를 추론하고 이를 기반으로 생성하는 데 유용한 모델)

 

그리고 Boltzmann Machines의 목적은 원본 분포와 모델링 분포 사이의 차이를 줄이는 것입니다. 이를 위해 KL-Divergence를 사용하여 두 분포 간의 차이를 계산하고, Gradient Descent를 통해 이 차이를 최소화합니다. 이 과정에서 시각 단위와 숨겨진 단위의 유사성을 높이는 방향으로 학습됩니다.

 

그러나 시각 단위와 숨겨진 단위의 차원이 다른 경우, 이를 간단하게 처리하기 위해 스칼라로 분해되어야 합니다. 이 때 단점은 계산해야 할 경우의 수가 많아진다는 것입니다.

 

그래서 Boltzmann Machines의 변형인 Restricted Boltzmann Machines(RBM)이 등장합니다. RBM은 시각 단위와 숨겨진 단위를 다른 레이어로 구분하여 연결을 허용하지만 같은 레이어 간의 연결은 허용하지 않습니다. 이를 통해 좀 더 효율적으로 학습을 할 수 있게 됩니다.

 

이렇게 Boltzmann Machines와 Restricted Boltzmann Machines은 딥 생성 모델 중 하나로, 데이터의 구조를 학습하고 생성하는 데에 사용됩니다.

'Technology' 카테고리의 다른 글

Transformers  (0) 2024.05.25
2-3. Variational Autoencoder (VAE)  (0) 2024.05.10
7wk_Multimodal Learning  (0) 2024.04.20
7wk_ Foundation Models  (0) 2024.04.20
6wk_Self Supervised Learning  (0) 2024.04.13