🦋 SKALA: SK AX AI Leader Academy

1. DL 모델 최적화 개념/방법


이제 손실 함수(오차)의 값을 최소화하는 최적의 파라미터를 찾는 방법과 관련 개념들을 알아보자




2. Gradient Descent, Learning Rate

Gradient Descent



Learning Rate



Gradient Descent 과 Learning Rate

$$W_{new} = W_{old} - \eta \times \frac{\partial E}{\partial W}$$

구분 경사하강법 (Gradient Descent) 학습률 (Learning Rate)
역할 최적의 파라미터를 찾는 전략/알고리즘 업데이트의 크기/보폭을 조절
핵심 어느 방향이 오차가 가장 작아지는 길인가? 한 번에 몇 미터씩 이동할 것인가?
결정 주체 수학적 공식 (기울기 계산) 사람 (하이퍼파라미터 설정)
잘못될 경우 길을 못 찾거나 엉뚱한 곳에 갇힘 시간 오래 걸리거나 목표를 지나침



3. Forward/Backward-propagation




4. Optimizer


Adam Optimizer (가장 대중적인 선택)


Adam Optimizer의 작동 흐름

  1. 현재 기울기 계산: 지금 발밑이 얼마나 가파른지 확인
  2. 1차 모멘텀 계산: 지금까지 내려온 길을 종합해 속도와 방향 정하기 (관성)
  3. 2차 모멘텀 계산: 길이 얼마나 울퉁불퉁했는지 누적으로 기록 (적응형 학습률)
  4. 업데이트: 넘어지지 않도록 균형을 잡으며 최적의 보폭으로 빠르게 내려가기
구분 일반 경사하강법 (GD) Adam Optimizer
방식 현재 위치의 경사만 보고 이동 이전 경험(방향+속도)을 기억하며 이동
속도 비교적 느림 매우 빠름
안정성 작은 골짜기에 빠지기 쉬움 울퉁불퉁한 지형에서도 효과적
학습률 고정된 보폭 사용 상황에 따라 보폭을 자동으로 조절



5. Gradient Vanishing, Exploding

Gradient Vanishing


Gradient Exploding




6. Dropout




7. DL 의 목표

$$y = x_1W_1 + x_2W_2$$




🦋 SKALA: SK AX AI Leader Academy