스스로 특징 추출
데이터의 힘
좀 더 쉽게 설명하면
1️⃣ 첫 번째 층: 기본 모양 (Low-level Features)
2️⃣ 두 번째 층: 색깔과 질감 (Mid-level Features)
3️⃣ 세 번째 층: 세부 디테일 (High-level Features)
4️⃣ 최종 이해: 결과 도출 (Output)
첫 번째 안경 큰 형체만 볼 수 있음두 번째 안경 색깔을 구별할 수 있음마지막 안경 아주 작은 디테일까지 꿰뚫어 봄Learning, Weights & BiasMinimizing ErrorMSE, Least Squares Method| 단계 | 구분 | 주요 내용 |
|---|---|---|
| 1️⃣ | 데이터 정의 | $(x, y)$ 데이터 준비 (예: 몸무게와 키) |
| 2️⃣ | 선형 모델 정의 | 가설 수립: $y = Wx + b$ ($W$: 회귀계수/가중치/기울기, $b$: 절편/Bias) |
| 3️⃣ | 오차 평가 정의 | 손실 함수(MSE) 정의: $MSE = \frac{1}{n} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2$ |
| 4️⃣ | 오차 최소화 | 최소제곱법(Least Squares Method) 사용 $b = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}$ 등의 공식을 통한 최적화 |
| 5️⃣ | 파라미터 계산 | 최종 파라미터 도출 (예: $y = 2.5x + 29$) |
| 단계 | 구분 | 주요 내용 | |
|---|---|---|---|
| 1️⃣ | 데이터 준비 | 학습 데이터 전처리 (입력값 $x$, 결과값 $y$) | |
| 2️⃣ | 모델 정의 | 신경망 Layer 개수와 구조를 설정하고 가중치를 초기화 | |
| 3️⃣ | 손실 함수 설정 | 모델의 예측값, 실제 정답 사이의 오차 계산 기준 설정 | |
| 4️⃣ | 최적화 | 경사하강법을 통해 파라미터를 조정 | |
| 5️⃣ | 파라미터 조정 | 학습된 데이터 바탕 최적의 $W$(가중치)와 $b$(편향) 값 확정 | |
| 6️⃣ | 평가 및 추론 | 새로운 데이터를 넣어 모델이 정답을 잘 맞히는지 확인 |
순전파 입력 데이터가 층을 통과하며 예측값을 내놓는 과정 (1️⃣ ~ 3️⃣)오차 계산 예측값과 실제 정답을 비교하여 틀린 만큼의 점수를 매김 (3️⃣)역전파 계산된 오차를 뒤로 전달하며 “얼마나 고쳐야 하는지” 계산 (4️⃣)업데이트 계산된 양만큼 파라미터($W, b$)를 수정 (5️⃣)$$Output = \text{Activation}(Wx + b)$$
| 구분 | 선형회귀 (Linear Regression) | 딥러닝 (Deep Learning) |
|---|---|---|
| 기본 구조 | $y = Wx + b$ | $y = \sigma(Wx + b)$ (단, $\sigma$는 활성화 함수) |
| 특징 | 정직한 선형 관계를 찾음 | 비선형 관계를 찾음 |
| 깊이 | Single Layer | Multi-Layer |
| 비유 | 자 대고 직선 하나 긋기 | 여러 개의 자를 꺾어 붙여서 복잡한 그리기 |
“딥러닝 = (선형회귀 + 활성화 함수)를 아주 깊게(Deep) 층층이 쌓아 올린 것”
그래서 딥러닝 모델은 거대한 수식 덩어리 라고도 부른다. 수조 개의 $W$(가중치)와 $b$(편향)가 활성화 함수와 얽혀서 우리가 말하는 인공지능의 지능을 만들어내는 것이다.
| 구분 | Sigmoid | Tanh | ReLU |
|---|---|---|---|
| 정의 | $\sigma(x) = \frac{1}{1 + e^{-x}}$ | $\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ | $ReLU(x) = \max(0, x)$ |
| 출력 범위 | $(0, 1)$ | $(-1, 1)$ | $(0, \infty)$ |
| 장점 | 확률값(0~1) 출력 유용 | 출력값이 0 중심이라 학습 효율 좋음 | 계산 빠르고 성능 좋음 |
| 단점 | Gradient Vanishing 발생 가능 | Gradient Vanishing 발생 가능 | 일부 뉴런이 죽는 현상 발생 가능 |
| 주요 활용 | 이진 분류 | RNN, LSTM 신경망 | 현대 딥러닝의 표준 |
입력 검사 수치, 나이, 증상 데이터 뉴런에 넣기필터링 뉴런이 해당 질병에 걸렸을 확률을 계산
결과값 수치가 높을수록 1(100%)에 가까워지고, 낮을수록 0(0%)에 가까워짐결과 “이 환자가 암일 확률은 85%입니다"와 같은 이진 분류 문제에 주로 사용됨
입력 리뷰 텍스트 데이터의 단어 특징들 뉴런에 넣기필터링 문장의 톤이 긍정적인지 부정적인지 분류
긍정 신호 → “최고예요”, “재미있어요” → +1에 가까운 값 출력부정 신호 → “지루해요”, “최악이에요” → -1에 가까운 값 출력결과 0을 중심으로 데이터가 분포되어 있어 RNN, LSTM 같은 순환 신경망에서 신호의 방향성을 정할 때 자주 사용됨
입력 과일의 크기와 색상 데이터를 뉴런에 넣기필터링 뉴런이 사과일 가능성을 계산
양성 신호 → 크기가 크고 빨간색일 때 → 의미 있는 정보야! 하며 그대로 전달음성 신호 → 크기가 작고 주황색일 때 → ReLU가 0으로 만들어 버림결과 이렇게 필요 없는 정보를 0으로 쳐내면서 학습하면, 컴퓨터는 사과와 오렌지를 가르는 아주 복잡하고 정교한 비선형 경계를 더 잘 찾아낼 수 있게 됨