유진정의 기록

[KHUDA ML 기초 딥다이브] Week 03 본문

개인공부/Machine Learning

[KHUDA ML 기초 딥다이브] Week 03

알파카유진정 2025. 2. 5. 19:17
#커널 기법

SVM은 비선형적인 문제에 대해서도 해결책을 제시합니다. 선형적으로 분리되지 않는 데이터를 다룰 때 커널 기법을 활용하여 고차원 공간으로 변환함으로써 분류를 가능하게 합니다. 대표적인 커널에는 선형 커널, 다항식 커널, RBF 커널  등이 있습니다.

그렇다면

- 다항식 커널과 RBF 커널의 차이는 무엇인가? 각각의 정확한 개념과  둘 사이의 유사점, 차이점은 무엇인가?
- 다항식 커널과 RBF 커널의 하이퍼파라미터 각각 d와 γ은 커질수록 오버피팅을 야기할 수 있다. 그 이유는 무엇인가?

  1. 다항식 커널과 RBF 커널의 차이점

다항식 커널과 RBF 커널은 근본적으로 다른 접근 방식을 가집니다. 다항식 커널($K(\mathbf{x}, \mathbf{y}) = (\mathbf{x}^T \mathbf{y} + c)^d$)은 특성들의 명시적인 다항식 조합을 통해 유한 차원의 특징 공간을 생성하며, 이는 해석이 용이하고 특성 간 상호작용을 직관적으로 이해할 수 있습니다. 반면, RBF 커널($K(\mathbf{x}, \mathbf{y}) = \exp(-\gamma |\mathbf{x} - \mathbf{y}|^2)$)은 데이터 포인트 간의 거리를 기반으로 무한 차원의 특징 공간을 생성하며, 이는 더 복잡한 비선형 패턴을 포착할 수 있지만 해석이 상대적으로 어렵습니다.

  1. 하이퍼파라미터와 과적합의 관계

두 커널 모두 하이퍼파라미터 증가에 따른 과적합 위험이 있으나, 그 메커니즘은 다릅니다. 다항식 커널에서 차수 d가 증가하면 VC 차원이 $\binom{n+d}{d}$로 기하급수적으로 증가하여 모델의 복잡도가 급격히 높아지고, 이는 더 많은 훈련 데이터가 필요함을 의미합니다. RBF 커널에서 γ가 증가하면 가우시안 폭($\sigma = \frac{1}{\sqrt{2\gamma}}$)이 감소하여 각 데이터 포인트의 영향 범위가 지나치게 좁아지고, 극단적인 경우 각 학습 데이터 포인트만의 고유한 특성을 과도하게 학습하게 됩니다. 두 경우 모두 모델이 훈련 데이터의 노이즈까지 학습하게 되어 일반화 성능이 저하됩니다.

SVM 커널 비교 분석

1. 기본 정의와 수식

항목 다항식 커널 RBF 커널
수학적 정의 $K(\mathbf{x}, \mathbf{y}) = (\mathbf{x}^T \mathbf{y} + c)^d$ $K(\mathbf{x}, \mathbf{y}) = \exp(-\gamma |\mathbf{x} - \mathbf{y}|^2)$
주요 파라미터 $d$: 차수
$c$: 상수항
$\gamma = \frac{1}{2\sigma^2}$: 가우시안 폭의 역수
특성 공간 유한 차원
(예: $d=2$일 때 $\phi(x) = (x_1^2, \sqrt{2}x_1x_2, x_2^2)$)
무한 차원
$\sum_{n=0}^{\infty} \frac{(\gamma\mathbf{x}^T\mathbf{y})^n}{n!}$

2. 과적합 메커니즘

구분 다항식 커널 RBF 커널
주요 원인 차수 $d$ 증가 $\gamma$ 값 증가
이론적 근거 VC 차원 ≈ $\binom{n+d}{d}$ $\gamma \to \infty$ 일 때 $K \to \delta_{\mathbf{x},\mathbf{y}}$
일반화 오차 $Error_{test} \leq Error_{train} + O(\sqrt{\frac{d\log N}{N}})$ 가우시안 폭 $\sigma = \frac{1}{\sqrt{2\gamma}}$ 감소

3. 구현 특성

특성 다항식 커널 RBF 커널
계산 복잡도 시간: $O(d \cdot n_{features})$
공간: $O(\binom{n_{features}+d}{d})$
시간: $O(n_{features})$
공간: $O(1)$
수치 안정성 스케일링 필수
$|\mathbf{x}| \approx 1$ 필요
$c \geq 0$ 권장
$[0,1]$ 범위 보장
상대적으로 안정적

4. 실용적 가이드

구분 다항식 커널 RBF 커널
적용 케이스 특성 간 상호작용 명확
해석 가능성 중요
복잡한 비선형 패턴
데이터 구조 불명확
파라미터 범위 $d \in [2,5]$
$c \in [0,5]$
$\gamma \in [10^{-4}, 10^{4}]$
초기값 추천 $d=2$
$c=1$
$\gamma = \frac{1}{n_{features}}$

5. 모니터링 기준

모니터링 다항식 커널 RBF 커널
과적합 신호 $|K(\mathbf{x},\mathbf{x})| > 10^{10}$ $|K - I|_F < \epsilon$
종료 조건 $d$ 증가에 따른 검증 성능 저하 훈련-검증 성능 차이 임계값 초과

# 가장 좋은 하이퍼파라미터

우리는 SVM을 공부하면서 γ와 C라는 하이퍼파라미터에 대해 공부했습니다. 우리는 머신러닝, 딥러닝을 공부하며 더 많은 하이퍼파라미터들을 마주하게 됩니다. 하이퍼파라미터는 개인의 주관에 따라 적용이 가능하지만, 동시에 모델의 성능에 큰 영향을 끼칩니다. 그렇다면 우리는 어떻게 가장 좋은 하이퍼파라미터를 찾을 수 있을까요? 수많은 숫자를 하나하나 대입해보아야 할까요?

그렇다면

- 하이퍼파라미터를 튜닝하는 전통적인 방식에는 어떤 방법들이 있으며 이들은 어떤 로직으로 작동할까?
- AutoML이란 무엇이고, 이것이 항상 전통적인 방식의 하이퍼파라미터 튜닝보다 좋을까?
- 항상 그렇지 않다면 언제 그런지, 그리고 그 이유는 무엇일까?
# 나무를 잘 기르는 법

결정 트리는 매우 훌륭합니다! 분류, 회귀문제를 모두 해결할 수 있고, 결측치에 대처가 쉽고 스케일링에서도 상대적으로 자유로운, 좋은 성질을 많이 가진 모델입니다. 특히나 해석이 쉽게 가능하다는 점과 이 모델의 로직을 생각해보면 단순해 보이기도 합니다.  하지만 최적의 결정트리를 만들기 위해서는 더 고려할 점들이 있습니다.

그렇다면

- 나무의 깊이는 오버피팅과 직결된다. 이를 방지하기 위한 방식 중 프루닝은 무엇이며, 프리 프루닝과 포스트 프루닝의 차이는 무엇인가?
- 앙상블 기법이 무엇인가? 이 기법이 결정트리에 끼치는 효용과, 그 결과로 볼 수 있는 모델들을 살펴보자.
- 탐욕 알고리즘은 트리 계열 모델의 핵심이다. 그렇다면 다른 머신러닝 모델들은 탐욕 알고리즘을 사용하지 않을까? 어떤 모델들이 탐욕 알고리즘을 사용하는지, 그 이유와 특징을 살펴보자.

참고 링크


https://frozenca.wordpress.com/2020/03/10/14-kernels/