유진정의 기록

Mathematical Definitions in Data Science 본문

개인공부/기초 수학

Mathematical Definitions in Data Science

알파카유진정 2025. 1. 9. 11:11

최적화 기법

1. Gradient Descent (경사 하강법)

  • 머신러닝 모델의 손실 함수를 최소화하기 위해 사용합니다.
  • 선형 회귀, 로지스틱 회귀, 신경망 등의 학습 과정.

수식 설명:

$$ \theta_j = \theta_j - \alpha \nabla J(\theta_j) $$

  • \(\theta_j\): 현재 가중치 값
  • \(\alpha\): 학습률
  • \(\nabla J(\theta_j)\): 손실 함수의 그래디언트

결과: 손실 함수 \(J\)를 최소화하기 위해 가중치를 업데이트합니다.

---

2. MLE (Maximum Likelihood Estimation, 최대우도 추정법)

  • 데이터가 관측될 확률을 최대화하는 파라미터를 추정할 때 사용합니다.
  • 로지스틱 회귀, 베이즈 분류기.

수식 설명:

$$ \text{argmax}_\theta \prod_{i=1}^n P(x_i|\theta) $$

  • \(\theta\): 추정할 파라미터
  • \(P(x_i|\theta)\): 관측 데이터 \(x_i\)의 확률

결과: 관측 데이터를 가장 잘 설명하는 파라미터를 추정합니다.

---

3. Lagrange Multiplier (라그랑주 승수법)

  • 제약 조건이 있는 최적화 문제를 해결할 때 사용합니다.
  • SVM 최적화, 경제학 최적화 문제.

수식 설명:

$$ L(x, \lambda) = f(x) - \lambda g(x) $$

  • \(f(x)\): 최적화하려는 목표 함수
  • \(g(x)\): 제약 조건
  • \(\lambda\): 라그랑주 승수

결과: 제약 조건을 만족하며 \(f(x)\)를 최적화합니다.

---

통계적 기초

4. Normal Distribution (정규 분포)

  • 자연 현상이나 확률적 과정을 모델링할 때 사용합니다.
  • 가설 검정, 신뢰 구간.

수식 설명:

$$ f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$

  • \(\mu\): 평균
  • \(\sigma^2\): 분산

결과: 종 모양의 분포를 나타냅니다.

---

5. Z-Score (Z-점수)

  • 데이터를 표준화할 때 사용합니다.
  • 가설 검정, 이상치 탐지.

수식 설명:

$$ z = \frac{x - \mu}{\sigma} $$

  • \(x\): 데이터 값
  • \(\mu\): 평균
  • \(\sigma\): 표준편차

결과: 데이터가 평균에서 얼마나 떨어져 있는지 나타냅니다.

---

6. Entropy (엔트로피)

  • 데이터의 불확실성을 측정합니다.
  • 결정 트리의 정보 이득 계산.

수식 설명:

$$ H = -\sum p_i \log_2(p_i) $$

  • \(p_i\): 사건 \(i\)의 확률

결과: 값이 클수록 불확실성이 큽니다.

---

7. KL Divergence (KL 발산)

  • 두 확률 분포의 차이를 측정합니다.
  • 베이지안 추론, 변분 오토인코더.

수식 설명:

$$ D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)} $$

  • \(P(x)\): 실제 분포
  • \(Q(x)\): 근사 분포

결과: 두 분포의 차이를 계산합니다.

---

머신러닝 평가 지표

8. F1 Score (F1 점수)

  • 데이터 불균형 문제에서 모델 성능을 평가할 때 사용합니다.
  • 분류 문제.

수식 설명:

$$ F1 = \frac{2 \cdot P \cdot R}{P + R} $$

  • \(P\): 정밀도
  • \(R\): 재현율

결과: 정밀도와 재현율 간의 균형을 측정합니다.

---

9. R² Score (결정 계수)

  • 회귀 모델의 적합도를 평가합니다.
  • 회귀 분석.

수식 설명:

$$ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} $$

  • \(y_i\): 실제 값
  • \(\hat{y}_i\): 예측 값

결과: 1에 가까울수록 적합도가 높습니다.

---

10. Log-Loss (로그 손실)

  • 분류 모델의 성능을 평가할 때 사용합니다.
  • 로지스틱 회귀.

수식 설명:

$$ \text{LogLoss} = -\frac{1}{N} \sum_{i=1}^N (y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)) $$

  • \(y_i\): 실제 값
  • \(\hat{y}_i\): 예측 확률

결과: 잘못된 예측에 큰 패널티를 부여합니다.

머신러닝 함수 및 수학적 연산

11. ReLU (Rectified Linear Unit)

  • 신경망 활성화 함수로 사용됩니다.
  • 딥러닝 모델.

수식 설명:

$$ \text{ReLU}(x) = \max(0, x) $$

결과: 음수를 제거하여 비선형성을 부여합니다.

---

12. Softmax

  • 다중 클래스 분류 문제에서 사용합니다.
  • 신경망 출력층.

수식 설명:

$$ P(y=j|x) = \frac{e^{z_j}}{\sum_k e^{z_k}} $$

결과: 클래스 확률의 총합이 1이 되도록 정규화합니다.

---

회귀 및 손실 함수

13. MSE (Mean Squared Error, 평균 제곱 오차)

  • 회귀 모델의 예측 성능을 평가할 때 사용합니다.
  • 선형 회귀, 딥러닝 등.

수식 설명:

$$ \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 $$

  • \(y_i\): 실제 값
  • \(\hat{y}_i\): 예측 값
  • \(n\): 데이터의 개수

결과: 예측값과 실제값의 차이를 제곱하여 평균을 계산합니다.

---

14. MSE + L2 Regularization (평균 제곱 오차 + L2 정규화)

  • 모델의 과적합(overfitting)을 방지할 때 사용합니다.
  • Ridge Regression 등.

수식 설명:

$$ \text{MSE}_{\text{regularized}} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^p \beta_j^2 $$

  • \(\lambda\): 정규화 강도 조절 파라미터
  • \(\beta_j\): 가중치

결과: 손실 함수에 패널티를 추가하여 가중치를 규제합니다.

---

15. Eigen Vectors (고유 벡터)

  • 데이터의 분산 방향을 분석할 때 사용합니다.
  • PCA, 차원 축소, 그래프 이론.

수식 설명:

$$ A v = \lambda v $$

  • \(A\): 행렬
  • \(v\): 고유 벡터
  • \(\lambda\): 고유값

결과: 데이터를 주요 성분으로 투영하여 차원을 축소합니다.

---

16. K-Means

  • 데이터를 클러스터로 나눌 때 사용합니다.
  • 군집 분석, 고객 세분화.

수식 설명:

$$ \text{argmin}_S \sum_{i=1}^k \sum_{x \in S_i} ||x - \mu_i||^2 $$

  • \(S_i\): 클러스터
  • \(\mu_i\): 클러스터 중심

결과: 데이터 포인트를 가장 가까운 클러스터로 할당합니다.

---

확률 기반 모델 및 손실 함수

17. KL Divergence (KL 발산)

  • 두 확률 분포의 차이를 측정할 때 사용합니다.
  • 변분 오토인코더(VAE), 베이지안 추론.

수식 설명:

$$ D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)} $$

  • \(P(x)\): 실제 분포
  • \(Q(x)\): 근사 분포

결과: 분포 간의 차이를 측정합니다.

---

18. Log-Loss (로그 손실)

  • 분류 모델에서 확률 기반 평가에 사용합니다.
  • 로지스틱 회귀, 신경망.

수식 설명:

$$ \text{LogLoss} = -\frac{1}{N} \sum_{i=1}^N (y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)) $$

  • \(y_i\): 실제 클래스 (0 또는 1)
  • \(\hat{y}_i\): 예측 확률

결과: 잘못된 예측에 대해 높은 패널티를 부여합니다.

---

머신러닝 및 행렬 분해

19. SVM (Support Vector Machine, 서포트 벡터 머신)

  • 분류 문제에서 결정 경계를 찾을 때 사용합니다.
  • 텍스트 분류, 이미지 분류, 이상치 탐지.

수식 설명:

$$ \min_{w, b} \frac{1}{2} ||w||^2 \quad \text{s.t.} , y_i(w \cdot x_i - b) \geq 1 $$

  • \(w\): 초평면 방향 벡터
  • \(b\): 초평면 절편
  • \(y_i\): 데이터 레이블 (\(+1\) 또는 \(-1\))

결과: 결정 경계를 최대 마진으로 설정합니다.

---

20. Linear Regression (선형 회귀)

  • 연속형 데이터를 예측할 때 사용합니다.
  • 주택 가격 예측, 판매량 예측.

수식 설명:

$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon $$

  • \(y\): 목표 변수 (예측값)
  • \(\beta_0\): 절편
  • \(\beta_1, \dots, \beta_n\): 회귀 계수
  • \(\epsilon\): 오차항

결과: 독립 변수와 종속 변수 간의 선형 관계를 모델링합니다.

---

21. SVD (Singular Value Decomposition, 특이값 분해)

  • 데이터를 압축하거나 차원을 축소할 때 사용합니다.
  • 추천 시스템, 차원 축소.

수식 설명:

$$ A = U \Sigma V^T $$

  • \(A\): 원본 행렬
  • \(U\): \(A\)의 왼쪽 특이 벡터 행렬
  • \(\Sigma\): 특이값 대각 행렬
  • \(V^T\): \(A\)의 오른쪽 특이 벡터 행렬

결과: 데이터 구조를 압축하고 특징을 추출합니다.

---

22. Lagrange Multiplier (라그랑주 승수법)

  • 제약 조건이 있는 최적화 문제를 해결할 때 사용합니다.
  • 경제학, 머신러닝 최적화.

수식 설명:

$$ L(x, \lambda) = f(x) - \lambda g(x) $$

  • \(f(x)\): 최적화하려는 목표 함수
  • \(g(x)\): 제약 조건 함수
  • \(\lambda\): 제약 조건을 만족시키는 라그랑주 승수

결과: 제약 조건 \(g(x) = 0\)을 만족하며 \(f(x)\)를 최적화합니다.