Mathematical Definitions in Data Science

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

유진정의 기록

Mathematical Definitions in Data Science 본문

개인공부/기초 수학

Mathematical Definitions in Data Science

알파카유진정 2025. 1. 9. 11:11

최적화 기법

1. Gradient Descent (경사 하강법)

머신러닝 모델의 손실 함수를 최소화하기 위해 사용합니다.
선형 회귀, 로지스틱 회귀, 신경망 등의 학습 과정.

수식 설명:

$$ \theta_j = \theta_j - \alpha \nabla J(\theta_j) $$

$\theta_j$: 현재 가중치 값
$\alpha$: 학습률
$\nabla J(\theta_j)$: 손실 함수의 그래디언트

결과: 손실 함수 $J$를 최소화하기 위해 가중치를 업데이트합니다.

---

2. MLE (Maximum Likelihood Estimation, 최대우도 추정법)

데이터가 관측될 확률을 최대화하는 파라미터를 추정할 때 사용합니다.
로지스틱 회귀, 베이즈 분류기.

수식 설명:

$$ \text{argmax}_\theta \prod_{i=1}^n P(x_i|\theta) $$

$\theta$: 추정할 파라미터
$P(x_i|\theta)$: 관측 데이터 $x_i$의 확률

결과: 관측 데이터를 가장 잘 설명하는 파라미터를 추정합니다.

---

3. Lagrange Multiplier (라그랑주 승수법)

제약 조건이 있는 최적화 문제를 해결할 때 사용합니다.
SVM 최적화, 경제학 최적화 문제.

수식 설명:

$$ L(x, \lambda) = f(x) - \lambda g(x) $$

$f(x)$: 최적화하려는 목표 함수
$g(x)$: 제약 조건
$\lambda$: 라그랑주 승수

결과: 제약 조건을 만족하며 $f(x)$를 최적화합니다.

---

통계적 기초

4. Normal Distribution (정규 분포)

자연 현상이나 확률적 과정을 모델링할 때 사용합니다.
가설 검정, 신뢰 구간.

수식 설명:

$$ f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$

$\mu$: 평균
$\sigma^2$: 분산

결과: 종 모양의 분포를 나타냅니다.

---

5. Z-Score (Z-점수)

데이터를 표준화할 때 사용합니다.
가설 검정, 이상치 탐지.

수식 설명:

$$ z = \frac{x - \mu}{\sigma} $$

$x$: 데이터 값
$\mu$: 평균
$\sigma$: 표준편차

결과: 데이터가 평균에서 얼마나 떨어져 있는지 나타냅니다.

---

6. Entropy (엔트로피)

데이터의 불확실성을 측정합니다.
결정 트리의 정보 이득 계산.

수식 설명:

$$ H = -\sum p_i \log_2(p_i) $$

$p_i$: 사건 $i$의 확률

결과: 값이 클수록 불확실성이 큽니다.

---

7. KL Divergence (KL 발산)

두 확률 분포의 차이를 측정합니다.
베이지안 추론, 변분 오토인코더.

수식 설명:

$$ D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)} $$

$P(x)$: 실제 분포
$Q(x)$: 근사 분포

결과: 두 분포의 차이를 계산합니다.

---

머신러닝 평가 지표

8. F1 Score (F1 점수)

데이터 불균형 문제에서 모델 성능을 평가할 때 사용합니다.
분류 문제.

수식 설명:

$$ F1 = \frac{2 \cdot P \cdot R}{P + R} $$

$P$: 정밀도
$R$: 재현율

결과: 정밀도와 재현율 간의 균형을 측정합니다.

---

9. R² Score (결정 계수)

회귀 모델의 적합도를 평가합니다.
회귀 분석.

수식 설명:

$$ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} $$

$y_i$: 실제 값
$\hat{y}_i$: 예측 값

결과: 1에 가까울수록 적합도가 높습니다.

---

10. Log-Loss (로그 손실)

분류 모델의 성능을 평가할 때 사용합니다.
로지스틱 회귀.

수식 설명:

$$ \text{LogLoss} = -\frac{1}{N} \sum_{i=1}^N (y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)) $$

$y_i$: 실제 값
$\hat{y}_i$: 예측 확률

결과: 잘못된 예측에 큰 패널티를 부여합니다.

머신러닝 함수 및 수학적 연산

11. ReLU (Rectified Linear Unit)

신경망 활성화 함수로 사용됩니다.
딥러닝 모델.

수식 설명:

$$ \text{ReLU}(x) = \max(0, x) $$

결과: 음수를 제거하여 비선형성을 부여합니다.

---

12. Softmax

다중 클래스 분류 문제에서 사용합니다.
신경망 출력층.

수식 설명:

$$ P(y=j|x) = \frac{e^{z_j}}{\sum_k e^{z_k}} $$

결과: 클래스 확률의 총합이 1이 되도록 정규화합니다.

---

회귀 및 손실 함수

13. MSE (Mean Squared Error, 평균 제곱 오차)

회귀 모델의 예측 성능을 평가할 때 사용합니다.
선형 회귀, 딥러닝 등.

수식 설명:

$$ \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 $$

$y_i$: 실제 값
$\hat{y}_i$: 예측 값
$n$: 데이터의 개수

결과: 예측값과 실제값의 차이를 제곱하여 평균을 계산합니다.

---

14. MSE + L2 Regularization (평균 제곱 오차 + L2 정규화)

모델의 과적합(overfitting)을 방지할 때 사용합니다.
Ridge Regression 등.

수식 설명:

$$ \text{MSE}_{\text{regularized}} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^p \beta_j^2 $$

$\lambda$: 정규화 강도 조절 파라미터
$\beta_j$: 가중치

결과: 손실 함수에 패널티를 추가하여 가중치를 규제합니다.

---

15. Eigen Vectors (고유 벡터)

데이터의 분산 방향을 분석할 때 사용합니다.
PCA, 차원 축소, 그래프 이론.

수식 설명:

$$ A v = \lambda v $$

$A$: 행렬
$v$: 고유 벡터
$\lambda$: 고유값

결과: 데이터를 주요 성분으로 투영하여 차원을 축소합니다.

---

16. K-Means

데이터를 클러스터로 나눌 때 사용합니다.
군집 분석, 고객 세분화.

수식 설명:

$$ \text{argmin}_S \sum_{i=1}^k \sum_{x \in S_i} ||x - \mu_i||^2 $$

$S_i$: 클러스터
$\mu_i$: 클러스터 중심

결과: 데이터 포인트를 가장 가까운 클러스터로 할당합니다.

---

확률 기반 모델 및 손실 함수

17. KL Divergence (KL 발산)

두 확률 분포의 차이를 측정할 때 사용합니다.
변분 오토인코더(VAE), 베이지안 추론.

수식 설명:

$$ D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)} $$

$P(x)$: 실제 분포
$Q(x)$: 근사 분포

결과: 분포 간의 차이를 측정합니다.

---

18. Log-Loss (로그 손실)

분류 모델에서 확률 기반 평가에 사용합니다.
로지스틱 회귀, 신경망.

수식 설명:

$$ \text{LogLoss} = -\frac{1}{N} \sum_{i=1}^N (y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)) $$

$y_i$: 실제 클래스 (0 또는 1)
$\hat{y}_i$: 예측 확률

결과: 잘못된 예측에 대해 높은 패널티를 부여합니다.

---

머신러닝 및 행렬 분해

19. SVM (Support Vector Machine, 서포트 벡터 머신)

분류 문제에서 결정 경계를 찾을 때 사용합니다.
텍스트 분류, 이미지 분류, 이상치 탐지.

수식 설명:

$$ \min_{w, b} \frac{1}{2} ||w||^2 \quad \text{s.t.} , y_i(w \cdot x_i - b) \geq 1 $$

$w$: 초평면 방향 벡터
$b$: 초평면 절편
$y_i$: 데이터 레이블 ($+1$ 또는 $-1$)

결과: 결정 경계를 최대 마진으로 설정합니다.

---

20. Linear Regression (선형 회귀)

연속형 데이터를 예측할 때 사용합니다.
주택 가격 예측, 판매량 예측.

수식 설명:

$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon $$

$y$: 목표 변수 (예측값)
$\beta_0$: 절편
$\beta_1, \dots, \beta_n$: 회귀 계수
$\epsilon$: 오차항

결과: 독립 변수와 종속 변수 간의 선형 관계를 모델링합니다.

---

21. SVD (Singular Value Decomposition, 특이값 분해)

데이터를 압축하거나 차원을 축소할 때 사용합니다.
추천 시스템, 차원 축소.

수식 설명:

$$ A = U \Sigma V^T $$

$A$: 원본 행렬
$U$: $A$의 왼쪽 특이 벡터 행렬
$\Sigma$: 특이값 대각 행렬
$V^T$: $A$의 오른쪽 특이 벡터 행렬

결과: 데이터 구조를 압축하고 특징을 추출합니다.

---

22. Lagrange Multiplier (라그랑주 승수법)

제약 조건이 있는 최적화 문제를 해결할 때 사용합니다.
경제학, 머신러닝 최적화.

수식 설명:

$$ L(x, \lambda) = f(x) - \lambda g(x) $$

$f(x)$: 최적화하려는 목표 함수
$g(x)$: 제약 조건 함수
$\lambda$: 제약 조건을 만족시키는 라그랑주 승수

결과: 제약 조건 $g(x) = 0$을 만족하며 $f(x)$를 최적화합니다.

'개인공부 > 기초 수학' 카테고리의 다른 글

[핵심 확률/통계] Analysis of Variance (ANOVA 분산분석) (0)	2025.02.06
고윳값 분해와 푸리에 변환의 관계 (0)	2025.01.14
[용어] 아벨군(Abelian Group) (0)	2025.01.03
[머신러닝 수학의 바이블] 선형대수학 - 보충편 (0)	2025.01.03
[머신러닝 수학의 바이블] 선형대수학 Part 4 - 차원과 선형변환 (0)	2025.01.03

'개인공부/기초 수학' Related Articles

유진정의 기록

Mathematical Definitions in Data Science 본문

Mathematical Definitions in Data Science

최적화 기법

1. Gradient Descent (경사 하강법)

2. MLE (Maximum Likelihood Estimation, 최대우도 추정법)

3. Lagrange Multiplier (라그랑주 승수법)

통계적 기초

4. Normal Distribution (정규 분포)

5. Z-Score (Z-점수)

6. Entropy (엔트로피)

7. KL Divergence (KL 발산)

머신러닝 평가 지표

8. F1 Score (F1 점수)

9. R² Score (결정 계수)

10. Log-Loss (로그 손실)

머신러닝 함수 및 수학적 연산

11. ReLU (Rectified Linear Unit)

12. Softmax

회귀 및 손실 함수

13. MSE (Mean Squared Error, 평균 제곱 오차)

14. MSE + L2 Regularization (평균 제곱 오차 + L2 정규화)

15. Eigen Vectors (고유 벡터)

16. K-Means

확률 기반 모델 및 손실 함수

17. KL Divergence (KL 발산)

18. Log-Loss (로그 손실)

머신러닝 및 행렬 분해

19. SVM (Support Vector Machine, 서포트 벡터 머신)

20. Linear Regression (선형 회귀)

21. SVD (Singular Value Decomposition, 특이값 분해)

22. Lagrange Multiplier (라그랑주 승수법)

'개인공부 > 기초 수학' 카테고리의 다른 글

티스토리툴바