아롱이 탐험대

Machine learning: probability (Discrete Random Variables~Covariance and Correlation) 본문

study/Machine Learning

Machine learning: probability (Discrete Random Variables~Covariance and Correlation)

ys_cs17 2022. 4. 6. 12:23
반응형

이번 시간에는 기계 학습에서 사용되는 기본적인 확률 및 통계론에 대해 알아보자.

 

Probability

확률론 및 통계학을 나누는 여러 가지 방법 중에는 frequentist (빈도 주의적 접근)와 Bayesian (베이즈 접근)으로 구분하는 것이 있다.

Frequentist는 사건을 무수히 많이 반복하여 얻어지는 확률을 가지고 표현하는 관점으로 확률을 보고, Bayesian은 어떤 것에 대한 불확실성을 정량화하는 관점으로 본다.

이를 이해하기 쉽게 동전 던지기 사건으로 설명하자면 frequentist는 동전을 매우 많이 던지면 결국 앞면이 나오는 경우의 확률은 50%로 수렴한다는 것이고, bayesian은 다음에 동전을 던지는 것 또한 앞면, 뒷면의 확률이 같다고 가정한다.

우리는 Baysian의 관점에서 확률을 살펴볼 것이다.

 

Discrete Random Variables

$p(A)$: 사건 A가 일어날 확률. 범위는 다음과 같다. $0 ≤ p(A) ≤ 1$

$p(\bar{A})$: 사건 A가 일어나지 않을 확률. $p(\bar{A}) = 1 - p(A)$

Random variable인 $X$는 연속적인 set $\chi$ 또는 유한한 공간으로부터 어떠한 value가 될 수 있다.

$p(X = x) = p(x)$로 간단하게 표현할 수 있다.

여기서 $p()$는 확률 질량 함수. 즉 pmf이다.

p(x)는 다음의 조건에 만족한다.

$0 ≤ p(x) ≤ 1$ and $\sum_{x \in \chi}p(x) = 1$

Fundamental rules

사건 $A, B$가 주어질 때 우리는 $A, B$의 확률을 다음과 같이 표현할 수 있다.

$p(A \cup B) = p(A) + p(B) - p(A \cap B)$

$p(A \cup B) = p(A) + p(B)$ if $A$ and $B$ are mutually exclusive

Product rules

$p(A, B) = p(A \cap B) = p(A \mid B)p(B)$

Sum rule (marginal distribution)

$p(A) = \sum_{b}p(A,B) = \sum_{b}p(A \mid B = b)p(B = b)$

Chain rule

$p(X_{1:D}) = p(X_{1})p(X_{2} \mid X_{1})p(X_{3} \mid X_{2}, X_{1}) \cdots p(X_{D} \mid X_{1:D-1})$

$p(X_{1})p(X_{2} \mid X_{1}) = p(X_{1})\frac{p(X_{1}, X_{2})}{p(X_{1})} = p(X_{1:2})$

 

Conditional probability

$p(A \mid B) = \frac{p(A, B)}{p(B)}$ if $p(B) > 0$

Bayes rule (Bayes theorem)

$p(X = x \mid Y = y) = \frac{p(X =x, Y=y)}{p(Y= y)} = \frac{p(X=x)p(Y=y|X=x)}{p(Y=y)}$

Independence

Unconditionally independence

$X \bot Y \leftrightarrow p(x, y)=p(x)p(y)$

Conditional independence

Unconditionally independence는 현실 세계에서 굉장히 보기 힘들다. 모든 사건은 환경과 같은 이유로 연관이 있기 때문이다. 나비 효과 또한 비슷한 맥락이다.

따라서 Conditional independence라는 개념을 도입했다.

$X \bot Y \mid Z \leftrightarrow p(X,Y\mid Z)=p(X \mid Z)p(Y \mid Z)$

예를 들어 설명해보면 다음과 같은 조건이 있다고 가정하자.

$X$: 내일 비가 오는 사건

$Y$: 오늘 땅이 젖는 사건

$Z$: 오늘 비가 오는 사건

여기서 오늘 비가 오면 땅이 젖고, 내일 비가 올 확률도 높아진다. 다시 말하면 $Z$라는 사건 하에 $X$와 $Y$의 연관성은 모두 $Z$에 포함되어 있다. 따라서 $X$와 $Y$는 서로 무관한 독립 사건으로 볼 수 있다.

 

Quantiles

CDF에서 $F(x)$는 항상 증가하고, 이에 대한 inverse function은 $F^-1(\alpha)$로 표현한다. $F^-1(\alpha)$가 $p(X ≤ x_{\alpha})= \alpha$를 만족하는 $x_{\alpha}$ 값을 Quantiles라고 한다.

$F^{-1}(0.5)$는 위 정의에 의해 distribution의 meadian이다.

정리하자면 quantiles란 cdf에서 주어진 사건을 만족할 수 있는 $x_{\alpha}$의 위치를 찾는다는 의미이다.

Gaussian distribution

$\phi$를 Gaussian distribution $N(0, 1)$의 cdf라고 정의할 때, mass의 $100(1-\alpha)%$%를 만족하는 구간은 다음과 같은 식을 통해 표시할 수 있다.

$(\phi^{-1}(\alpha/2),\ \phi^{-1}(1-\alpha/2))$

만약 95%의 구간을 구한다고 한다면 $100(1-\alpha)$% = 95%에서 $\alpha = 0.5$이고, 이를 통해 위 식을 계산하면 $(\phi^{-1}(0.025), \phi^{-1}(0.975)) = (-1.96, 1.96)$을 얻을 수 있다.

참고로 Gaussian distribution은 연속 확률 분포로 정규 분포라고 부르며, $N(\mu,\sigma^2)$에서 $\mu = 0, \sigma^{2} = 1$를 만족하는 정규 분포를 표준 정규 분포라고 한다.

 

Common Discrete Distributions

Binomial distribution

동전을 $n$번 던진다고 가정할 때, head가 나올 수 있는 수를 $X \in \left\{0, \cdots\, n\right\}$라고 하고 head가 나올 확률을 $\theta$라고 하자. 동전 던지기에 대해 $X$는 binomial distribution을 가지기 때문에 $X \sim Bin(n,\theta)$로 표기한다.

이때 Binomial distribution은 다음과 같이 정의한다.

Binomail distribution에서 평균은 \theta, 분산은 n\theta(1-\theta)가 된다.

 

Bernoulli distribution

Binomail distribution에서 $n=1$인 경우의 분포를 bernoulli distribution이라고 한다.

Binomail distribution는 다음과 같이 정의한다.

$$ \begin{align*} &\text{Ber}(x|\theta)\triangleq\theta^{\mathbb{I}(x=1)}(1-\theta)^{\mathbb{I}(x=0)}\\ \end{align*} $$

$\mathbb{I}$은 Indicator function으로 특정 집합에 특정 값이 속하는지를 표시하는 함수로, 특정 값이 집합에 속한다면 1, 속하지 않는다면 0의 값을 갖는다.

위 정의를 통해 다음과 같은 식을 얻을 수 있다.

$$ \begin{align*} &\text{Ber}(x|\theta) = \begin{cases} &\theta, & \quad{\text{if }\ n\ \text{ is\ even}} \\ &1-\theta, & \quad{\text{else }\ n\ \text{ is\ odd}} \\ \end{cases} \end{align*} $$

 

Multinomial distribution

앞에서 배운 분포들의 사건은 동전 던지기였다. multinomial distribution에서는 주사위라고 생각하면 된다. $K$개의 면을 가진 주사위를 $n$번 던진다고 가정하면 $j$면이 나올 가짓수 $x_{j}$에 대해 rv $\text{x}$를 다음과 같이 나타낼 수 있다.

$\text{x} = (x_{1}, \cdots, x_{K})$

$\text{x}$가 위와 같다고 할 때, mulitnomial distribution은 다음과 같이 정의한다.

$\text{Mu}(x|n,\theta)\triangleq{n \choose {x_1, ..., x_K}}\prod_{j=1}^K\theta_j^{x_j}$

${n \choose {x_1, ..., x_K}} = \frac{n!}{x_1!x_2!...x_K!}$는 mutinomial coefficient (다항 계수)라고 부른다. 주어진 개수의 원소들을 주어진 크기의 상자들에 넣는 방법의 가짓수를 나타내며, 이항 계수의 일반화라고 볼 수 있다.

 

Mulitnoulli distribution

Multinomial distribution에서 $n = 1$인 경우가 multinoulli distribution이다. 다시 말해, 주사위를 한 번만 던지는 경우라고 할 수 있다.

여기서 $\text{x}$는 오직 한 가지 bit만 켜지는 0과 1을 가진 bit vector라고 볼 수 있다.

만약 사면체 주사위를 던졌을 때, 1이 나왔다고 하면 (1, 0, 0, 0)과 같은 bit vector 형태로 쓸 수 있다.

이러한 vector를 기계 학습에서는 One-hot encoding이라고 부른다.

$\text{One-hot encoding}: \text{x} = [\mathbb{I}(x=1), ..., \mathbb{I}(x=k)]$

이 때, Multinoulli distribution은 다음과 같이 정의한다.

$\text{Mu}(x|1,\theta)\triangleq\prod_{j=1}^K\theta_j^\mathbb{I(x_j=1)}$

Multinoulli distribution을 다른 말로 categorical distribution이라고 부르며, $\text{Mu}(x \mid 1, \theta)$는 $\text{Cat}(x \mid \theta)$로 표기하기도 한다.

 

Empirical Distribution

이전까지 다룬 distribution들은 sample의 distribution을 알고 있다는 가정하에 variable에 대한 distribution을 표현했다.

Empirical distribution은 사전에 distribution에 대한 정보가 주어지지 않은 상태에서, sample 자체에 대한 feature vector만을 가지고 distribution을 경험적으로 구하는 방법이다. 이는 histogram을 구하는 방법과 매우 유사하다.

$D=\left\{x_{1}, \cdots, x_{n}\right\}$가 주어질 때 empirical distribution은 다음과 같이 정의한다.

$$ \begin{align}p_{emp}(A)\triangleq \frac{1}{N}\sum_{i=1}^N \delta_{x_i}(A){\quad\sf wrt\ }\delta_{x_i}(A)=\begin{cases} 0\ \ if\ x \notin A\\ 1\ \ if\ x \in A\\ \end{cases}\end{align} $$

$p_{emp}(A)$는 $\delta_x(A)$ (dirac measure)의 평균으로 정의한다. 어떠한 사건이 발생했을 때 dirac function은 0 또는 1이 되어 이에 대한 평균을 통해 구할 수 있다.

분포 식을 일반화하면 각 sample에 대한 weight와 연관시킬 수 있다.

$$ \begin{align}p_{emp}(x)\triangleq \sum_{i=1}^N w_i\delta_{x_i}(x)\quad {\sf wrt} \ \ w\in[0,1],\ \sum_{i=1}^Nw_i=1\end{align} $$

이러한 empirical distribution은 sample data의 크기가 굉장히 큰 경우에는 assumption 없이 분포를 잘 표현할 수 있다. sample size가 작다면 empirical distribution은 실제 sample의 특성과 달라질 가능성이 높다.

 

Common Continuous Distribution

Gussian (normal) distribution

정규 분포는 다음과 같이 정의된다.

정규 분포는 Mean과 Variance만 알고 있으면 shape를 표현할 수 있다.

여기서$\sqrt{2\pi \sigma^{2}}$는 noramalization constant로 사용된다.

이러한 정규 분포가 기계 학습에 자주 사용되는 가장 큰 이유는 desity function을 표현하거나 모델을 학습할 때, 단지 두 가지 파라미터 (Mean, Variance)만을 가지고 할 수 있기 때문이다.

다음으로 modeling을 진행할 때 input data의 residual error나 noise가 central limit theorem을 기반으로 정규 분포를 따르기 때문이다.

이 외에도 mean과 variance에 대한 제약 조건을 따르기 때문에 assumption의 개수가 적고, 쉽게 구현이 가능한 mathmatical form을 갖는 등의 이유로 자주 사용된다.

 

Degenerate pdf

Gaussian distribution에서 $\sigma^{2} → 0$일 때, spike의 형태처럼 가운데가 높고 폭이 좁아지는 형태가 된다. 이와 같은 상황은 Dirac delta function과 함께 다음과 같이 수식으로 표현할 수 있다.

Dirac delta function은 shift property라는 중요한 특성을 지닌다. 이 특성을 통해 어떤 signal에 대한 특정 부분만을 선택할 수 있다.

이를 다시 설명하자면 $f(x)$라는 signal이 있을 떄, $\delta(x-\mu)$를 곱하여 적분하게 된다면, 다음과 같이 $f(\mu)$를 얻을 수 있다.

$\int_{\infty}^{\infty}{f(x)\delta(x-\mu)dx} = f(\mu)$

이렇게 $f(\mu)$를 얻을 수 있는 이유는 $\delta(x)$가 $x$에서 $\infty$이고 $x$가 아닌 지점에서는 0이 되기 때문이다.

Student’s t distribution

지금까지 알아본 Gaussian distribution은 다음과 같은 단점을 지닌다.

  • Outlier에 대해 민감하다.
  • log probability가 중심에서부터의 거리에 따라 2차적으로 감소한다.

Gaussian distribution이 Central limit theorem에 의해 중심으로부터의 거리가 멀어질수록 값이 2차적으로 감소하기 때문에 outlier가 sample에 추가된다면 distribution에 큰 영향을 미치게 된다.

Gaussian distribution의 log probability는 다음과 같다.

$log(p(x))=log(exp[-\frac{1}{2\sigma^2}(x-\mu)^2])=-\frac{1}{2\sigma^2}(x-\mu)^2$

위와 같은 단점들을 보완하고자 student’s t distribution이 만들어졌다.

분포 식은 다음과 같다.

Mean과 mode는 gaussian distribution과 같지만 variance는 다르다.

$\text{var}=\frac{\nu\sigma^{2}}{(\nu -2)}$ $(\nu > 2)$

outlier의 강한 이유는 뒤에서 자세히 살펴보자.

 

Laplace distribution

Laplace distribution도 outlier의 강인한 distribution이다. double side exponential distribution이라고 부른다. gaussian과 마찬가지로 2개의 parameter가 필요한데 $\mu$와 scale parameter가 필요하다. 분포 식은 다음과 같다.

mean = mode = $\mu$이고, variance는 $var=2b^2$이다. 여기서 b는 scale parameter이다.

Gaussian, student’s t, laplace의 분포를 비교해보았을 때 우선 3개의 분포 다 평균이 0이다. variance만 조금씩 다르다.

 

왼쪽 분포 식에 log를 씌어 pdf를 구해보면 오른쪽과 같다. Laplace distribution의 그래프는 절댓값 때문에 뾰족한 형태가 나온다. 확실한 것은 중심으로부터 멀리 떨어져 있는 값들이 급격하게 gaussian같이 급격하게 떨어지지 않는다.

실제로는 laplace를 많이 사용한다.

 

왼쪽 그래프는 outlier가 없는 그래프이다. 모두 mean에 잘 위치하고, variance도 잘 그려진 모습을 볼 수 있다.

오른쪽 그래프의 경우는 outlier가 있는 경우인데, gaussian은 outlier에 대해 민감해서 mean의 위치가 상대적으로 이동된 모습을 볼 수 있다. variance 또한 영향을 받아 넓어진다.

지금까지 상대적으로 outlier에 강한 분산들을 알아보았다.

 

Gamma distribution

Gamma distribution은 shape 조절과 rate 조절을 할 수 있어, 다른 distribution에 비해 더 flexable 하다.

parameter는 $shape = a, rate =b$가 있다.

분포 식은 다음과 같다.

$mean=\frac{a}{b}, mode=\frac{a-1}{b}, var =\frac{a}{b^2}$

b를 증가시키면 분포가 왼쪽으로 몰린다.

Gamma distribution

Gamma distribution은 shape 조절과 rate 조절을 할 수 있어, 다른 distribution에 비해 더 flexable 하다.

parameter는 $shape = a, rate =b$가 있다.

분포 식은 다음과 같다.

$mean=\frac{a}{b}, mode=\frac{a-1}{b}, var =\frac{a}{b^2}$

b를 증가시키면 분포가 왼쪽으로 몰린다.

Gamma distribution에서 a의 값에 따라 다른 분포로 변환할 수 있다.

Exponential distribution

a가 1인 경우 exponential distribution이라고 부른다.

이는 사건이 서로 독립일 때 일정 시간 동안 발생하는 사건의 횟수가 푸아송 분포를 따른다면, 다음 사건이 일어날 때까지의 대기 시간은 지수 분포를 따른다고 한다.

Erlang distribution

a가 2인 경우이다.

Chi-squared distribution

a가 $\frac{\nu}{2}$고 rate가 $\frac{1}{2}$인 경우이다.

주로 관찰 값과 기댓값의 차이를 계산할 때 많이 사용된다.

Beta distribution

Bionomial distribution과 형태가 유사하다. 분포식은 다음과 같다.

variance의 integrable을 유지하려면 $a, b >0$을 만족해야 한다.

만약 $a, b=1$ 이라면 uniform distribution이 된다.

$\text{Beta}(x \mid 1,1) = \frac{1}{B(1,1)}x^{0}(1- x)^{0}= 1$

만약 $a, b <0$ 이라면 0과 1 사이에 있는 spikes 성질을 갖는 bimodal distribution이 된다.

아래 그래프를 보며 차이점을 보자.

\text{mean} = \frac{a}{a+b}, \text{mode}= \frac{a-1}{a+b-2}, \text{var}=\frac{ab}{(a+b)^2(a+b+1)}이다.

 

Joint probability Distribution

$D > 1$인 $p(x_{1}, \cdots, x_{D})$이다. 이를 쉽게 말하면 사건이 2개 이상 존재하는 확률이라고 생각하면 된다. 변수들 사이 관계를 모델링한다. 만약 모든 변수들이 discrete이면 multi-dimensional array가 될 수 있다. parameter 개수는 $O(K^D)$를 따른다. K는 state의 개수이다.

Covariance and Correlation

Covariance

Covariance는 $X$와 $Y$에 대한 선형적 관련성을 측정한다.

Convariace는 0 이상의 실수이다.

Correlation

Correlation은 상한선이 정해진 일반화된 척도이다.

Covariance를 normalization 한 값과 같다.

$\text{corr}[X,Y] = \frac{\text{cov[X,Y]}}{\sqrt{\text{var}[X]\text{var}[Y]}}$

correlation의 범위는 다음과 같다. $-1≤ \text{corr}[X,Y] ≤ 1$

만약 $\text{corr}[X,Y] = 1$이면 $X, Y$는 $Y = aX + B$를 만족하는 상관관계를 갖게 된다.

Correlation coefficient는 선형의 강도를 나타낸다. 그래프 슬로프에 영향을 주는 것이 아니라 관련성의 정도를 나타내고 있다. Correlation coefficient의 수식은 다음과 같다.

$a = \frac{{cov}[X,Y]}{\text{var}[X]}$

만약 $X, Y$가 독립적인 사건이면 $\text{cov}[X,Y] = 0$이고, $\text{corr}[X,Y] = 0$이다. 하지만 역은 성립하지 않는다. (cov = 0, corr=0 이면 항상 독립은 아니라는 의미이다.)

이를 통해 랜덤 변수들 사이의 상호 정보에 대한 독립성을 측정할 수 있다.

1 또는 -1로 갈수록 선형적인 특성을 보이는 것을 확인할 수 있다.

반응형
Comments