조조하사의 Gaming Nexus☆

[170210 Probability Theory] 3-4-2. Central Limit Theorem


허허, 오늘 중심 극한 정리랑 이항분포의 정규근사를 증명해보려고 했는데 이항분포의 정규근사라는 놈은 결코 간단히 해결되는 게 아닌듯..; 5시간 정도 잡고 있었는데...

이항분포 확률질량함수 $f(x)=_nC_xp^xq^{n-x}$를 바로 정규분포 확률질량함수로 근사시키는 것도 아닌 것 같고...이항분포 분포함수를 정규분포 분포함수로 근사시키는 것도 아닌 것 같고... 적률생성함수를 근사시키는 방법으로 해야 될 것 같은데 너어~~~무 복잡함 ㅠㅠ

I guess the approximation from binomial distribution to normal has no way for me. I used my 5 hours for it and as result, today's study has failed.

I don't think there's a way to approximate from binomial probability mass function to normal probability density function. I've no idea for approximation from binomial cumulative distribution function to normal's. I tried to approximate binomial to normal with MGF, but it's so hard for me.

<오늘은 이게 끝. ㅠㅠ 중심 극한 정리와 증명>
Today is over with these. T.T / Explanation and proof of Central Limit Theorem.

평균 $m$, 분산 $\sigma^2$를 갖는 모집단 분포에서, 크기 n인 표본을 독립적으로 임의(책에는 빠졌지만 뭐...)추출할 때 표본평균의 분포가 $n$이 무한대로 발산함에 따라(이것도 빠졌지만 이건 중요) 정규분포 $N(m, \sigma^2)$로 근사한다는 이야기가 중심 극한 정리이며, 확률론에서 아주 중요해 보인다.

여기서 유의할 점은 모집단의 분포가 직접 정규분포로 근사하는게 아니라, $n$개의 독립적으로 임의추출한 확률변수들의 평균값이 정규분포로 근사한다는 것. 그래서 $\bar{X}=\frac{1}{n}(X_1+X_2+\cdots +X_n)$로 놓는다.

$n$개의 표본을 추출하면 그 표본평균의 기댓값은 $m$, 분산은 $\frac{\sigma^2}{n}$이므로 표준편차는 $\frac{\sigma}{\sqrt{n}}$이다. 표준화까지 한꺼번에 하기 위해 $\frac{\bar{X}-m}{\sigma/\sqrt{n}}$의 적률생성함수를 계산한다.
추출된 표본들이 모두 독립이므로 기댓값은 곱셈을 보존하여 계산할 수 있다. 결론적으로 $\frac{\bar{X}-m}{\sigma/\sqrt{n}}$의 적률생성함수는 $\frac{X-m}{\sigma}$의 적률생성함수에 $t$ 대신 $\frac{t}{\sqrt{n}}$을 대입해 $n$제곱한 것과 같다.

이제 이 적률생성함수 $M_{\frac{X-m}{\sigma}}(\frac{t}{\sqrt{n}})$가 테일러 정리에 의해 어떤 $t_1\in (0, \frac{t}{\sqrt{n}})$에 대하여 1차 테일러 다항식 + 오차항으로 계산된다. 모집단 분포를 표준화한 분포의 확률합 $1$, 기댓값 $0$, 분산 $1$을 잘 대입해주면 식이 간단해지는데, 오차항 $\frac{M_{\frac{X-m}{\sigma}}''(t_1)}{2!}(\frac{t}{\sqrt{n}})^2$을 나누어준 것은 표준화된 모집단 분포의 분산이 $1$임을 활용하기 위한 것으로 보인다.
이제 극한값 계산이 남았다. $n$이 무한대로 발산함에 따라 $t_1$이 0으로 수렴하므로, 계산결과가 평균 $0$, 분산 $1$인 정규분포의 적률생성함수 $e^{\frac{t^2}{2}}$가 나와주면 성공!

Central Limit Theorem seems an important theorem of Probability Theory. It says if a population's distribution has its Mean $m$, Variance $\sigma^2$ and when we took $n$ random samples independently, then the distribution of sample mean must approximate to $N(m, \sigma^2)$ as $n \rightarrow \infty$.

It is what we should focus on that the mean of taken $n$-variables approximates to $N(m, \sigma^2)$, not the random variable of population.

If we take $n$-samples, then the sample mean's expectation is $m$, variance is $\frac{\sigma^2}{n}$, standard deviation is $\frac{\sigma}{\sqrt{n}}$. I did its standardization at once, so we'll see how MGF of $\frac{\bar{X}-m}{\sigma/\sqrt{n}}$ is calculated.
Since all sample is mutually independent, we can multiply $E(e^{t\sum_{i=1}^n{\frac{X_i-m}{\sigma/\sqrt{n}}}})=\prod_{i=1}^n{E(e^{t\frac{X_i-m}{\sigma/\sqrt{n}}})}$.
In conclusion, $M_{\frac{\bar{X}-m}{\sigma/\sqrt{n}}}(t)=[M_{\frac{X-m}{\sigma}}(\frac{t}{\sqrt{n}})]^n$

Now $\exists t_1\in (0, \frac{t}{\sqrt{n}})$ such that $M_{\frac{X-m}{\sigma}}(\frac{t}{\sqrt{n}})=M_{\frac{X-m}{\sigma}}(0)+M_{\frac{X-m}{\sigma}}'(0)(\frac{t}{\sqrt{n}})+\frac{M_{\frac{X-m}{\sigma}}''(t_1)}{2!}(\frac{t}{\sqrt{n}})^2$
$=1+\frac{M_{\frac{X-m}{\sigma}}''(t_1)}{2!}(\frac{t}{\sqrt{n}})^2$ by Taylor's Theorem.
Now calculation of limit value. We need to know $t_1 \rightarrow 0$ as $n \rightarrow \infty$. If you got the MGF of normal distribution with mean $0$, variance $1$, then you're winner against CLT(Central Limit Theorem).


다만, 중심 극한 정리를 증명하는 과정에서 테일러 정리를 쓰려면 모집단 분포의 적률생성함수가 $0$ 근방에서 해석적이라는 조건이 필요할텐데, 이 부분을 잘 모르겠다. 그 외엔 뭐...잘 했나? 그런듯?

But I need a condition that MGF of population's distribution is analytic around $0$ to use Taylor's theorem for perfect comprehension. Other parts...Nice?