조조하사의 Gaming Nexus☆

[170209 Probability Theory] 3-4. Continuous Probability Distribution - Normal Distribution(=Gaussian Distribution)


<정규분포 총정리!>
Total of Normal Distribution.

정규분포는 주어진 평균값과 표준편차로 정의되는 연속확률분포이다. 내가 며칠 전 균등분포를 포함한 직선형 분포를 정리하려고 시도했던 것과 같은 시도를(하지만 범주의 차이가 상당한) 가장 이상적이고 자연스러운 분포모델에 대해 수없이 했을 가우스에게 찬사를 보낸다.

나는 정규분포가 분포형태 중에서 연구할만한 가장 이상적인 모델이 아닌가 생각해본다. 확률론의 모든 분포에서 빠질래야 빠질 수 없는 평균과 표준편차를 기준으로 함수가 만들어지는데다가(이렇게 정의되는 정규분포로 대부분의 기초적인 확률분포가 근사함은 어쩌면 자연스러운 것일지도!), 확률이 만족해야 할 모든 조건을 다 만족한다는 이야기이지 않은가!
대단 대단.

평균과 표준편차가 주어졌을 경우 정의되는 정규분포의 확률밀도함수와 적률생성함수를 확인하고, 적률생성함수에 의해 계산되는 평균과 분산이 주어진 정보와 일치한다는 것을 확인하고 다음으로 넘어가자.

Normal Distribution(=Gaussian Distribution) is a continuous probability distribution defined by 2 parameters : Expectation and Variance. Recently I tried to generalize and study about linear-formed distribution.(not only uniform distribution) I guess Gauss tried and tried for similar thing about the most ideal and the most natural distribution model. I must respect him.

I think the normal distribution is the best model to research probability. It is made by expectation and variance, which are very important for all kind of distribution.(I think also that most of fundamental probability distribution approximates to normal distribution is quite natural.) Even it satisfies all condition of probability!
Interesting.

For now, let's see the probability density function and MGF(Moment Generating Function) of normal distribution. We should focus on expectation and variance calculated by MGF are equal to given mean and variance.


<정규분포 함수를 알았으니, 이제 이 함수의 합이 1이 됨을 보이자.>
With the probability function of normal distribution, let's see its summantion is equal to 1

우리가 보이려는 것은 구간 (-∞, ∞)에서 확률함수의 적분값이 1이라는 것.

표준정규분포의 아이디어를 잠깐 빌려와 치환적분을 시도하자. 그러면 $I$의 형태가 무척이나 간단해진다.(물론 값은 유지될 것이다.)
'이제'로 시작하는 줄에서 적분값의 제곱이 1임을 보이려고 한다. 대학 1학년 수학과정을 어느 정도 꼼꼼히 이해한 사람이라면 $I^2$에 해당하는 값이 좌표평면 전체에 대한 이중적분으로 넘어가는 과정을 파악할 수 있을 것이다.(라고 교수님께서 말씀하시더라 ㅋㅋ)
좌표평면 전체는 직교좌표 형식으로 따지면 x축 구간 (-∞, ∞)만큼 적분한 뒤 y축 구간 (-∞, ∞)만큼 적분하여 얻을 수 있다.
참고로 $e^{-\frac{x^2+y^2}{2}}$는 앞의 $e^{-\frac{x^2}{2}}$와 $e^{-\frac{y^2}{2}}$를 곱한 형태.

그 다음은 직교좌표 표현을 극좌표 표현으로 바꾸는 과정이다. 대학교 다변수해석학 지식이 어느 정도 요구된다. 직교좌표의 넓이요소 $dxdy$는 극좌표의 넓이요소 $rdrd\theta$에 대응되므로(이 계산에 이용되는 행렬이라는 계산도구의 의미와 행렬식의 계산은 대학교 선형대수학의 행렬 부분 지식을 요한다.), 적분식의 $dxdy$는 $rdrd\theta$로 바꿔주고 $x^2+y^2=(rcos\theta)^2+(rsin\theta)^2=r^2$이므로 아래쪽의 $I^2$와 같이 식을 바꿔줄 수 있다.
좌표평면 전체는 극좌표로 따지면 각도 0에서 2$\pi$까지 한바퀴 돌면서 각각의 각도에 대해 0에서 ∞까지의 길이를 다 더한거니까 그렇게 구간을 적어주고 나면, 남은건 계산 뿐이다.

$I^2=1$을 얻었다면 $\frac{1}{\sqrt{2\pi}}>0$, $e^{-\frac{y^2}{2}}>0$이므로 $I>0$이고, 따라서 $I=1$임을 알 수 있다. 끝!!

Integral of probability function on (-∞, ∞) is equal to 1, that is what we need.

We'll bring the idea of Standard Normal Distribution. Let's do integration by substitution, then we can simplify $I$.(of course, value preserving)
From upper $I^2$ line, we'll show $I^2=1$. If you've studied Calculus toughly, then you will understand the calculation of $I^2$ need double integrals(professor said lol).
We can get entire coordinate plane with double integrals of entire x-axis and y-axis in rectangular coordinate system.
remark : $e^{-\frac{x^2+y^2}{2}}=e^{-\frac{x^2}{2}}e^{-\frac{y^2}{2}}$

Next is changing rectangular coordinate to polar coordinate expression. They need some knowledge about Vector Calculus. Area element $dxdy$ in rectangular coordinate system is correspondent to $rdrd\theta$, which is the area element in polar coordinate system.(Matrix what we use here to calculate and determinant of matrix are knowledges in Linear Algebra) So we should change $dxdy$ to $rdrd\theta$ and $x^2+y^2=(rcos\theta)^2+(rsin\theta)^2=r^2$. Now we are on lower $I^2$ line.
Entire coordinate plane is double integrals of 0~2$\pi$ angle and 0~∞ length in polar coordinate system.
Now we can get $I^2=1$ with some integral skills.

Since $\frac{1}{\sqrt{2\pi}}>0$ and $e^{-\frac{y^2}{2}}>0$, $I>0$ and so we can get $I=1$. Hooray!


<휴, 이제 숨 좀 돌려 봅시다. 적률생성함수로 가자.>
Whew, let me rest plz :) Let's go to the MGF of normal distribution.

정규분포의 적률생성함수를 구하는 것은 보기엔 어렵지만 방향만 잡아보자면 은근히 간단하다. 밑 $e$인 친구들끼리 합친 뒤에 $x$에 대한 이차식 형태인 지수를 완전제곱꼴로 고쳐주면 끝이 난다. 그림을 보고 이차함수 최댓값 열심히 구했던 그 시절을 떠올려 보자.

Calculating MGF seems hard, but it needs simple idea. Gather all $e^{blah blah}$ terms, then exponent of $e$ forms 2nd order polynomial. After change it to perfect-square form(3rd grade in middle schools will teach this.), we can get MGF of normal distribution.


정규분포 이론 부분까지 어떻게 정주행하긴 했는데, 노트가 꽉 차 넘치려고 한다. 조금 더 간단히 요약해서 노트에 적어놓고, 증명시간을 아끼지 않는 쪽으로 해야 할 듯.

내일 이항분포의 정규분포근사, 중심극한정리, 카이제곱분포랑 t분포를 하려고 하는데, 다 할 수 있을지는 모르겠다. 가능하면 정규분포, 카이제곱분포, t분포를 이용한 추정까지 할 수 있으면 좋겠지만 그럴 리는 없겠지.

검정 쪽은 일단은 빼고. 결국 10일로 목표한 확률론 개념정리는 끝낼 수 있...겠지? 1단계 계획은 별 3개로 클리어?? 보너스 별 못 받을 것 같아서 아쉽긴 하다 ㄲㄲㄲ

I've burned myself with Probability Theory today, and my memobook is really burning :( I need some more simplified memo skills and more trial to proof.)

Tomorrow's plan is Normal Distribution approximation of Binomial Distribution, Central-limit Theorem, Chi-square distribution and t-distribution. It'll be nice if I can study about estimation with normal/Chi-square/t-distribution.

Anyway, Except Estimation and Test parts. Probability is really over till 10 feb? 1 stage plan cleared with 3 stars?? I want also bonus star lolz