[170204 확률론] 2-2. 이산확률분포 - 초기하분포
[170204 Probability Theory] 2-2. Discrete Probability Distribution - Hypergeometric Distribution
<초기하분포의 설명과 정의. 이항분포와 연관이 있다.>
Explanation & Definition of Hypergeometric Distribution, which has connection with Binomial Distribution.
초기하분포는 조건이 약간 복잡하다. 모집단 크기와 어떤 조건 A를 가진 집단의 크기 D가 주어져 있다. 이 때 비복원추출로 n명을 뽑았을 때 조건에 만족하는 사람이 X명 뽑힐 확률을 물어보는 것이다. 이항분포의 비복원추출버젼인 셈이다.
말로는 엄청 복잡하지만 예를 들면 이렇다. 반 인원 30명 중에 안경을 쓴 사람이 20명이다. 제비뽑기로 10명을 뽑을 때 안경을 쓴 사람이 x명 뽑힐 확률은? 하고 묻는 것이다. 물론 이는 이산확률분포에 속한다.
Hypergeometric Distribution has quite complex conditions. This is, with Population size N, Condition A group size D is given. When a Sample is chosen with size n, we can calculate the probability of X-number units(they has condition A) are taken in D.
Here is an simple example :
There are 30 students in a class. 20 students of them are wearing glasses. By random sampling without replacement, choose 10 students of them. Find the probability when x students in sample wearing glasses. Of course, this is a kind of discrete probability distribution.
확률은 . 되게 복잡해 보이지만 사실 조건부 확률이다.
30명 중 10명을 뽑았을 때, 안경 쓴 20명 중 x명이 뽑힐 확률이랑 안경 안 쓴 10명 중 (10-x)명이 뽑힐 확률을 곱한 것이다. 안경 안 쓴 사람이 왜 (10-x)명이 뽑혀야 하는지 물어보겠다면 조용히 뒤로 가기를 누르자.
여튼, 그래서 추가 조건도 복잡하게 붙는데, n은 조건집단의 크기 D보다도 작거나 같아야 하고, 비조건집단의 크기 N-D보다도 작거나 같아야 한다. n이 그보다 커질 경우, 다소 복잡한 경우까지 모두 고려해야 하기 때문이다. 아마 확률론 심화과정을 다루게 된다면 계산하게 되겠지. 난 안 할래 > _<
Answer is . It seems very complex. But it is a kind of conditional probability. When we choose 10 students among 30 students, x students are taken among 20 glasses-wearing students, (10-x) students are taken among 10 non glasses-wearing students.
So additional conditions are also complex. are they. If n is greater than D or N-D, then we have to consider about multiple case.
When I study 'Probability Theory extension', then I guess I have to calculate the cases. afk XD
<너무 많이 내려왔으니 한 컷 더?>
Too far. Isn't it?
이제 초기하분포의 기댓값을 알아보자. 이산확률분포이므로 확률질량함수에 x를 곱한 뒤 시그마를 계산해주면 된다. 이항분포의 확장팩 개념이다보니 기댓값 구하는 과정에서 이항분포의 그것을 필요로 한다. 다만 위 아래를 다 맞춰줘야 된다는 게 복잡하다면 복잡한 점.
첫 줄의 우변에서 x가 어디로 갔냐면 의 분모쪽 x와 약분됨. 그러면서 분자에선 D가 빠져나왔고, 그걸 신호로 한 듯이 전체분모의 N과 n도 빠져나왔다. 이제 N, D, n, x는 N-1, D-1, n-1, x-1이 되었고, 전체분자의 오른쪽 에 있는
는 N-D=(N-1)-(D-1), n-x=(n-1)-(x-1)이므로 따로 고쳐 줄 필요가 없다.
두번째 줄에서 상수를 밖으로 빼내면 급수의 합은 모집단크기 N-1, 조건집단크기 D-1, 표본크기 n-1인 초기하분포의 확률합이므로 1이다. 따라서 기댓값은 n과 D/N을 곱한 형태가 된다. 옆에 p와 연관된다고 끄적여놓은건 (조건집단크기/모집단크기)의 값은 사실상 이항분포의 성공확률과 같기 때문이다. 신경쓰지마셈
Now we calculate the expectation of Hypergeometric Distribution. Since it is a discrete probability distribution, it is ∑xf(x). It is such a extension of Binomial Distribution and so calculating process is similar to Binomial's. But Hypergeometric's is little more complex because of C on denominator.
In right side of 1st line, x is deleted with 's denominator. For resizing, D ran out to left side and N, n in total denominator too. Now N, D, n, x became N-1, D-1, n-1, x-1. Since (N-1)-(D-1)=N-D and (n-1)-(x-1)=n-x,
's fix is not need.
In 2nd line, the summation is 1, because it is the probability summation of a Hypergeometric Distribution with population size N-1, condition group size D-1, sample size n-1. Now we got the expectation . In the right side I noted N/D is connected with p because (Condition group size)/(Population size) is considered as mathematical success probability. nvm :)
<이제 분산을 구할 차례! 엄마엄마합니다>
Now we need its variance! amazing?
이 때도 필기 초반이라(3일전인데 ㅋㅋ) 자세히 얘기하려면 설명을 더 붙여야 할 것 같음. 그래서 사진 한..아니 두 장 추가!
This note is old.(3 days ago lol) So I'll add 2 shots below.
<자연~스럽게 이어집니까?>
Naturally connected lol
우선 위쪽은 변량 제곱의 평균을 구하는 과정. 그리고 아래 필요조건 화살표부터가 분산 구하는 과정. 변량 제곱의 평균을 구한 다음 분산을 구하려면 이미 구해놓은 기댓값의 제곱을 빼야 하니까.
어...지금 보니까 이항분포 분산 때랑 다른 점이 하나 있다면 이항분포 분산 때는 x를 n-(n-x)로 바꾸면서 시그마 위쪽의 n이 n-1로 바뀌어야 했었는데, 여기선 그럴 필요가 없음.
...뭐 수학적으로도 자잘해서 크게 신경쓸 필요 없는거긴 한데.(이항분포에서 n까지 다 더하더라도 x=n 일 때 값이 0이어서 n-1로 바뀌는 것)
다만 두번째 사진의 첫 줄이 약간 복잡하게 보일 수도 있을듯. N-1을 왼쪽으로 빼내고 N-n을 전체분모의 분자부분에 넣으면서 그에 해당하는 대응값을 곱해준 형태. 결과적으로 C 왼쪽의 N-1이 N-2로 한 칸 낮아짐.
결국 결과는 npq에 (N-n)/(N-1)을 곱한 형태가 되는데, npq를 제외한 이 분수를 유한 모집단 수정계수라 하는데 이건 확률론 열씨미 하는 사람이 알아야지 난 몰라도 될 듯? 헷헤헤
At first, upper side is process of calculating and lower side is process of calculating the Variance. Memorize
.
In calculation of variance of Binomial Distribution, the last summation was from x=1 to x=n-1. But this time we have the las summation from x=1 to x=n. (not mathematically important and so never mind guys.)
On 1st line in second shot, if you confused with it, consider form and (N-1) is taken out. In conclusion,
became
.
So result is . This
is called the Finite Population Correction. I guess this is not for test, but for Probability theory.