[170201 확률론] 1. 결합확률분포와 공분산/상관계수
[170201 Probability Theory] Joint Probability Distribution and Covariance/Correlation Coefficient
<2월 1일자 탐구 노트>
Study Note on February 1st.
앞 부분은 다 제껴놓고 일단 헷갈리는 부분을 확실히 하기 위해 결합확률분포 부분만 먼저.
물론 이 외에도 주변확률함수라는 개념이 있지만 두 확률변수 중 하나를 제끼는 개념일 뿐이므로 패스.
Except Probabilities, the first is joint probability distribution.
Of course, there is also Marginal probability function. It is quite easy to understand so I didn't noted it.(Marginal probability function is a probability function for only X, not Y.(or not X, only Y.))
조건부 기댓값은 말그대로 조건부확률의 기댓값을 말하는 것. 이산확률변수에서는 확률함수에 x를 곱해서 가능한 확률변수 X를 대입한 총합을 구하는 방식으로, 연속확률변수에서는 x의 범위를 -∞에서 ∞까지로 하여 적분하는 방식으로 기댓값을 구하니까, 조건부 기댓값이라고 적힌 식 자체는 상당히 당연해 보이는 식. x 대신 가중치함수 g(x)의 기댓값을 구하는 경우만 주의하면서 접근하면 될 듯?
Conditional expectation is the expectation of conditional probability. It is calculated by summation of xf(x) for X:Random variable, f(x):Probability function of X.
In discrete, they need the sign of summation ∑ with all possible X and in continuous, they need an integral sign with interval (-∞, ∞).
So that formula seems quite natural. But be careful for calculating expectation of g(x)(Weightened function), not x.
공분산과 상관계수는 헷갈릴 거 없는데 괜히 헷갈렸던 개념. 공분산은 말 그대로 두 확률변수 X, Y가 공유하는 분산이니까 제곱계산 형태로 구해지는 분산의 한 부분을 Y에 대한 식으로 바꾸면 그만.
다시 말해 원래는 이었으니까, 여기서 두번 곱해진
중 하나를 Y에 관해 바꿔
로 바꾸면 될 일.
분산을 구하는 다른 식 를
이렇게 바꿔서도 공분산을 구할 수 있다는 거! 외우기 사실 이렇게 편한건데 흐...
Covariance and Correlation Coefficient are not very confusing but I've been confused about it :P
Covariance is shared version of Variance for X, Y both. So one side of Var(X) formula should be changed to Y version. Just see this:
and
and
So really, not very confusing :D
상관계수에서 주의해야 할 점 : 공분산은 X의 분산의 X, Y 결합버젼이지만 상관계수는 X의 표준편차와는 거리가 먼 개념.
상관계수는 X, Y 두 확률변수의 확률분포가 서로 정방향관계에 있는지 역방향관계에 있는지를 알려주는 계수로서 -1과 1 사이의 값을 갖고, 따라서 공분산에 제곱근을 취해서 얻는게 아니라 오히려 X, Y의 표준편차 각각을 구해서 동시에 나눠준다.
따라서 이것이 상관계수 식.
X, Y 변수의 연관성을 알려주는 값이므로 당연히 Corr(X, Y)=Corr(Y, X)이다. 정방향관계와 역방향관계를 알려주는 성질에 대해서는 '가환'이라고 적힌 다음의 식을 보고 잘 생각해보기? 추론을 통해 간단히 알 수 있을 것이다.
Caution for Correlation Coefficient : Covariance is two-variable version of Var(X) but Correlation coefficient is not a version of sd(X).
Correlation coefficient is a number between -1 and 1 which tells us that X, Y have same or reverse-direction relation. So we can calculate it with dividing standard deviation of X and Y both at Covariance of X and Y.
Again it tells a relationship of X and Y. So it is naturally commutative. How it tells same/reverse direction? See the right side of the green word '가환' in note.
나에게 있어 가장 중요한 것은 제일 아래에 있는 이야기. 잘 외워지지 않을 것 같은 느낌이 든다. 두 확률변수 X, Y가 독립일 때 f(x, y)=h(x)g(y)인 것,(h(x), g(y)는 각각 x, y의 주변확률함수) 독립이면 상관계수와 공분산이 0인 것은 당연하게 받아들일 수 있는 이야기지만... E(XY)=E(X)E(Y)까지도 괜찮을 것도 같다. 하지만 Var(X+Y)=Var(X)+Var(Y)는 쉽게 와닿지가 않는다. 예를 몇 가지 보면서 익혀봐야 할 듯. 아니면 이 이야기를 우리말로 잘 풀어서 누군가 설명해줬으면.
참고로
이 부분은 약간은 당연한 이야기. (분산은 확률변수의 계수를 제곱하여 밖으로 꺼낼 수 있다.)
I guess the most important is the bottom side note.
If X, Y are mutually independence, then naturally f(x, y)=h(x)g(y)(h(x), g(y) are marginal prob. functions of X, Y) and Cov(X, Y)=Corr(X, Y)=0.
And if I see the word 'independence', I can memorize E(XY)=E(X)E(Y) probably.
But Var(X+Y)=Var(X)+Var(Y) is quite hard to memorize. I'll understand it with some examples or someone's impressive explanation.
But is quite natural I guess.(
)
다음 목표는 이산확률분포와 연속확률분포의 마스터! 2월 안에는 확률론 끝낼 수 있을 법도 한 것은 과한 희망?
Next objective is mastering of some kinds of Probability Distributions. I hope the end of Probability theory study will be in February.