블로그 이미지
평범하게 살고 싶은 월급쟁이 기술적인 토론 환영합니다.같이 이야기 하고 싶으시면 부담 말고 연락주세요:이메일-bwcho75골뱅이지메일 닷컴. 조대협


Archive»


 

'probability distribution'에 해당되는 글 2

  1. 2014.12.02 확률 분포에 대해서
  2. 2014.12.01 확률분포에서 T분포의 사용 예제
 

확률 분포에 대해서

빅데이타/통계학 이론 | 2014.12.02 00:11 | Posted by 조대협

확률분포

조대협 http://bcho.tistory.com


확률분포의 정의

확률변수 x가 특정한 값을 가질 확률을 나타내는 함수를 의미한다.

예를 들어서 두 개의 주사위를 던졌을때, 나오는 눈의 합이 x가 될 확률을 정의하는 것이 확률 분포이다. (2가 될 확률 2%,3이 될 확률 4%....)

확률 분포의 종류 관련 용어

확률 변수

먼저 확률 변수에 대해서 정의할 필요가 있는데, 확률변수가 주사위의 숫자와 같이 이산값(유한한 값)을 취할때, 이를 이산확률 변수라고 하고, 키나 몸무게처럼 실수로 연속된 무한한 값을 취할때 이를 연속 확률변수라고 한다.


확률 밀도 함수 (probability density function aka. pdf)와 확률 누적 함수

연속 확률 변수에서, 확률 변수의 분포를 나타내는 함수이다

그 함수를 특정 구간에 대해서 적분한 값이  (즉 그 구간에 그래프의 면적) 확률 변수값을 확률 누적 분포라고 하고 F(x) (대문자 F를 사용 한다.) 

예를 들어, 대한민국 고교생의 몸무게를 나타내면, 이는 연속 확률 변수로 표현할 수 있고, 확률 변수 f(몸무게)가 있다고 할때, 45kg~60kg의 확률을 구하면, f(x)에서 x=45~60 구간간의 적분 값이 된다.

확률 변수 x가 발생할 확률을 P(x)라고 하면, P(x)는 0~1 사이의 실수이며 (0<=P(x)<=1) P(x)의 총합은 1이 된다.

개념 참고 : 적분이랑 그래프의 특정 구간의 면적을 구하는 것으로, 아래 그림과 같이 a,b 구간의 면적을 구하려면, 작은 사각기둥으로 a,b 구간을 나눈후에, 각 구간의 사각형의 면적을 합한 값으로 보면 된다. 예를 들어 a=50,b=100이라고 가정할때, 구간을 5라고 하면, 첫번째 사각형의 가로는 5,높이는 f(50)가되고, 두번째 사각형은 가로는 5,높이는 f(55)가된다. 이 구간을 무한히 작은 값으로 했을때, 이 사각형들은 그래프와 서로 틈이 없이 조밀하게 되고, 이 그래프의 구간이 나타내는 면적이 되게 된다. 

 


출처 : http://terms.naver.com/entry.nhn?docId=2073809&cid=47324&categoryId=47324#TABLE_OF_CONTENT3


확률 질량 함수 (probability mass function aka. pmf)

이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수 이다. 즉 특정 확률 변수x에서 사건이 발생할 확률 f(x)을 정의한다.

예를 들어 주사위를 한번 굴릴때 값을나태내는 확률변수 X일때, 이 확률변수에 대응되는 확률 질량 함수 f(x) = 1/6 이다.

 


확률 분포

확률 분포는 그 성질에 따라 이산 확률 분포와 연속 확률 분포


이산 확률 분포

1. 베르누이 분포

가장 기본적인 이산 확률 분포로, 실행의 결과가 성공과 실패가 나오는 경우 (불량,합격)의 이항 분포이다.

예) 1~10까지 쓰여 있는 카드 중 하나를 뽑았을때, 8이 적힌 카드가 나올 확률 

  • x : 0,1
  • P : 성공확률 

위의 문제에서, 성공확률은 1/10이고, 실패확률은 9/10이다. 그리고 x가 성공인 1이기 때문에, 0.1^1*0.9^0 = 0.1*1 =0.1 이 된다.


2. 이항 분포 (binominal distribution)

결과가 성공과 실패 두가지 인 경우에, 단 하나의 실험이 아니라 여러번의 연속된 복원 추출 실험의 확률 분포이며, 이것을 X~B(n,p)로 나타낸다. (이항 분포는 실험횟수 n과 성공확률 p에 영향을 받는다)

예) 축구 선수가 패널티 킥에 성공할 확률이 0.8일때, 이 선수가 10번째 패널티 킥에서 7번 성공할 확률

 


  • n  : 전체 실험수 ? 10번의 패널티킥
  • x : 실패한 횟수 ? 3번 실패(7번 성공함으로)
  • P : 성공확률 ? 킥에 성공할 확률 0.8


그래프로 나타내면

 


“p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포(가우스분포)에 가까워지며, p가 1/2에 가까워짐에 따라 그래프는 좌우대칭인 산 모양 곡선이 된다.

출처 : http://terms.naver.com/entry.nhn?docId=1135793&cid=40942&categoryId=32215


참고 (순열과 조합)

nCr (Combination: 조합)순서에 관계없이 n개중 r개를 선택하는 법. 예를 들어 1~6까지 써있는 숫자중, 2개의 서로 다른 숫자를 선택하는 경우의 수.  (1,2),(2,1)을 같은 경우로 함

nCr = nPr / r! = n!/ (r! (n-r)!)

nPr (permutation:순열) : n개중 r개를 택해서 일렬로 나열하는 방법 (경우의 수) 예를 들어 1~6까지 써있는 숫자중, 2개를 뽑았을 때 순서를 고려한 경우의 수 (1,2), (2,1)을 다르게 함

nPr = n*(n-1)*(n-2)*….*(n-r+1) = n! / (n-r)!


3. 초기하 분포 (Hypergeometric distribution)

이항 분포와 같이 결과가 성공 실패 두가지인 연속된 실험이지만, 비복원 추출에서의 확률 분포

예) S보험사 전체인원은 10명이고, 그중 여자가 6명이다. 이중 7명을 연속으로 뽑았을때, 4명이 여자일 확률

※ nCr = C(n,r)로 표기 하였음

P(x) = C(M,x)*C(N-X,n-x) / C(N,n)



그림 출처 : http://www.roymech.co.uk/Useful_Tables/Statistics/Statistics_Distributions.html 


 

4. 기하 분포 (geometric distribution)

계속 실패하다가 성공할 확률

예를 들어 어떤 야구 선수의 홈런칠 확률이 0.05 일때 6번째 타석에서 홈런칠 확률

 


  • p :  성공할 확률
  • x -1 : 실패 횟수


즉 위의 확률은 0.05*(0.95)^5가 된다.

 


p=0.25, x=1:00에 대한 기하 분포 확률 질량 함수 그래프


5. 포아송 분포 (Poisson distribution)

이산 확률 분포로 단위시간이나 단위공간에 대해서 어떤 사건의 출현 횟수가 갖는 분포

예를 들어 식당에 한시간 평균 10명의 손님이 온다고 할때, 이렇게 단위 시간단 평균을 알고 있을때, 어떤 시간에 몇명이 올지 예측이 가능한 분포를 포아송 분포라고 한다.

예) 30분마다 지나가는 차량의 수가 평균 25대라면, 이때, 30분에 10대 이하로 차가 지나갈 확률?  Sum(p(x=1..10))

 


그림 출처 : http://www.roymech.co.uk/Useful_Tables/Statistics/Statistics_Distributions.html



  • 람다(위에 ㅅ 어퍼놓은것) : 평균
  • x : 발생 횟수


연속 확률 분포

다음은 대표적인 연속 확률 분포이다

.

정규 분포 (normal distribution)

가장 많이 발견되는 연속 확률 분포로, 사람의 키, 연봉 등 많은 사회 및 자연 현상이 이 정규 분포를 따른다.

평균이 m이고, 표준편차가 시그마(돼지꼬리)일때, 정규분포의 밀도 함수는 다음과 같다. 

 


그래프로 표현하면

 


표준 정규 분포와 일반 정규 분포

표준 정규 분포는 정규 분포중에서 평균 = 0, 표준편차(시그마)가 1인 정규 분포

이 표준 정규 분포의 성질은 평균에서 +-1 범위내에서 모든 데이타의 70%(0.6826)가 들어감, +-2 범위내에서는 모든 데이타의 95% (상대도수 = 0.9544)이다.

데이타가 정규 분포를 따를 때, 일반 정규 분포는 (데이타의 표준편차:시그마)*(표준 정규분포의 데이타)+(데이타의 평균:뮤)를 따른다. 표준 정규분포는 분포 표가 있기 때문에, 일반 정규 분포의 표준편차와 평균을 알면 표준 정규분포표를 이용하여, 확률 변수에 대한 확률값을 구할 수 있다.


T 분포

모집단의 분산을 모를때, 모집단의 평균을 추정하는데 사용됨

정규 분포와 유사하게 종 모양을 띄는 분포로, 정규분포는 평균에서 멀어질 수 록, 확률이 급격하게 떨어진다. 그러나, 정규 분포는 표본의 데이타가 충분히 많아야 신뢰도가 올라간다는 단점이 있다.

그래서, T 분포는 정규분포보다 한 단계 넓은 예측 범위가 넓은 분포를 사용하게 된다. 

 


(원본 : http://math7.tistory.com/55)


  • T 분포 = (정규분포)*sqrt(카이제곱 분포의 자유도) / (카이제곱분포W)
  • 자유도 = 카이 제곱 분포에서 표본 크기 -1
  • ※ 자유도는 (표본의 개수인 n)-1. (자유도=n-1) 로, 표본의 크기가 커질 수록, T분포는 정규분포에 근접하게 된다. 

그러니까는 정규분포 형태의 데이타가 있을떼, 이를 좀 더 넓은 예측 범위로 변환할 때 사용이 가능하다. T 분포는 실제 확률을 구할때는 사용하지 않고 신뢰구간이나 가설 검정을 할때 사용한다.


카이 제곱 분포

직접 확률을 구할때 보다는, 신뢰구간과 가설 검정, 적합도 검정, 동질성 검정, 그리고 독립성 검정등에 많이 사용된다.

(추가 조사 필요)


F 분포

분산을 추정하고 검정할 때 사용하는 분포

(추가 조사 필요)



참고 자료 (그림과, 공식, 대부분의 내용들은 다음 글들을 참고했습니다.)

확률 분포의 개념: http://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0%EB%B6%84%ED%8F%AC

확률론 : http://terms.naver.com/entry.nhn?docId=2098124&cid=44413&categoryId=44413

확률분포 : http://math7.tistory.com/ (통계학 이론이 정말 잘 정리 되어 있습니다. 추천)

정규분포 : http://terms.naver.com/entry.nhn?docId=779549&cid=42085&categoryId=42085

여러가지 분포를 R로 잘 설명해놓은 글 : http://zoonek2.free.fr/UNIX/48_R/07.html




T분포 and 잡담


지난 주에 확률분포를 보고, 어디다 써먹어야 되는지... 고민이 많았는데.

받은 조언은

보통 정규분포를 많이 사용하고, T분포나, F분포, 카이제곱 분포는 검정(가설 검증)에 많이 사용한다는 의견이었는데.

 

오늘 손안의 통계를 보니까는 T 분포 예제가 나옵니다.

T 분포는 정규 분포와 형태가 비슷하지만, 중앙의 높이는 더 낮고, 양쪽옆의 높이는 더 높은 형태로

데이타 분포가 정규 분포에 비해서 조금 더 산개된 모양을 가지고 있습니다.

 

어디다 쓰는지 봤더니

모집단의 평균이나 분산 값을 알지 못할때, 표본의 평균과 분산으로 모집단의 평균등의 신뢰 구간을 측정하는데 T 분포를 사용합니다.

 

손안의 통계 33페이지에 보면

대졸 신입 사원의 초임 표본 평균을 75만원이라고 하고, 표본 표준편차가 5만원일때, 전체 모집단의 초임을 신뢰도 95% 신뢰도 구간으로 구하는 문제입니다.

 

이 경우, T 분포를 이용하여, T 분포 신뢰구간 95%를 구하면 72.9361~77.0.639 가 됨을 볼 수 있습니다.


예제보고 다시 위키에 나와 있는 T분포를 보니

"모집단의 분산을 모를때, 모집단의 평균을 추정하는데 사용됨"

이제 이해가되네..