블로그 이미지
평범하게 살고 싶은 월급쟁이 기술적인 토론 환영합니다.같이 이야기 하고 싶으시면 부담 말고 연락주세요:이메일-bwcho75골뱅이지메일 닷컴. 조대협


Archive»


 
 

수리 통계 관련 서적

빅데이타/통계학 이론 | 2015.02.11 01:31 | Posted by 조대협

통계학 개론책

http://www.yes24.com/24/goods/8339523?scode=032&OzSrank=1 

http://www.yes24.com/24/goods/2642692?scode=032&OzSrank=1

Headfirst 통계학


ML 서적

Building machine learning systems with python


저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

통계학의 기본

빅데이타/통계학 이론 | 2014.12.18 01:00 | Posted by 조대협

통계학의 기본


아래글은 한국 통계진흥원 손안의 통계 中 "1장 통계 개념 체크하기"를 요약 정리한 내용입니다.


기술통계(Descriptive statistics) : 기술 통계는 수집된 자료(전체이건 표본이건)의 특성을 잘 나타내어 표나, 그림, 평균과 같은 측도 값을 구하는 통계 기법이며

추측통계(Inferential statistics) : 추측 통계는 전체 모집단을 분석하지 않고, 표본을 추출 하여 표본으로 모집단의 특성을 추정하는 방법

통계학의 처음에 정치를 위해서 개발 되었다. 국가를 경영하려면 판단의 지표가 될 수 있는 각종 요약자료가 필요 했는데, 이것이 발전해서 의학,약학,여론조사,경제학,사회학,교육학등 다양한 분야에서 사용되고 있다.


통계 데이터의 정리


통계 변수

이산형 변수 (discrete variable) : /, 자동차 종류 등과 같이 연속성이 없는 변수

연속형 변수 (continuous variable) : , 몸무게등 실수와 같이 쪼게면 쪼겔수록 무한히 쪼게지는 연속된 변수


도수분포표와 히스토그램

히스토 그램 : 연속형 변수는 히스토그램을 이용하여 표현이 가능하다. 히스토그램이란, 연속된 변수의 X축을 일정 구간으로 나눠서, (5) 그 구간에 들어가는 데이터를 표현하는 방법으로, 키를 예를 들면 160~170,170~180에 각각 몇 명이 있는지 그래프로 나타내면 히스토 그램이라고 한다.



도수분포표 (frequency table) : 빈도수 분포표라고도 하는데, 연속형 변수의 경우 히스토그램 처럼 구간을 나눠서 그래프가 아니라 테이블로 표현한 거나, 이산형 변수의 경우 각 변수의 값을 테이블로 표현한 것을  도수 분포표 라고 한다.


연속 변수의 정리

연속형 데이터는 통계량을 요약하는데, 주로 데이터를 표현하는데 다음과 같은 값들을 사용한다.


중심위치의 측도

데이터의 중심 위치를 표현하는 값으로, 평균뿐 아니라 다양한 척도를 사용할 수 있다.

Ÿ  *  평균 : 전체 데이터의 합을 개수로 나눈 값

Ÿ  * 중심값 : 전체 데이터가 n개가 있고순차적으로 배열 하였을 때, n/2 번째 위치 하는 값

Ÿ  * 최빈값 : 데이터의 발생 빈도가 가장 많은 값



산포와 측도

산포는 데이터가 흩어진 정도를 나타내는 것인데, 분산, 표준편차, 범위, 사분위수범위등이 사용된다.

분산,표준편차,범위등은 흔히 사용하는 개념이기 때문에 넘어가고, 사분위수범위를(interquartile range. 일반적으로 IQR이라고 표시)에 대해서 알아보자

먼저 백분위수 (percentile)의 개념을 알아야 하는데, 데이터를 작은 것부터 큰 순서대로 쭈욱 놓았을대, 대략 p% 번째 데이터를 백분위수라고 한다.

이때 25% 백분위수를 일사분위수(Q1), 50% 백분위수를 이사분위수(Q2), 75% 백분위수를 삼사분위수(Q3) 라고 하고, “사분위범위수는삼사분위수에서 일사분위수를 뺀 값이다.

IQR = Q3-Q1. (75% 범위값에서, 25% 범위값을 뺀 범위) 이 된다.

이런 사분위수를 사용할 때, 쉽게 표현할 수 있는 그래프가 상자그림 (box-whisker plot)인데,



상자 그림은,

Ÿ   좌측 경계를 Q1 – 1.5*IQR

Ÿ   우측 경계를 Q3 + 1.5*IQR (위의 그림이 잘못됨. Q3-가 아니라 Q3+)로 하고

Ÿ   Q1,Q3구간을 상자로 표시한다. 그리고 중앙값 m을 상자안에 표시한다.

Ÿ   이러한 상자그림을 이용하면, 데이터 분포의 대칭성, 데이터의 중심 위치, 산포의 정도,극단점등을 잘 알아볼 수 있다.


왜도와 첨도

왜도(skewness) 데이터의 분포가 평균을 중심으로 얼마나 대칭형이냐를 나태내는 것이 왜도

첨도(kurtosis) 는 정규분포 대비 데이터 분포도가 얼마나 뾰족한지를 나타내는 측도. 정규 분포의 첨도는 0이고, 정규분포보다 더 뾰적하면 첨도는 양수, 더 납작하면 음수를 갖는다.


두개 이상의 연속 변수 정리

두개 이상의 연속 변수가 있을 때두 변수가 상관 관계가 있는지를 분석하는 것을 두개 이상의 연속 변수 정리라고 하는데, 예를 들어, 자동차의 속도와 정지 거리간의 상관 관계를 분석하는 것들이 그 예에 속한다.


공분산(Covariance), 상관 계수

연속 변수의 상관 관계를 분석하는 방법으로는 여러가지가 있지만, 공분산과 상관 계수라는 것이 있다.

공분산은



으로 표현되는데, x,y 두개 연속 변수에 대해서, x의 각 값에 x의 평균을 뺀값과, y의 각 값에서 y의 평균을 뺀값을 더하여, 평균을 낸 값으로,

http://blog.naver.com/ikek21?Redirect=Log&logNo=220003173213

글에서 쉽게 개념을 설명하고 있는데, 인용 해보자면 다음과 같다.



와 같이 영어,국어 점수간의 상관 관계를 표현할 때.

이를 그래프로 표현하면



로 표현이 된다. 공분산은 이 칠해진 부분 즉 면적의 합을 항목의 수로 나눈 값이다.(이를 내적의 성질이라고 한다. 벡터를 이용할 경우 벡터의 내적을 의미하게 된다.)

17/4 4.25의 공분산을 가진다. 이 공분산의 값으로 추정할 수 있는 것은 국어 성적이 증가 함에 따라 영어 점수도 같이 증가한다는 상관 관계를 표현한다.

공분산이 양이면, 두 상관 계수간에, 한 변수가 증가하면 다른 변수도 비례적으로 증가한다는 관계를, 만약에 음수로 내려가면, 반비례 관계가 되는 것을 표현한다.

이 공분산으로 알수 있는 것은, 국어 점수와 영어 점수에 상관 관계가 있고, 국어 점수가 증가함에 따라 영어 점수가 증가한다 (또는 감소한다) 정도만 알수가 있을뿐, 국어점수와 영어점수와의 관계의 정도는 표현이 되지 않는다. 이를 표현하는 방식이 상관 계수라는 것이다.

상관 계수는 이런 점을 보안하여, 두 변수간의 상관성이 얼마나 강한지를 나타낸다.

공식은 복잡하기 때문에 생략하고, 상관 계수 p -1~1의 값을 갖는데,0에 가까울 수 록 상관성이 없고, 1에 가까울수록 양의 비례관계까 강하고, -1에 가까울수록 반비례가 강한 특성을 나타낸다.


공분산 행렬과 상관 계수 행렬

공분산과 상관계수가 두개의 변수간의 상관 관계를 알아보는 것이라면공분산 행렬과, 상관 계수 행렬은 변수가n개 있을 때, 이 모든 변수 n개간의 상관 관계를 공분산과, 상관 계수로 표현한 행렬이다.


정규 분포의 특성

많은 자연 현상이나 사회학적인 데이터의 확률 분포는 종모양의 정규분포라는 것을 따른다.

이 정규 분포는 드므라는 사람에 의해서 처음 발견 되었고, 나중에 수학자 가우스에 의해서 폭넓게 응용되었다.

정규 분포 함수는 다음과 같다.



정규분포 함수를 그림으로 표현하면 다음과 같은 모양이 된다.



정규 분포의 특성은 다음과 같다.

1)  종모양의 연속함수이다.

2)  평균을 중심으로 좌우 대칭이다. 따라서 평균을 중심으로 좌측과 우측의 확률은 각각 0.5이다.

3)  평균이나 표준편차에 따라 정규분포는 무한히 많을 수 있다.

4)  [중요] x축에 대해서,
값이 [평균-표준편차~평균+표준편차]에 속할 확률은 0.68
값이 [평균-2*표준편차~평균+2*표준편차]에 속할 확률은 0.95
값이 [평균-3*표준편차~평균+3*표준편차]에 속할 확률은 0.997
이 된다. 즉 정규분포에서 확률변수는 평균 주위에 대부분의 값을 가지며, 평균에서 좌우로 표준편차의 3배 이상 떨어진 값은 거의 없다.

5)  표준편차가 1이고, 평균이 0인 정규 분포를 표준 정규분포라고 한다.
표준 정규 분포는 다음과 같은 성질을 따르는데,


95%
구간내에 들어가는 값은 +-1.645 구간내에, 97.5% +-1.96 구간내에, 99.5% +-2.575 구간내에 속한다

.

표본 분포와 추정

현대 통계학에서 추론 통계학은 실제 모든 데이터를 측정하지 않고, 모집단에서 일부 표본만을 추출하여, 전체 모집단의 특성을 추론하는 방식으로, 모집단에서 추출한 샘플을 표본이라고 한다.

이 표본에 의해 이루어진 통계 분포를 표집 분포 (Sampling distribution)이라고 한다.


중심 극한 정리 (CLT : Central Limit Theorem)

모집단이 정규분포를 따르지 않더라도, 표본의 크기가 충분이 클 때 (보통 30이상) 여러 번 표본을 추출하여 표본 평균을 추출해보면, 이 표본 평균들은 정규분포를 따르며 모집단의 평균에 근접한다.

예를 들어 모집단에 1000개의 데이터가 있을 때, 30개씩 표본을 뽑아서 표본 평균을 구하는 실험을 100번했다면, 표본 평균들은 정규 분포를 따르며, 이 표본 평균의 평균은 모집단의 평균에 근접하게 된다.


모평균의 추정

표본을 이용해서 모평균을 추정(estimation)하는 방법에 대해서 알아보자


점추정 (Point estimation)

표본을 여러 번 추출하지 않고, 하나의 표본을 추출해서 모집단의 평균을 추정할 수 있을까?

중심극한정리에서 봤듯이, 모집단이 어떤 분포를 따르건간에, 표본 평균들은 모평균을 중심으로 정규분포를 따른다. 표본의 크기가 충분히 클 수 록, 표본 평균은 모평균에 수렴하기 때문에, 이렇게 하나의 표본에서 관측된 표본 평균으로 모평균을 추정하는 것을 점 추정이라고 한다.


구간 추정 (Interval estimation)

점 추정 이외에, 구간 추정이라는 것이 있는데, 모집단이 정규분포를 따르고 모분산을 아는경우 (평균은 모르지만). 95% 확률로 표본평균이 모평균을 따를 확률은 표준 정규분포에서 95% 구간에 들어가는 값은 +-1.96 구간이기 때문에, 모집단이 정규분포일때는

모집단의 평균은 [ 표본평균 -1.96*(모분산/sqrt(n)), 표본평균 +1.96*(모분산/sqrt(n))] 구간에 95% 확률로 속한다.
n
은 표본의 크기, 모분산/sqrt(n)는 표본집단의 표준 편차. (중심극한정리에 의함)

※ 근데, 모집단의 평균을 모르면서 분산을 어떻게 구하지?


T 분포 (T dribution)

그런데, 구간 추정 방식은 모집단이 정규분포를 따르고 모분산을 아는 경우에만 사용이 가능하다. 그러면 만약 모집단이 정규분포를 따르지 않고 모 분산을 모르는 경우에는?

아일랜드의 양조 업체에서 일하던 W.S.Gosset이라는 수학자가 T 분포라는 것을 발표하였는데, 회사에 속해 있어서 실명을 사용할 수 없에서 Student라는 가명으로 발표하여 T 분포라고 이름지어졌다.

T 분포의 특징은 정규분포 처럼 양쪽이 종모양으로 대칭인 모양을 가지고 있지만, 정규분포에 비해서 높이가 낮고,양쪽 꼬리가 좀더 높게 평평하고 긴 모양을 가지고 있다.



<그림. 정규분포와 T 분포 비교. 출처 http://math7.tistory.com/55 >

만약에 표본의 크기가 크다면, 표본의 표준편차를 이용하여, 모평균의 신뢰 구간을 구할 수 있는데, 이때 T 분포를 사용한다.

T 분포는 표본의 크기에 따라 각각의 분포를 갖는다. 표본이 1 T분포, 표본이 2 T분포

보통 이 표본의 크기를 자유도라고 하고, 이 자유도가 30이 넘으면 대게 정규분포와 유사해진다.

그래서, T 분포를 이용하여, 모평균을 추정하면

T 분포는 t(n,a)로 표현하면

n은 자유도 즉 표본의 크기

a는 신뢰도로 그래프에서 왼쪽에서부터 누적확률이 a가 되는 점을 뜻한다. 예를 들어 a 0.05 이면, 양쪽 구간을 구하면 1-a 구간의 신뢰 즉 1-0.05=0.95 (95%) 신뢰구간 구할 수 있다.

표준 정규분포에서는 이 값이 -1.645 였는데, T 분포에서 자유도가 7일 때 이 값은 -1.895가 된다.

그래서 T 분포를 이용한 모평균의 추정 구간은

[ 표본평균 – t(n-1, (1-a/2)*(표본분산/sqrt(n) ), 표본평균 + t(n-1, (1-a/2)*(표본분산/sqrt(n) ) ]

가 된다.


다음번에는 통계 가설의 검정에 대해서 알아보기로 한다.

저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

확률 분포에 대해서

빅데이타/통계학 이론 | 2014.12.02 00:11 | Posted by 조대협

확률분포

조대협 http://bcho.tistory.com


확률분포의 정의

확률변수 x가 특정한 값을 가질 확률을 나타내는 함수를 의미한다.

예를 들어서 두 개의 주사위를 던졌을때, 나오는 눈의 합이 x가 될 확률을 정의하는 것이 확률 분포이다. (2가 될 확률 2%,3이 될 확률 4%....)

확률 분포의 종류 관련 용어

확률 변수

먼저 확률 변수에 대해서 정의할 필요가 있는데, 확률변수가 주사위의 숫자와 같이 이산값(유한한 값)을 취할때, 이를 이산확률 변수라고 하고, 키나 몸무게처럼 실수로 연속된 무한한 값을 취할때 이를 연속 확률변수라고 한다.


확률 밀도 함수 (probability density function aka. pdf)와 확률 누적 함수

연속 확률 변수에서, 확률 변수의 분포를 나타내는 함수이다

그 함수를 특정 구간에 대해서 적분한 값이  (즉 그 구간에 그래프의 면적) 확률 변수값을 확률 누적 분포라고 하고 F(x) (대문자 F를 사용 한다.) 

예를 들어, 대한민국 고교생의 몸무게를 나타내면, 이는 연속 확률 변수로 표현할 수 있고, 확률 변수 f(몸무게)가 있다고 할때, 45kg~60kg의 확률을 구하면, f(x)에서 x=45~60 구간간의 적분 값이 된다.

확률 변수 x가 발생할 확률을 P(x)라고 하면, P(x)는 0~1 사이의 실수이며 (0<=P(x)<=1) P(x)의 총합은 1이 된다.

개념 참고 : 적분이랑 그래프의 특정 구간의 면적을 구하는 것으로, 아래 그림과 같이 a,b 구간의 면적을 구하려면, 작은 사각기둥으로 a,b 구간을 나눈후에, 각 구간의 사각형의 면적을 합한 값으로 보면 된다. 예를 들어 a=50,b=100이라고 가정할때, 구간을 5라고 하면, 첫번째 사각형의 가로는 5,높이는 f(50)가되고, 두번째 사각형은 가로는 5,높이는 f(55)가된다. 이 구간을 무한히 작은 값으로 했을때, 이 사각형들은 그래프와 서로 틈이 없이 조밀하게 되고, 이 그래프의 구간이 나타내는 면적이 되게 된다. 

 


출처 : http://terms.naver.com/entry.nhn?docId=2073809&cid=47324&categoryId=47324#TABLE_OF_CONTENT3


확률 질량 함수 (probability mass function aka. pmf)

이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수 이다. 즉 특정 확률 변수x에서 사건이 발생할 확률 f(x)을 정의한다.

예를 들어 주사위를 한번 굴릴때 값을나태내는 확률변수 X일때, 이 확률변수에 대응되는 확률 질량 함수 f(x) = 1/6 이다.

 


확률 분포

확률 분포는 그 성질에 따라 이산 확률 분포와 연속 확률 분포


이산 확률 분포

1. 베르누이 분포

가장 기본적인 이산 확률 분포로, 실행의 결과가 성공과 실패가 나오는 경우 (불량,합격)의 이항 분포이다.

예) 1~10까지 쓰여 있는 카드 중 하나를 뽑았을때, 8이 적힌 카드가 나올 확률 

  • x : 0,1
  • P : 성공확률 

위의 문제에서, 성공확률은 1/10이고, 실패확률은 9/10이다. 그리고 x가 성공인 1이기 때문에, 0.1^1*0.9^0 = 0.1*1 =0.1 이 된다.


2. 이항 분포 (binominal distribution)

결과가 성공과 실패 두가지 인 경우에, 단 하나의 실험이 아니라 여러번의 연속된 복원 추출 실험의 확률 분포이며, 이것을 X~B(n,p)로 나타낸다. (이항 분포는 실험횟수 n과 성공확률 p에 영향을 받는다)

예) 축구 선수가 패널티 킥에 성공할 확률이 0.8일때, 이 선수가 10번째 패널티 킥에서 7번 성공할 확률

 


  • n  : 전체 실험수 ? 10번의 패널티킥
  • x : 실패한 횟수 ? 3번 실패(7번 성공함으로)
  • P : 성공확률 ? 킥에 성공할 확률 0.8


그래프로 나타내면

 


“p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포(가우스분포)에 가까워지며, p가 1/2에 가까워짐에 따라 그래프는 좌우대칭인 산 모양 곡선이 된다.

출처 : http://terms.naver.com/entry.nhn?docId=1135793&cid=40942&categoryId=32215


참고 (순열과 조합)

nCr (Combination: 조합)순서에 관계없이 n개중 r개를 선택하는 법. 예를 들어 1~6까지 써있는 숫자중, 2개의 서로 다른 숫자를 선택하는 경우의 수.  (1,2),(2,1)을 같은 경우로 함

nCr = nPr / r! = n!/ (r! (n-r)!)

nPr (permutation:순열) : n개중 r개를 택해서 일렬로 나열하는 방법 (경우의 수) 예를 들어 1~6까지 써있는 숫자중, 2개를 뽑았을 때 순서를 고려한 경우의 수 (1,2), (2,1)을 다르게 함

nPr = n*(n-1)*(n-2)*….*(n-r+1) = n! / (n-r)!


3. 초기하 분포 (Hypergeometric distribution)

이항 분포와 같이 결과가 성공 실패 두가지인 연속된 실험이지만, 비복원 추출에서의 확률 분포

예) S보험사 전체인원은 10명이고, 그중 여자가 6명이다. 이중 7명을 연속으로 뽑았을때, 4명이 여자일 확률

※ nCr = C(n,r)로 표기 하였음

P(x) = C(M,x)*C(N-X,n-x) / C(N,n)



그림 출처 : http://www.roymech.co.uk/Useful_Tables/Statistics/Statistics_Distributions.html 


 

4. 기하 분포 (geometric distribution)

계속 실패하다가 성공할 확률

예를 들어 어떤 야구 선수의 홈런칠 확률이 0.05 일때 6번째 타석에서 홈런칠 확률

 


  • p :  성공할 확률
  • x -1 : 실패 횟수


즉 위의 확률은 0.05*(0.95)^5가 된다.

 


p=0.25, x=1:00에 대한 기하 분포 확률 질량 함수 그래프


5. 포아송 분포 (Poisson distribution)

이산 확률 분포로 단위시간이나 단위공간에 대해서 어떤 사건의 출현 횟수가 갖는 분포

예를 들어 식당에 한시간 평균 10명의 손님이 온다고 할때, 이렇게 단위 시간단 평균을 알고 있을때, 어떤 시간에 몇명이 올지 예측이 가능한 분포를 포아송 분포라고 한다.

예) 30분마다 지나가는 차량의 수가 평균 25대라면, 이때, 30분에 10대 이하로 차가 지나갈 확률?  Sum(p(x=1..10))

 


그림 출처 : http://www.roymech.co.uk/Useful_Tables/Statistics/Statistics_Distributions.html



  • 람다(위에 ㅅ 어퍼놓은것) : 평균
  • x : 발생 횟수


연속 확률 분포

다음은 대표적인 연속 확률 분포이다

.

정규 분포 (normal distribution)

가장 많이 발견되는 연속 확률 분포로, 사람의 키, 연봉 등 많은 사회 및 자연 현상이 이 정규 분포를 따른다.

평균이 m이고, 표준편차가 시그마(돼지꼬리)일때, 정규분포의 밀도 함수는 다음과 같다. 

 


그래프로 표현하면

 


표준 정규 분포와 일반 정규 분포

표준 정규 분포는 정규 분포중에서 평균 = 0, 표준편차(시그마)가 1인 정규 분포

이 표준 정규 분포의 성질은 평균에서 +-1 범위내에서 모든 데이타의 70%(0.6826)가 들어감, +-2 범위내에서는 모든 데이타의 95% (상대도수 = 0.9544)이다.

데이타가 정규 분포를 따를 때, 일반 정규 분포는 (데이타의 표준편차:시그마)*(표준 정규분포의 데이타)+(데이타의 평균:뮤)를 따른다. 표준 정규분포는 분포 표가 있기 때문에, 일반 정규 분포의 표준편차와 평균을 알면 표준 정규분포표를 이용하여, 확률 변수에 대한 확률값을 구할 수 있다.


T 분포

모집단의 분산을 모를때, 모집단의 평균을 추정하는데 사용됨

정규 분포와 유사하게 종 모양을 띄는 분포로, 정규분포는 평균에서 멀어질 수 록, 확률이 급격하게 떨어진다. 그러나, 정규 분포는 표본의 데이타가 충분히 많아야 신뢰도가 올라간다는 단점이 있다.

그래서, T 분포는 정규분포보다 한 단계 넓은 예측 범위가 넓은 분포를 사용하게 된다. 

 


(원본 : http://math7.tistory.com/55)


  • T 분포 = (정규분포)*sqrt(카이제곱 분포의 자유도) / (카이제곱분포W)
  • 자유도 = 카이 제곱 분포에서 표본 크기 -1
  • ※ 자유도는 (표본의 개수인 n)-1. (자유도=n-1) 로, 표본의 크기가 커질 수록, T분포는 정규분포에 근접하게 된다. 

그러니까는 정규분포 형태의 데이타가 있을떼, 이를 좀 더 넓은 예측 범위로 변환할 때 사용이 가능하다. T 분포는 실제 확률을 구할때는 사용하지 않고 신뢰구간이나 가설 검정을 할때 사용한다.


카이 제곱 분포

직접 확률을 구할때 보다는, 신뢰구간과 가설 검정, 적합도 검정, 동질성 검정, 그리고 독립성 검정등에 많이 사용된다.

(추가 조사 필요)


F 분포

분산을 추정하고 검정할 때 사용하는 분포

(추가 조사 필요)



참고 자료 (그림과, 공식, 대부분의 내용들은 다음 글들을 참고했습니다.)

확률 분포의 개념: http://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0%EB%B6%84%ED%8F%AC

확률론 : http://terms.naver.com/entry.nhn?docId=2098124&cid=44413&categoryId=44413

확률분포 : http://math7.tistory.com/ (통계학 이론이 정말 잘 정리 되어 있습니다. 추천)

정규분포 : http://terms.naver.com/entry.nhn?docId=779549&cid=42085&categoryId=42085

여러가지 분포를 R로 잘 설명해놓은 글 : http://zoonek2.free.fr/UNIX/48_R/07.html




저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

T분포 and 잡담


지난 주에 확률분포를 보고, 어디다 써먹어야 되는지... 고민이 많았는데.

받은 조언은

보통 정규분포를 많이 사용하고, T분포나, F분포, 카이제곱 분포는 검정(가설 검증)에 많이 사용한다는 의견이었는데.

 

오늘 손안의 통계를 보니까는 T 분포 예제가 나옵니다.

T 분포는 정규 분포와 형태가 비슷하지만, 중앙의 높이는 더 낮고, 양쪽옆의 높이는 더 높은 형태로

데이타 분포가 정규 분포에 비해서 조금 더 산개된 모양을 가지고 있습니다.

 

어디다 쓰는지 봤더니

모집단의 평균이나 분산 값을 알지 못할때, 표본의 평균과 분산으로 모집단의 평균등의 신뢰 구간을 측정하는데 T 분포를 사용합니다.

 

손안의 통계 33페이지에 보면

대졸 신입 사원의 초임 표본 평균을 75만원이라고 하고, 표본 표준편차가 5만원일때, 전체 모집단의 초임을 신뢰도 95% 신뢰도 구간으로 구하는 문제입니다.

 

이 경우, T 분포를 이용하여, T 분포 신뢰구간 95%를 구하면 72.9361~77.0.639 가 됨을 볼 수 있습니다.


예제보고 다시 위키에 나와 있는 T분포를 보니

"모집단의 분산을 모를때, 모집단의 평균을 추정하는데 사용됨"

이제 이해가되네..

저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

왜 표준편차에서 절대값을 사용하지 않고, 제곱을 사용할까?


표준 편차는 편차의 제곱의 평균이다. 표준편차는 평균에서 실제 값이 얼마나 떨어져 있는지를 나타내는 것인데, 일반적인 설명들을 보면, 편차가 음수(-) 가 나올 수 있기 때문에 이를 양수화 하기 위해서 제곱을 하였다고 설명을 한다. (특히 인강들...)

그렇다면 제곱을 하지 않고 절대값(Absolute)값의 평균을 내면 되지 않을까? 이를 절대편차라고 하는데, 이를 사용하지 않고 제곱을 한 표준 편차를 사용 하는 이유는?


평균편차 = sum(xi-mean(x))/n으로 [ (x1-mean(x)) + (x2-mean(x)) ...]/ n의 형태로 1차 함수의 형태를 띤다. 그래서 평균절대편차의 경우에는, 1차 함수로, 그래프에 대해서 불연속성이 있다. (그래프가 꺽인다.)



표준편차의 경우, 편차를 제곱을 한 2차 함수로, 그래프에 대한 연속성이 있으며, 미분등이 가능하여, 통계 이론을 전계하기가 용이하다.



(통계학에서는 어떤 모수의 대표값을 사용할때 불편성, 일치성, 충분성, 최소분산의 여부를 따져서 가장 분산이 작고 불편추정량이면서 일치추정량이고 모든 표본들의 정보를 포함하는데 충분한가에 대한 증명을 거친후에 그 값을 사용하는데 바로 표준편차가 이러한 통계량입니다. 평균편차는 이러한 조건을 만족하지 않는 경우가 생기게 됩니다. 이는 수리적으로 증명이 가능하지만 매우 복잡하기 때문에 생략하겠습니다. - http://kin.naver.com/qna/detail.nhn?d1id=11&dirId=1113&docId=56782389&qb=7Y+J6reg7KCI64yA7Y647LCoIOyZgCDtkZzspIDtjrjssKg=&enc=utf8&section=kin&rank=1&searc 인용 )


실제로 더 복잡한 의미를 가지고 있는 것 같은데, 이건 좀 연구를 해봐야 겠고 실제로 Gradient decent 법을 이용한 선형회귀 분석에서, 최소 오차값을 찾기 위해서, 표준편차 공식에서 샘플 데이타 xi에서 미분 값을 구해서, 최소 값을 찾아가는 것을 보면, 여러모로 봐서나, 2차 함수 형태가 조금 더 유리한듯.


추가 : http://navercast.naver.com/contents.nhn?rid=22&contents_id=844&leafId=22 네이버 캐스트에 정리된 내용인데, 사실 읽어도 잘 이해가 안되긴하는 내용인데, 답글들을 참고할만함


저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

근대 통계학의 개념과 유례

빅데이타/통계학 이론 | 2014.11.12 22:21 | Posted by 조대협

근대 통계학의 개념과 유례


통계학이란,(네이버 지식 백과 참고)-기술통계학과, 추론 통계학

통계학(統計學, statistics)은 주어진 자료에서 합계나 평균과 같이 필요한 정보를 계산하는 등 자료를 수집·정리·요약하는 기술통계학(記述統計學, descriptive statistics)표본(자료)에서 얻은 정보를 이용하여 모집단(자료를 뽑은 대상 전체)에 대한 정보를 예측하고 불확실한 사실에 대한 결론을 이끌어 내는 데 필요한 이론과 방법을 제시하는 추론통계학(推論統計學 , inferential statistics)으로 구성되어 있다.


통계학은 표본 그 자체보다는 모집단에 관심을 가지고 일부분으로 전체에 대한 정보를 알아내려고 하는 것이며 이러한 것을 통계적 추론(statistical inference)이라 한다. 부분으로 전체에 대한 정보를 구하다 보니 오차가 나타나며 이러한 오차를 줄이고 또한 오차의 크기를 계산하여 정보 이용자에게 제공하는 것이 통계학의 목적이라고 할 수 있다.


통계학은 응용수학(應用數學, applied mathematics)의 한 분야로써 관찰 및 조사를 통해 얻을 수 있는 불균형적인 데이터로부터 응용수학의 기법을 이용하여 데이터의 성질, 규칙성 또는 불규칙성을 찾아낸다.


근대 통계학의 아버지 케틀레

근대 통계학은 19세기에 벨기에 천문학자 케틀레 아돌프 자크 케틀레 (Lambert Adolphe Jacque Quetelet) 에 의해서 정립 되었는데,

케틀레17세부터 아이들에게 수학을 가르키고, 23세에 박사 학위를 받았다. (아마 천재인듯)



17~18세기에는 천문학이 발전하는 시기였고, 이때문에, 천체의 움직임을 정확하게 측정하기 위해서 물리학이 함께 발전했던 시기 였다. 이때 천문학자들이 동일한 측량에도 불구하고 오차가 발생하는 것을 줄이기 위해서 통계학의 개념이 발전하게 되었다.

이 시기에 케틀레는 천문학을 공부하면서 자연스럽게 통계학을 배우게 되고, 이런 자연 통계학의 개념을 사회 통계학의 개념에 적용 시켰는데, 


자연통계학에서 근대 통계학으로의 발전

"1835년에 케틀레는 《인간과 능력 개발에 대하여 Sur l’homme et le developpement de ses faculte s, ou essai de physique sociale》을 발표하게 됩니다. 이는 인구통계와 범죄통계를 연구하여 구현상 이외의 도덕현상이나 범죄현상 같은 무질서해 보이는 사회현상에 있어서도 일종의 규칙성이 존재한다는 것을 증명한 연구였습니다. 케틀레는 월별ㆍ지역별ㆍ기온별ㆍ시간별 출생률과 연령ㆍ직업ㆍ지역ㆍ계절과 장소에 따른 사망률을 조사하며 신장과 체중ㆍ성장률ㆍ음주와 정신병력 여부, 자살ㆍ범죄 등도 변수에 넣어 계산한 끝에, 어떤 사회에서의 출생률과 사망률, 자살자의 수 등이 매년 거의 일정하다는 사실을 발견하였습니다. 그리고 인간특질측정이 정규분포 확률곡선에 따라 그 값 주위로 나타나는 중간 값을 기준으로 '보통사람'의 개념을 나타내어 평균인의 개념을 도입하였습니다. 케틀레의 이 연구를 기점으로 범죄 같은 자발적 행위가 모순 없이 수로 표시되는 그의 연구로 '도덕통계학'의 광범위한 연구와 자유의지설 대 사회결정론의 폭넓은 토론이 발전되었습니다."

즉 랑베르에 의해서, 자연 통계학이 사회 현상에도 적용 가능하다는 사실을 밝히면서 기존의 자료나 사실을 근거로 하여 자료에서 의미를 찾아내는 통계에서, 불확실성을 기반으로 미래를 예측하거나 표본 집단을 통해서 전체를 예측하는, 예측 기반의 근대 통계학이 성립되어 간것이다.



참고

- http://hikostat.kr/1986

- http://terms.naver.com/print.nhn?docId=2164900&cid=44413&categoryId=44413

저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

평균,표준편차,분산의 개념

빅데이타/통계학 이론 | 2014.11.12 01:18 | Posted by 조대협

표준 편차의 개념


쉽게 말하면 평균(mean) 에 대한 오차이이다. 즉 , 실제 데이타 값이 평균을 기준으로 할때 얼마나 들쭉 날쭉하냐를 나타내는 것이다. 평균이 m이고, 표준편차가 3이라고 할때, 실제 값은 m+-3 값이라는 것이다.


먼저 편차랑, 원래의 값에서 평균을 뺀 값인데, 편차는 +도 될 수 있고, -도 될 수 있다.

그러면 우리가 구하고자 하는 표준편차라는 것은 평균 값이 실제 값에서 부터 얼마나의 오류가 있느냐 인데

예를 들어 4개의 데이타가 있을 때 평균을 m이라고 가정하고, 각 값이 m+1,m-2,m+3,m-4 라고 할때

편차의 합은 실제로 1+2+3+4=10 이 되야 하지만, 실제 값이 -2,-4 가 있기 때문에, (값-m)을 합한 값으로 계산해보면 1-2+3-4로 전혀 엉뚱한 값이 나온다.

그래서 이 음수를 양수화해야 하는데, 그러한 방법중의 하나가 제곱이다.

편차들을 합하기전에 제곱을 해서 합하면 1+4+9+16이된다. 이것이 바로 분산(Variance)으로 "편차의 제곱의 합"이다.


그렇다면 분산(Variance)을 바로 쓰지 않고, 표준편차를 구하는 이유는? 

분산은 편차에 제곱을 하여 계산을 하였기 때문에, 실제  값에서 너무 멀어져 있다. 그래서 실제 값으로 근접 시키기 위해서 제곱근(루트)를 씌워준 것이다. (분산에서 제곱했으니, 반대로 제곱근을 씌운다.)

즉 분산에 루트를 씌운것이 표준 편차(Standard deviation) 이며, 이 표준편차는 평균으로 부터 원래 데이타에 대한 오차범위의 근사값이다. (원래 데이타로 부터의 오차의 범위는 편차의 절대값들에 대한 평균값으로 절대편차라고 하며 Absolute deviation, 표준 편차와 값이 다소 다르지만, 평균값으로 부터의 얼마나 오차가 있는지를 표현한다는 의미에서는 같다. 그러면 왜 절대편차를 사용하지 않고 표준 편차를 사용하는가는 다른 글에서 다루도록 한다. 결론만 말하자면, 제곱을 한 표준편차가 모델링과 각종 통계 수식을 응용하기에 용이하다)


여기서 평균,분산,표준편차의 개념에서 모집단과 표본의 개념을 짚고 넘어갈 필요가 있다.


통계학이란 굳이 다 조사하지 않더라도, 대충의 결과를 알 수 있다. 일종의 prediction 의 개념이다.

조사대상인 모집단(population) 전체를 조사하는 경우를 전수조사라고 한다.

모집단이 커서 전수조사가 어려운 경우, 집단의 특성을 추정하기 위해서 일부 표본(sample)만 추출하여 하는 조사를 표본조사라고 한다. 이렇게 표본을 조사함으로써, 원래 모집단의 특성을 추측하는 것을 추정이라고 한다. (근대 통계학의 추론통계학 - inferential statistics의 개념 )


※ 표본을 추출하는데도 여러가지 방법이 있다

 단순임의추출(simple random sampling) : 항아리에 공을 넣고, 아무 공이나 꺼낸다.

- 복원 추출(sampling with replacement) : 항아리에서 공을 꺼낸 후, 꺼낸 공을 다시 넣고 공을 꺼낸다.

- 비복원 추출(sampling without replacement) : 항아리에서 공을 꺼낸 후 다시 넣지 않고 다른 공을 꺼낸다.


그외에도 층화 임의 추출(Stratified random sampling),포아송 추출 ,계통 추출(Systematic sampling)

표본 추출 방법에 대해서는 나중에 다시 다룬다.


※ 이 개념을 보니, 선형회귀에서 Gradient decent는 표본 추출을 통해서, 최 근접 모델을 찾는 방법이다.


이렇게 평균,표준편차,분산에 대해서 이것이 모집단에 대한 값이냐 표본에 대한 값이냐를 구별하기 위해서 기호를 분리 따로 사용하는데


표본 평균은 사실 고정값이 아니라, 표본의 크기에 따라 변화는 일종의 확률변수이다.

이 표본평균의 확률변수의 개념과, 표본 추출 방식 그리고, 분포에 대해서 다음에 또 정리하기로 한다.


참고 자료 : 


- http://m.blog.naver.com/dalsapcho/20147545698
- http://www.youtube.com/watch?v=b3O-dUlyl54
- http://math7.tistory.com/14

분산과 표준편차를 확률변수의 개념으로 설명한 내용 http://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0


저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

행렬식과 크라머의 정리

빅데이타/통계학 이론 | 2014.11.11 23:00 | Posted by 조대협

R을 공부하면서, 행렬에 대해서 보다 보니, 행렬식이라는 것이 나오는데, 이걸 어디다 왜 쓰는지를 모르겠더라, 역행렬을 구하는데 사용은 되는데, 다른 용도가 무엇이 있는지 찾아보니, 이 행렬식을 이용해서 다차방정식을 쉽게 풀어낼 수 있는 크래머의 정리라는 것이 있다.


먼저 행렬식이란, 다음과 같은 행렬이 있을때

|a b|

|c d|

ad-bc의 값을 행렬식이라 한다, 2차 정방행렬뿐 아니라 n차 정방행렬의 경우 이 행렬식의 값을 구할 수 있다.

3차이상의 행렬식 값을 구하는 것은 별도로 공식을 표기 하지 않겠다. 왜? 그냥R로 계산하면 되니까.


크라머의 정리란 (Cramer's rule)이란 다차원 방정식을 이 행렬식으로 구하는 방식인데,

다음과 같인 일차원 다차 방정식이 있다고 할때, 





이 방정식은 다음과 같이 행렬의 곱으로 나타낼 수 있다.



A*x=b

여기서 x의 해를 구하는 방법은

열벡터 x의 각값을 x(i)이라고 할때


x(i) = det(Ai)/det(A) 가 된다.


det(A)는 행렬 A의 행렬식 값이며

det(Ai)는 A의 i번째 열을 열벡터 b로 바꾼 행렬릐 행렬식이다.


계산기가 없을때는 편하겠지만, 사실 R을 사용할때는 x = (A의 역행렬)*b이기 때문에 별도로 사실상 크라머의 공식을 쓸일은 없을 듯


추가,

또한 행렬식은

2차 정방 행렬에서, 두개의 열벡터로 이루어진 평면 도형의 내적을

3차 정방 행렬에서, 세개의 열벡터로 이루어진 입체의 부피를 나타낸다.



저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

Vectorization (수열의 행렬화)

빅데이타/통계학 이론 | 2014.11.04 21:58 | Posted by 조대협

행렬 A=[1 2 3 4 5] 가 있고, 행렬 B = [6 7 8 9 10] 이 있을 때

Sum(A(i) * B(i))의 값 1*6+2*7+…. 는 일반적으로

for(i=1;i<=5;i++) sum += A(i)+B(i) 가 된다.

이게 일반적인 프로그래밍 방식으면, 이런 공식을 행렬화하여 계산하는 것을 Vectorization이라고 한다.

Sum(A(i) * B(i)) = A+transpose(B)  로 표현할 수 있다.


이렇게 Vectorization을 하면서 얻을 수 있는 장점은 실제 코딩의 양을 줄일뿐 만아니라, 벡터 계산은 병렬 계산이 가능하기 때문에, Multi core를 잘 활용할 수 있다는 장점도 있으며

CPU 자체가 한클럭에 여러 계산이 가능하다.

일반적으로 64 bit cpu register를 앞의 일반적인 방식으로 계산하면 Register RxA,RxB,RxC에 대해서 RxC = RxC + (RxA:=A(i) ) * (RxB:=B(i)) 를 계산해서 한 클럭에 즉 1*6 공식 하나만 처리가 가능하다

그러나 Vectorization을 하면 64 bit register 16bit 4개의 sub register로 나눠서

RxB = [ 1 2 3 4]

RxB = [6 7 8 9]

로 해서 한클럭에 1*6+2*7+3*8+4*9 4개의 의 연산을 처리할 수 있기 때문에 빠른 속도를 낼 수 있다.

 

Coursera 강의 2주차 Octave강의 中


대부분의 수식 계산은 벡터화를 어떻게 하는가가 관건인듯


관련글

  • http://www.matlabtips.com/the-art-of-vectorizing-part-1/
  • http://www.matlabtips.com/the-art-of-vectorizing-part-2/
  • http://www.matlabtips.com/the-art-of-vectorizing-part-3/
저작자 표시 비영리
신고
크리에이티브 커먼즈 라이선스
Creative Commons License
 

티스토리 툴바