블로그 이미지
평범하게 살고 싶은 월급쟁이 기술적인 토론 환영합니다.같이 이야기 하고 싶으시면 부담 말고 연락주세요:이메일-bwcho75골뱅이지메일 닷컴. 조대협


Archive»


 
 

왜 표준편차에서 절대값을 사용하지 않고, 제곱을 사용할까?


표준 편차는 편차의 제곱의 평균이다. 표준편차는 평균에서 실제 값이 얼마나 떨어져 있는지를 나타내는 것인데, 일반적인 설명들을 보면, 편차가 음수(-) 가 나올 수 있기 때문에 이를 양수화 하기 위해서 제곱을 하였다고 설명을 한다. (특히 인강들...)

그렇다면 제곱을 하지 않고 절대값(Absolute)값의 평균을 내면 되지 않을까? 이를 절대편차라고 하는데, 이를 사용하지 않고 제곱을 한 표준 편차를 사용 하는 이유는?


평균편차 = sum(xi-mean(x))/n으로 [ (x1-mean(x)) + (x2-mean(x)) ...]/ n의 형태로 1차 함수의 형태를 띤다. 그래서 평균절대편차의 경우에는, 1차 함수로, 그래프에 대해서 불연속성이 있다. (그래프가 꺽인다.)



표준편차의 경우, 편차를 제곱을 한 2차 함수로, 그래프에 대한 연속성이 있으며, 미분등이 가능하여, 통계 이론을 전계하기가 용이하다.



(통계학에서는 어떤 모수의 대표값을 사용할때 불편성, 일치성, 충분성, 최소분산의 여부를 따져서 가장 분산이 작고 불편추정량이면서 일치추정량이고 모든 표본들의 정보를 포함하는데 충분한가에 대한 증명을 거친후에 그 값을 사용하는데 바로 표준편차가 이러한 통계량입니다. 평균편차는 이러한 조건을 만족하지 않는 경우가 생기게 됩니다. 이는 수리적으로 증명이 가능하지만 매우 복잡하기 때문에 생략하겠습니다. - http://kin.naver.com/qna/detail.nhn?d1id=11&dirId=1113&docId=56782389&qb=7Y+J6reg7KCI64yA7Y647LCoIOyZgCDtkZzspIDtjrjssKg=&enc=utf8&section=kin&rank=1&searc 인용 )


실제로 더 복잡한 의미를 가지고 있는 것 같은데, 이건 좀 연구를 해봐야 겠고 실제로 Gradient decent 법을 이용한 선형회귀 분석에서, 최소 오차값을 찾기 위해서, 표준편차 공식에서 샘플 데이타 xi에서 미분 값을 구해서, 최소 값을 찾아가는 것을 보면, 여러모로 봐서나, 2차 함수 형태가 조금 더 유리한듯.


추가 : http://navercast.naver.com/contents.nhn?rid=22&contents_id=844&leafId=22 네이버 캐스트에 정리된 내용인데, 사실 읽어도 잘 이해가 안되긴하는 내용인데, 답글들을 참고할만함


본인은 구글 클라우드의 직원이며, 이 블로그에 있는 모든 글은 회사와 관계 없는 개인의 의견임을 알립니다.

댓글을 달아 주세요

  1. 안녕하세요 2015.03.30 22:50  댓글주소  수정/삭제  댓글쓰기

    평균절대편차 같은 경우 만약 모집단이 아닌 표본이라면 n-1로 나누어주어야 하나요?

  2. mypersona 2016.04.22 18:28  댓글주소  수정/삭제  댓글쓰기

    미분가능한 함수의 경우 근사해를 편미분을 통해 찾을 수 있기 때문이겠죠, 주로 통계학에서 보면 미정계수를 찾는 경우 미분방정식을 해가 최대 최소 값이 되는 것 같습니다.

  3. 안녕하세요요 2016.06.11 00:42  댓글주소  수정/삭제  댓글쓰기

    절대편차의 경우 그래프가 불연속이라 하셨는데 연속은 맞고 미분 불가로 바꾸어야 하지 않을까요?

  4. 헥헥 2016.11.30 13:17  댓글주소  수정/삭제  댓글쓰기

    '표준편차는 편차제곱평균의 제곱근'으로 고치셔야할 듯

평균,표준편차,분산의 개념

빅데이타/통계학 이론 | 2014. 11. 12. 01:18 | Posted by 조대협

표준 편차의 개념


쉽게 말하면 평균(mean) 에 대한 오차이이다. 즉 , 실제 데이타 값이 평균을 기준으로 할때 얼마나 들쭉 날쭉하냐를 나타내는 것이다. 평균이 m이고, 표준편차가 3이라고 할때, 실제 값은 m+-3 값이라는 것이다.


먼저 편차랑, 원래의 값에서 평균을 뺀 값인데, 편차는 +도 될 수 있고, -도 될 수 있다.

그러면 우리가 구하고자 하는 표준편차라는 것은 평균 값이 실제 값에서 부터 얼마나의 오류가 있느냐 인데

예를 들어 4개의 데이타가 있을 때 평균을 m이라고 가정하고, 각 값이 m+1,m-2,m+3,m-4 라고 할때

편차의 합은 실제로 1+2+3+4=10 이 되야 하지만, 실제 값이 -2,-4 가 있기 때문에, (값-m)을 합한 값으로 계산해보면 1-2+3-4로 전혀 엉뚱한 값이 나온다.

그래서 이 음수를 양수화해야 하는데, 그러한 방법중의 하나가 제곱이다.

편차들을 합하기전에 제곱을 해서 합하면 1+4+9+16이된다. 이것이 바로 분산(Variance)으로 "편차의 제곱의 합"이다.


그렇다면 분산(Variance)을 바로 쓰지 않고, 표준편차를 구하는 이유는? 

분산은 편차에 제곱을 하여 계산을 하였기 때문에, 실제  값에서 너무 멀어져 있다. 그래서 실제 값으로 근접 시키기 위해서 제곱근(루트)를 씌워준 것이다. (분산에서 제곱했으니, 반대로 제곱근을 씌운다.)

즉 분산에 루트를 씌운것이 표준 편차(Standard deviation) 이며, 이 표준편차는 평균으로 부터 원래 데이타에 대한 오차범위의 근사값이다. (원래 데이타로 부터의 오차의 범위는 편차의 절대값들에 대한 평균값으로 절대편차라고 하며 Absolute deviation, 표준 편차와 값이 다소 다르지만, 평균값으로 부터의 얼마나 오차가 있는지를 표현한다는 의미에서는 같다. 그러면 왜 절대편차를 사용하지 않고 표준 편차를 사용하는가는 다른 글에서 다루도록 한다. 결론만 말하자면, 제곱을 한 표준편차가 모델링과 각종 통계 수식을 응용하기에 용이하다)


여기서 평균,분산,표준편차의 개념에서 모집단과 표본의 개념을 짚고 넘어갈 필요가 있다.


통계학이란 굳이 다 조사하지 않더라도, 대충의 결과를 알 수 있다. 일종의 prediction 의 개념이다.

조사대상인 모집단(population) 전체를 조사하는 경우를 전수조사라고 한다.

모집단이 커서 전수조사가 어려운 경우, 집단의 특성을 추정하기 위해서 일부 표본(sample)만 추출하여 하는 조사를 표본조사라고 한다. 이렇게 표본을 조사함으로써, 원래 모집단의 특성을 추측하는 것을 추정이라고 한다. (근대 통계학의 추론통계학 - inferential statistics의 개념 )


※ 표본을 추출하는데도 여러가지 방법이 있다

 단순임의추출(simple random sampling) : 항아리에 공을 넣고, 아무 공이나 꺼낸다.

- 복원 추출(sampling with replacement) : 항아리에서 공을 꺼낸 후, 꺼낸 공을 다시 넣고 공을 꺼낸다.

- 비복원 추출(sampling without replacement) : 항아리에서 공을 꺼낸 후 다시 넣지 않고 다른 공을 꺼낸다.


그외에도 층화 임의 추출(Stratified random sampling),포아송 추출 ,계통 추출(Systematic sampling)

표본 추출 방법에 대해서는 나중에 다시 다룬다.


※ 이 개념을 보니, 선형회귀에서 Gradient decent는 표본 추출을 통해서, 최 근접 모델을 찾는 방법이다.


이렇게 평균,표준편차,분산에 대해서 이것이 모집단에 대한 값이냐 표본에 대한 값이냐를 구별하기 위해서 기호를 분리 따로 사용하는데


표본 평균은 사실 고정값이 아니라, 표본의 크기에 따라 변화는 일종의 확률변수이다.

이 표본평균의 확률변수의 개념과, 표본 추출 방식 그리고, 분포에 대해서 다음에 또 정리하기로 한다.


참고 자료 : 


- http://m.blog.naver.com/dalsapcho/20147545698
- https://www.youtube.com/watch?v=b3O-dUlyl54
- http://math7.tistory.com/14

분산과 표준편차를 확률변수의 개념으로 설명한 내용 http://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0


본인은 구글 클라우드의 직원이며, 이 블로그에 있는 모든 글은 회사와 관계 없는 개인의 의견임을 알립니다.

댓글을 달아 주세요

  1. Seung Hyun Jang 2020.02.12 20:23  댓글주소  수정/삭제  댓글쓰기

    설명해주신 거 잘 보고 갑니다. 도움 많이 되었습니다. 감사합니다.