빅데이타 & 머신러닝/머신러닝

맨땅에 해딩 머신러닝 #2 - 선형 회귀 모델 (1)

Terry Cho 2014. 11. 2. 01:40

Linear Regression (선형 회귀 문제)

선형 회귀 문제란, 데이타의 분포를 분석하였을때, y=a1+a2x와 같은 선형 그래프 형태로 정의될 수 있는 문제를 이야기 한다.
“집 평수에 따른 가격” 문제로 다시 돌아와보자.
다음과 같은 트레이닝 셋(Training Set)데이터가 있다고 하자


 

평수 (x)

가격 (y)

2104

460

1416

232

1534

315


예를 들면, 이 트레이닝 셋에서 x1 = 2104가 되고,x3=1534가 된다. 그리고 y^2=232가 된다.

그러면 머신러닝은 아래 그림을 이해하면 전체 개념을 잡을 수 있다.



그러면 머신 러닝이 어떤 흐름으로 작동하는지를 살펴보자.




Hypothesis(추론)는 추론 알고리즘의 집합으로, Hypothesis h는 Feature를 넣으면 Targeted value를 계산 해주는 일종의 공식이다.

실제 아파트 평수 x’을 넣으면 예측되는 가격 y’을 리턴해주는 개념인데, 이 Hypothesis h는 말 그대로 추론 값으로 어떤 정확한 예측 가격이 있을 수 없다. 다만 예측의 정확도를 높이는 것이 머신 러닝인데, Training Set을 러닝 알고리즘 (Learning Algorithm)을 이용하여 지속적으로 학습을 하여 최적의 h를 찾는 것이 머신 러닝이다.

위의 “집 평수에 대한 가격” 문제를 그래프로 표현해보면 다음과 같다


붉은 x표가 트레이닝 셋을 표시한것으로, 이 셋들 기반으로 대략적인 가격 함수를 예측해보면, 연두색으로 그려진 직선 그래프가 가격 예측 함수가 된다.

수식으로 표현하면



된다.

  기본 가격 (위의 그래프에서는 대략 100)   평수에 대한 가격 증대분으로 위의 그래프에서는 대략 1정도가 된다.

그래서



있는데, 그래프에서 계산된 , 트레이닝 셋의 targeted value 가격 y와의 차이가 최소화되어야 한다.

그래서 Hypothecs 함수 h 아래 연두색 그래프와 같이   따라 여러 h 가질 있다.



그리고 최종적인 목적은 앞에서도 설명했듯이 Hypotheis h는  

대해서

트레이닝 셋의 input variable  xi 대해서 예측된 값과 트레이닝 셋에 정의된 Targeted value값과의 차이가 가장 작은

구해 내는 것이다.

수식으로 나타내면  

된다.( 수식에 대해서는 나중에 다시 설명하도록 한다.)