Linear Regression (선형 회귀 문제)
평수 (x) |
가격 (y) |
2104 |
460 |
1416 |
232 |
1534 |
315 |
예를 들면, 이 트레이닝 셋에서 x1 = 2104가 되고,x3=1534가 된다. 그리고 y^2=232가 된다.
그러면 머신러닝은 아래 그림을 이해하면 전체 개념을 잡을 수 있다.
그러면 머신 러닝이 어떤 흐름으로 작동하는지를 살펴보자.
Hypothesis(추론)는 추론 알고리즘의 집합으로, Hypothesis h는 Feature를 넣으면 Targeted value를 계산 해주는 일종의 공식이다.
실제 아파트 평수 x’을 넣으면 예측되는 가격 y’을 리턴해주는 개념인데, 이 Hypothesis h는 말 그대로 추론 값으로 어떤 정확한 예측 가격이 있을 수 없다. 다만 예측의 정확도를 높이는 것이 머신 러닝인데, Training Set을 러닝 알고리즘 (Learning Algorithm)을 이용하여 지속적으로 학습을 하여 최적의 h를 찾는 것이 머신 러닝이다.
위의 “집 평수에 대한 가격” 문제를 그래프로 표현해보면 다음과 같다
붉은 x표가 트레이닝 셋을 표시한것으로, 이 셋들 기반으로 대략적인 가격 함수를 예측해보면, 연두색으로 그려진 직선 그래프가 가격 예측 함수가 된다.
수식으로 표현하면
가 된다.
는 기본 가격 (위의 그래프에서는 대략 100) 은 평수에 대한 가격 증대분으로 위의 그래프에서는 대략 1정도가 된다.
그래서
가 될 수 있는데, 이 그래프에서 계산된 값, 트레이닝 셋의 targeted value인 가격 y와의 차이가 최소화되어야 한다.
그래서 이 Hypothecs 함수 h는 아래 연두색 그래프와 같이 에 따라 여러 h를 가질 수 있다.
그리고 최종적인 목적은 앞에서도 설명했듯이 Hypotheis h는
에 대해서
트레이닝 셋의 input variable xi에 대해서 예측된 값과 트레이닝 셋에 정의된 Targeted value값과의 차이가 가장 작은
를 구해 내는 것이다.
수식으로 나타내면
이 된다.(※ 이 수식에 대해서는 나중에 다시 설명하도록 한다.)
'빅데이타 & 머신러닝 > 머신러닝' 카테고리의 다른 글
머신러닝 개념 소개 및 kNN 알고리즘 소개 (3) | 2015.03.22 |
---|---|
머신러닝 프레임웍에 대한 간단 메모 (1) | 2015.02.11 |
Numpy Install (1) | 2015.02.10 |
맨땅에 해딩 머신러닝 #1-기본 개념 잡기 (1) | 2014.10.30 |
머신러닝 관련 온라인 강좌 사이트 (4) | 2014.10.14 |