빅데이타 & 머신러닝/머신러닝

수학포기자를 위한 딥러닝-#3 텐서플로우로 선형회귀 학습을 구현해보자

Terry Cho 2016. 10. 5. 23:43

수포자를 위한 딥러닝


#3 - 텐서플로우로 선형회귀 학습을 구현해보자


조대협 (http://bcho.tistory.com)


앞에서 살펴본 선형 회귀(Linear regression) 머신 러닝 모델을 실제 프로그래밍 코드를 만들어서 학습을 시켜보자. 여러가지 언어를 사용할 수 있지만, 이 글에서는 텐서플로우를 기반으로 설명한다.

텐서플로우 개발 환경 셋업

텐서 플로우 개발 환경을 설정하는 방법은 여러가지가 있지만, 구글 클라우드의 데이타랩 (datalab)환경을 사용하기로 한다. 텐서플로우 환경을 설정하려면 파이썬 설치 및 연관된 수학 라이브러리를 설치해야 하는 등 설치가 까다롭기 때문에, 구글 클라우드에서 제공하는 파이썬 노트북 (Jupyter 노트북 : http://jupyter.org/ ) 이 패키징 된 도커 이미지를 사용하기로 한다.

파이썬 노트북은 일종의 위키나 연습장 같은 개념으로 연산등에 필요한 메모를 해가면서 텐서 플로우나 파이썬 코드도 적어넣고 실행도 할 수 있기 때문에 데이타 관련 작업을 하기 매우 편리하다.

또한 도커로 패키징된 데이타랩 환경은 로컬에서나 클라우드 등 아무곳에서나 실행할 수 있기 때문에 편리하고 별도의 과금이 되지 않기 때문에 편리하게 사용할 수 있다.

구글 클라우드 계정 및 프로젝트 생성

GCP 클라우드를 사용하기 위해서는 구글 계정에 가입한다. 기존에 gmail 계정이 있으면 gmail 계정을 사용하면 된다. http://www.google.com/cloud 로 가서, 좌측 상당에 Try it Free 버튼을 눌러서 구글 클라우드에 가입한다.





다음 콘솔에서 상단의 Google Cloud Platform 을 누르면 좌측에 메뉴가 나타나는데, 메뉴 중에서 “결제" 메뉴를 선택한후 결제 계정 추가를 통해서 개인 신용 카드 정보를 등록한다.



개인 신용 카드 정보를 등록해야 모든 서비스를 제한 없이 사용할 수 있다.  단 Trial의 경우 자동으로 한달간 300$의 비용을 사용할 수 있는 크레딧이 자동으로 등록되니, 이 범위를 넘지 않으면 자동으로 결제가 되는 일이 없으니 크게 걱정할 필요는 없다.

프로젝트 생성

계정 생성 및 결제 계정 세팅이 끝났으면 프로젝트를 생성한다.

프로젝트는 VM이나 네트워크 자원, SQL등 클라우드 내의 자원을 묶어서 관리하는 하나의 집합이다. 여러 사람이 하나의 클라우드를 사용할때 이렇게 프로젝트를 별도로 만들어서 별도로 과금을 하거나 각 시스템이나 팀별로 프로젝트를 나눠서 정의하면 관리하기가 용이하다.


화면 우측 상단에서 프로젝트 생성 메뉴를  선택하여 프로젝트를 생성한다.




프로젝트 생성 버튼을 누르면 아래와 같이 프로젝트 명을 입력 받는 창이 나온다. 여기에 프로젝트명을 넣으면 된다.

도커 설치

이 글에서는 로컬 맥북 환경에 데이타랩을 설치하는 방법을 설명한다.

데이타 랩은 앞에서 언급한것과 같이 구글 클라우드 플랫폼 상의 VM에 설치할 수 도 있고, 맥,윈도우 기반의 로컬 데스크탑에도 설치할 수 있다. 각 플랫폼별 설치 가이드는  https://cloud.google.com/datalab/docs/quickstarts/quickstart-local 를 참고하기 바란다. 이 문서에서는 맥 OS를 기반으로 설치하는 방법을 설명한다.


데이타 랩은 컨테이너 솔루션인 도커로 패키징이 되어 있다. 그래서 도커 런타임을 설치해야 한다.

https://www.docker.com/products/docker 에서 도커 런타임을 다운 받아서 설치한다.

도커 런타임을 설치하면 애플리케이션 목록에 다음과 같이 고래 모양의 도커 런타임 아이콘이 나오는 것을 확인할 수 있다.

하나 주의할점이라면 맥에서 예전의 도커 런타임은 오라클의 버추얼 박스를 이용했었으나, 제반 설정등이 복잡하기 때문에, 이미 오라클 버추얼 박스 기반의 도커 런타임을 설치했다면 이 기회에, 도커 런타임을 새로 설치하기를 권장한다.

다음으로 도커 사용을 도와주는 툴로 Kitematic 이라는 툴을 설치한다. (https://kitematic.com/) 이 툴은 도커 컨테이너에 관련한 명령을 내리거나 이미지를 손쉽게 관리할 수 있는 GUI 환경을 제공한다.


구글 클라우드 데이타 랩 설치

Kitematic의 설치가 끝났으면 데이타랩 컨테이너 이미지를 받아서 실행해보자, Kitematic 좌측 하단의 “Dokcer CLI” 버튼을 누르면, 도커 호스트 VM의 쉘 스크립트를 수행할 수 있는 터미널이 구동된다.



터미널에서 다음 명령어를 실행하자


docker run -it -p 8081:8080 -v "${HOME}:/content" \

 -e "PROJECT_ID=terrycho-firebase" \

 gcr.io/cloud-datalab/datalab:local


데이타랩은 8080 포트로 실행이 되고 있는데, 위에서 8081:8080은  도커 컨테이너안에서 8080으로 실행되고 있는 데이타 랩을 외부에서 8081로 접속을 하겠다고 정의하였고, PROJECT_ID는 데이타랩이 접속할 구글 클라우드 프로젝트의 ID를 적어주면 된다. 여기서는 terrycho-firebase를 사용하였다.

명령을 실행하면, 데이타랩 이미지가 다운로드 되고 실행이 될것이다.

실행이 된 다음에는 브라우져에서 http://localhost:8081로 접속하면 다음과 같이 데이타랩이 수행된 것을 볼 수 있다.


학습하기

이제 텐서 플로우 기반의 머신러닝을 위한 개발 환경 설정이 끝났다. 이제 선형 회귀 모델을 학습 시켜보자

테스트 데이타 만들기

학습을 하려면 데이타가 있어야 하는데, 여기서는 랜덤으로 데이타를 생성해내도록 하겠다. 다음은 데이타를 생성하는 텐서 플로우코드이다.

텐서 플로우 자체에 대한 설명과 문법은 나중에 기회가 되면 별도로 설명하도록 하겠다.


import numpy as np

num_points = 200

vectors_set = []

for i in xrange(num_points):

 x = np.random.normal(5,5)+15

 y =  x*1000+ (np.random.normal(0,3))*1000

 vectors_set.append([x,y])

 

x_data = [v[0] for v in vectors_set ]

y_data = [v[1] for v in vectors_set ]


for 루프에서 xrange로 200개의 샘플 데이타를 생성하도록 하였다.

x는 택시 주행거리로,  정규 분포를 따르는 난수를 생성하되 5를 중심으로 표준편차가 5인 데이타를 생성하도록 하였다. 그래프를 양수로 만들기 위해서 +15를 해주었다.

다음으로 y값은 택시비인데, 주행거리(x) * 1000 + 정규 분포를 따르는 난수로 중심값은 0, 그리고 표준편차를 3으로 따르는 난수를 생성한후, 이 값에 1000을 곱하였다.

x_data에는 x 값들을, 그리고 y_data에는 y값들을 배열형태로 저장하였다.


값들이 제대로 나왔는지 그래프를 그려서 확인해보자. 아래는 그래프를 그리는 코드이다.

Pyplot이라는 모듈을 이용하여 plot이라는 함수를 이용하여 그래프를 그렸다. Y축은 0~40000, X축은 0~35까지의 범위를 갖도록 하였다.

import matplotlib.pyplot as plt

plt.plot(x_data,y_data,'ro')

plt.ylim([0,40000])

plt.xlim([0,35])

plt.xlabel('x')

plt.ylabel('y')

plt.legend()

plt.show()

그려진 그래프의 모양은 다음과 같다.


학습 로직 구현 

이제 앞에서 생성한 데이타를 기반으로해서 선형 회귀 학습을 시작해보자. 코드는 다음과 같다.


import tensorflow as tf


W = tf.Variable(tf.random_uniform([1],-1.0,1.0))

b = tf.Variable(tf.zeros([1]))

y = W * x_data + b


loss = tf.reduce_mean(tf.square(y-y_data))

optimizer = tf.train.GradientDescentOptimizer(0.0015)

train = optimizer.minimize(loss)


init = tf.initialize_all_variables()

sess = tf.Session()

sess.run(init)


for step in xrange(10):

 sess.run(train)

 print(step,sess.run(W),sess.run(b))

 print(step,sess.run(loss))

 

 plt.plot(x_data,y_data,'ro')

 plt.plot(x_data,sess.run(W)*x_data + sess.run(b))

 plt.xlabel('x')

 plt.ylabel('y')

 plt.legend()

 plt.show()


W의 초기값은 random_uniform으로 생성을 한다. 초기값은 -1.0~1.0 사이의 값으로 생성하도록 하였다.

( radom_uniform 에서 첫번째 인자 [1]은 텐서의 차원을 설명하는데, 1은 1차원으로 배열과 같은 형태가 2는 2차원으로 행렬과 같은 형태, 3은 3차원 행렬 행태가 된다.)

다음 b는 tf.zeros([1])으로 정의했는데, 1차원 텐서로 값이 0이 된다. (zeros)

학습을 하고자 하는 공식 (가설은) y = W * x_data + b 이 된다.


다음으로 코스트 함수와 옵티마이져를 지정하는데, 코스트 함수는 앞 글에서 설명한것과 같이 

가설에 의해 계산된 값 y에서 측정값 y_data를 뺀후에, 이를 제곱하여 평균한 값이다. 코드로 옮기면 다음과 같다.

loss = tf.reduce_mean(tf.square(y-y_data))


코스트 함수에서 최소 값을 구하기 위해서 옵티마이저로 경사하강법 (Gradient descent) 알고리즘을 사용하기 때문에, 옵티마이저로 tf.train.GradientDescentOptimizer(0.0015) 과 같이 지정하였다. 인자로 들어가는 0.0015는 경사 하강법에서 학습 단계별로 움직이는 학습 속도를 정의하는 것으로 러닝 레이트 (Learning rate라고 한다)) 이 내용은 뒤에서 다시 자세하게 설명하겠다.

코스트 함수와 옵티마이져(Gradient descent)가 정의되었으면 트레이닝 모델에 적용한다.

train = optimizer.minimize(loss)

는 경사 하강법(Gradient descent) 을 이용하여 코스트 함수 (loss)가 최소가 되는 값을 찾으라는 이야기이다.


다음 코드에서는 for loop로 학습을 10번을 반복해가면서 학습을 하라는 이야기로,

for step in xrange(10):

 sess.run(train)

 print(step,sess.run(W),sess.run(b))

 print(step,sess.run(loss))


학습 단계별로, W,b값 그리고 loss의 값을 화면으로 출력하도록 하였다.

그리고 학습이 어떻게 되는지 그래프로 표현하기 위해서

 plt.plot(x_data,sess.run(W)*x_data + sess.run(b))

X_data를 가로축으로 하고, W*x_data + b의 값을 그래프로 출력하도록 하였다.


이렇게 해서 학습을 진행하면 다음과 같은 그래프가 순차적으로 출력되는 것을 확인할 수 있다.


그래프가 점점 데이타의 중앙에 수렴하면서 조정되는 것을 확인할 수 있다.

이렇게 해서 맨 마직막에 다음과 같은 결과가 출력된다.



W는 1018, b는 51 그리고 코스트의 값은 10272684.0이 됨을 확인할 수 있다.

이렇게 학습이 끝났고, 이제 거리에 따른 택시비는

(택시비) = 1018 * (거리) + 51로 

이 공식을 가지고 거리에 따른 택시비를 예측할 수 있다.


테스트에 사용한 모든 데이타는 링크를 참고하면 얻을 수 있다.

https://github.com/bwcho75/tensorflowML/blob/master/1.%20Linear%20Regression.ipynb

학습 속도(러닝 레이트 / Learning Rate) 조정하기 

앞의 예제에서 optimizer를  tf.train.GradientDescentOptimizer(0.0015) 에서 0.0015로 학습 속도를 지정하였다. 그렇다면 학습 속도란 무엇인가?


선형 회귀 분석의 알고리즘을 되 짚어보면, 가설에 의한 값과 원래값의 차이를 최소화 하는 값을 구하는 것이 이 알고리즘의 내용이고, 이를 코스트 함수를의 최소값을 구하는 것을 통해서 해결한다.

W의 값을 조정해 가면서 코스트의 값이 최소가 되는 값을 찾는데, 이때 경사 하강법 (Gradient descent)방법을 사용하고 경사의 방향에 따라서 W의 값을 조정하는데, 다음 W의 값이 되는 부분으로 이동하는 폭이 학습 속도 즉 러닝 레이트이다. (아래 그림)


이 예제에서는 학습 속도를 0.0015로 설정하고, 매번 학습 마다 W를 경사 방향으로 0.0015씩 움직이도록 하였다.  그러면 적정 학습 속도를 어떻게 구할까?

오퍼 슈팅 (Over shooting)

먼저 학습 속도가 크면 어떤일이 벌어지는지를 보자

학습 속도를 0.1로 주고 학습을 시키면 어떤 결과가 생길까?

W,b 그리고 cost 함수를 찍어보면 다음과 같은 결과가 나온다.

(0, array([ 86515.3671875], dtype=float32), array([ 4038.51806641], dtype=float32))
(0, 3.1747764e+12) ← cost
(1, array([-7322238.], dtype=float32), array([-341854.6875], dtype=float32))
(1, 2.3281766e+16)
(2, array([  6.27127488e+08], dtype=float32), array([ 29278710.], dtype=float32))
(2, 1.7073398e+20)
(3, array([ -5.37040691e+10], dtype=float32), array([ -2.50728218e+09], dtype=float32))
(3, 1.252057e+24)
(4, array([  4.59895629e+12], dtype=float32), array([  2.14711517e+11], dtype=float32))
(4, 9.1818105e+27)
(5, array([ -3.93832261e+14], dtype=float32), array([ -1.83868557e+13], dtype=float32))
(5, 6.7333667e+31)
(6, array([  3.37258807e+16], dtype=float32), array([  1.57456078e+15], dtype=float32))
(6, 4.9378326e+35)
(7, array([ -2.88812128e+18], dtype=float32), array([ -1.34837741e+17], dtype=float32))
(7, inf)
(8, array([  2.47324691e+20], dtype=float32), array([  1.15468523e+19], dtype=float32))
(8, inf)
(9, array([ -2.11796860e+22], dtype=float32), array([ -9.88816316e+20], dtype=float32))
(9, inf)

Cost 값이 3.1e+12,2.3e+16,1.7e+20 ... 오히려 커지다가 7,8,9에서는 inf(무한대)로 가버리는 것을 볼 수 있다.


그래프를 보면 다음과 같은 형태의 그래프가 나온다.


학습이 진행될 수 록, 코스트 함수의 결과 값이 작아지면서 수렴이 되어야 하는데,  그래프의 각이 서로 반대로 왔다갔다 하면서 발산을 하는 모습을 볼 수 있다.

코스트 함수의 그래프를 보고 생각해보면 그 원인을 알 수 있다.


학습 속도의 값이 크다 보니, 값이 아래 골짜기로 수렴하지 않고 오히려 반대편으로 넘어가면서 점점 오히려 그래프 바깥 방향으로 발산하면서, W값이 발산을 해서 결국은 무한대로 간다. 이를 오버 슈팅 문제라고 한다.

그래서, 학습 과정에서 코스트 값이 수렴하지 않고 점점 커지면서 inf(무한대)로 발산하게 되면, 학습 속도가 지나치게 큰것으로 판단할 수 있다.

스몰 러닝 레이트(Small Learning Rate)

반대로 학습 속도가 매우 작을때는 어떤일이 발생할까?

학습속도를 0.0001로 작게 설정을 해보자.


(0, array([ 86.40672302], dtype=float32), array([ 4.03895712], dtype=float32))
(0, 3.6995174e+08)
(1, array([ 165.43540955], dtype=float32), array([ 7.72794485], dtype=float32))
(1, 3.1007162e+08)
(2, array([ 237.61743164], dtype=float32), array([ 11.09728241], dtype=float32))
(2, 2.6011749e+08)
(3, array([ 303.54595947], dtype=float32), array([ 14.17466259], dtype=float32))
(3, 2.18444e+08)
(4, array([ 363.76275635], dtype=float32), array([ 16.98538017], dtype=float32))
(4, 1.8367851e+08)
(5, array([ 418.76269531], dtype=float32), array([ 19.55253601], dtype=float32))
(5, 1.5467589e+08)
(6, array([ 468.99768066], dtype=float32), array([ 21.89723206], dtype=float32))
(6, 1.304809e+08)
(7, array([ 514.8805542], dtype=float32), array([ 24.03874016], dtype=float32))
(7, 1.1029658e+08)
(8, array([ 556.78839111], dtype=float32), array([ 25.99466515], dtype=float32))
(8, 93458072.0)
(9, array([ 595.06555176], dtype=float32), array([ 27.78108406], dtype=float32))
(9, 79410816.0)

 

코스트값이 점점 작은 값으로 작아지는 것을 볼 수 있지만 계속 감소할 뿐 어떤 값에서 정체 되거나 수렴이 되는 형태가 아니다.

그래프로 표현해보면 아래 그래프와 같이 점점 입력 데이타에 그래프가 가까워 지는 것을 볼 수 있지만, 입력 데이타에 그래프가 겹쳐지기 전에 학습이 중지 됨을 알 수 있다.


이런 문제는 학습속도가 너무 작을 경우 아래 그림 처럼, 코스트 값의 최소 값에 도달하기전에, 학습이 끝나버리는 문제로 Small learning rate 라고 한다.




이 경우에는 학습 횟수를 느리거나 또는 학습 속도를 조절함으로써 해결이 가능하다.


다음글에서는 분류 문제의 대표적인 알고리즘인 로지스틱 회귀 (Logistic Regression)에 대해서 알아보도록 한다.


그리드형