자연어 처리 - 단어 표현 방법

빅데이타 & 머신러닝/머신러닝

자연어 처리 - 단어 표현 방법

Terry Cho 2019. 8. 4. 18:28

자연어 처리

Word representation

조대협 (http://bcho.tistory.com)

머신러닝을 위해서 단어를 수치화 하는 방법을 Word Representation이라고 한다.

가장 쉬운 방법으로는 One-hot-encoding을 사용하는 방법이 있지만, 이 방법의 경우에는 단어간의 의미를 수식화할 수 없고, 특히나 단어가 많을 경우에는 단어를 표현하는 벡터(행렬)의 크기가 커지며, 그중에서 하나의 필드만 1로 처리하기 때문에 공간 소모가 심하다.

그래서 분포 가설(Distributed hypothesis)를 기반으로한 방식이 많이 사용되는데, 분포 가설(Distributed hypothesis) 란, 같은 문맥의 단어는 비슷한 의미를 갖는다는 개념으로 두 가지 방식이 많이 사용된다.

Count based

문장에 동시에 등장하는 단어의 수를 카운트 해서 이를 벡터화 하는 방식

동시에 등장하는 횟수를 Co-occurrence라고 하고, 이를 행렬화 하는 방식은

SVD (Singular Value Decomposition) : 특이값 분해
LSA (Latent Semantic Analysis) : 잠재적 의미 분해
HAL (Hyperspace Analogue to Language)

등이 있음

Predictive

NN이나 모델을 이용해서, 특정 문맥에 어떤 단어가 나올것을 예측하면서 벡터를 만드는 방법

NNLM (Neural Network Language Model)
RNNLM(Recurrent Neural Network Language Model)
Word2Vec

CBOW (Continuous Bag of Words)
문장을 통해서 단어를 예측
예) 오늘은 저녁에 ??나 먹어야 겠다.
Skip-Gram ← 가장 많이 사용함
단어를 통해 전체 문장을 예측
예) ??? ???? 짜장면이나 ??? ??

저작자표시 비영리 변경금지

'빅데이타 & 머신러닝 > 머신러닝' 카테고리의 다른 글

Kubeflow pipeline 과 TFX 메모 (1)	2020.11.17
XGBoost 개념 이해 (5)	2019.09.17
AutoEncoder vs Variant AutoEncoder (0)	2019.05.10
쿠버네티스 기반의 End2End 머신러닝 플랫폼 Kubeflow #1 - 소개 (3)	2019.01.09
AutoEncoder (오토 인코더) 기반 추천 엔진 (0)	2018.01.06

현재글자연어 처리 - 단어 표현 방법

실리콘밸리에서 살고 있는 평범한 엔지니어 입니다 이메일-bwcho75골뱅이지메일 닷컴. 아키텍처 디자인, 머신러닝 시스템, 빅데이터 설계, DEVOPS/SRE, 애자일 방법론,쿠버네티스,마이크로서비스, ChatGPT 생성형 AI , CTO 등에 대한 기술 멘토링과 강의 진행합니다. 쓰레드 : https://www.threads.net/@byungwookcho

tensorflow, 빅데이타, google, Machine Learning, 텐서플로우, 머신러닝, node.js, 튜토리얼, 클라우드 컴퓨팅, Tutorial, 조대협, 초보, 소개, cloud, 클라우드, 강좌, 딥러닝, 구글, Kubernetes, 쿠버네티스,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

조대협의 블로그