블로그 이미지
평범하게 살고 싶은 월급쟁이 기술적인 토론 환영합니다.같이 이야기 하고 싶으시면 부담 말고 연락주세요:이메일-bwcho75골뱅이지메일 닷컴. 조대협


Archive»


 

'자연어 처리'에 해당되는 글 2

  1. 2019.08.04 자연어 처리 - 단어 표현 방법
  2. 2016.09.09 트위터 피드 실시간 분석 시스템 디자인
 

자연어 처리 - 단어 표현 방법

빅데이타/머신러닝 | 2019.08.04 18:28 | Posted by 조대협

자연어 처리

Word representation

조대협 (http://bcho.tistory.com)


머신러닝을 위해서 단어를 수치화 하는 방법을 Word Representation이라고 한다.

가장 쉬운 방법으로는 One-hot-encoding을 사용하는 방법이 있지만, 이 방법의 경우에는 단어간의 의미를 수식화할 수 없고, 특히나 단어가 많을 경우에는 단어를 표현하는 벡터(행렬)의 크기가 커지며, 그중에서 하나의 필드만 1로 처리하기 때문에 공간 소모가 심하다. 


그래서 분포 가설(Distributed hypothesis)를 기반으로한 방식이 많이 사용되는데, 분포 가설(Distributed hypothesis) 란, 같은 문맥의 단어는 비슷한 의미를 갖는다는 개념으로 두 가지 방식이 많이 사용된다.

Count based 

문장에 동시에 등장하는 단어의 수를 카운트 해서 이를 벡터화 하는 방식

동시에 등장하는 횟수를 Co-occurrence라고 하고, 이를 행렬화 하는 방식은 

  • SVD (Singular Value Decomposition) : 특이값 분해

  • LSA (Latent Semantic Analysis) : 잠재적 의미 분해

  • HAL (Hyperspace Analogue to Language)

등이 있음

Predictive

NN이나 모델을 이용해서, 특정 문맥에 어떤 단어가 나올것을 예측하면서 벡터를 만드는 방법

  • NNLM (Neural Network Language Model)

  • RNNLM(Recurrent Neural Network Language Model) 

  • Word2Vec

    • CBOW (Continuous Bag of Words)
      문장을 통해서 단어를 예측
      예) 오늘은 저녁에 ??나 먹어야 겠다. 

    • Skip-Gram ← 가장 많이 사용함
      단어를 통해 전체 문장을 예측
      예) ??? ???? 짜장면이나 ??? ??


본인은 구글 클라우드의 직원이며, 이 블로그에 있는 모든 글은 회사와 관계 없는 개인의 의견임을 알립니다.


스트리밍 분석 플랫폼인 Apache Beam (Dataflow)를 공부하다 보니, 예제가 필요해서 지난번에는 힐러리와 트럼프 후보가 언급된 피드를 읽어서, 구글의 자연어 분석 API를 통해서 긍정/부정 여부를 분석한 후, 빅쿼리에 넣어서, 파이썬 노트로 그래프로 표현해봤는데, 아무래도 자연어 분석 API의 정확도가 아직 떨어지는 건지, 대부분 부정으로 나오고, 분석 결과도 재미가 없다.


그래서 새로운 분석 예제를 고민 하다가, 다음 방향으로 정했다.



  1. 지난번과 마찬가지로 데이타 수집은 트위터에서 특정 키워드를 fluentd로 수집한다.
  2. 수집한 데이타는 Pub/sub에 저장한다.
  3. Pub/sub에 데이타 플로우 파이프라인을 연결한다.
    1. 데이타 플로우 파이프라인에서 데이타를 읽는다.
    2. 읽어온 데이타중 10%만 샘플링 한다. (아무래도 예제이다 보니)
    3. 트윗 데이타중, 트윗 문자열만 발라낸다. 
    4. 트윗 문자열중 RT가 아닌 문자열만 추출한다.
    5. 구글 자연어 처리 API를 호출한다.
    6. FIXED 윈도우 처리를 한다. (5초 주기)
    7. 자연어 처리 API에서 리턴된 결과로 검출된 명사와,그 명사의 발생횟수, 형용사와 각 형용사의 발생횟수, 이모티콘과 이모티콘의 발생횟수, 그리고 타임 윈도우등 트윗의 감정분석 값의 평균을 계산한다.
  4. 계산 결과를 빅쿼리에 저장한다.
  5. 빅쿼리에 저장된 결과를 제플린에서 읽어서 일별 발생한 명사와 명사의 횟수, 형용사와 형용사의 횟수, 이모티콘과 이모티코의 횟수를 탑 랭킹 8개씩 출력한다.
지난번 감성 분석보다, 같이 언급되는 형용사나 명사의 수를 카운트하면 재미있는 결과를 얻을 수 있지 않을까? 구현 목표는 6시간이내. (월요일??) 


본인은 구글 클라우드의 직원이며, 이 블로그에 있는 모든 글은 회사와 관계 없는 개인의 의견임을 알립니다.