블로그 이미지
평범하게 살고 싶은 월급쟁이 기술적인 토론 환영합니다.같이 이야기 하고 싶으시면 부담 말고 연락주세요:이메일-bwcho75골뱅이지메일 닷컴. 조대협


Archive»


 
 

구글 빅쿼리와 데이타 플로우를 이용한 노트7 소셜 반응 분석


조대협 (http://bcho.tistory.com)




이 글은 개인이 개인적인 취미와 빅데이타 분석 플랫폼 기술 공유를 위해서 데이타 분석용 시나리오로 소셜 트랜드 분석을 선택하였고, 그중 노트7을 하나의 예로 선택한 내용이기 때문에, 이러한 분석 내용이 악의적으로 활용되거나 해석되기를 바라지 않으며 이 글의 라이센스는 본인이 저작권을 소유하고 있으며 출처를 밝히는 인용을 포함하여 모든 인용 및 내용에 대한 활용을 금합니다.


구글의 빅데이타 플랫폼인 빅쿼리와(https://cloud.google.com/bigquery), 데이타플로우((https://cloud.google.com/dataflow) 에 대해서 테스트를 하던중, 아무래도 데이타 분석 애플리케이션을 만들어보려면 실제 시나리오를 가지고 분석을 해보는게 가장 적절할것 같아서, 트위터에서 노트7에 대한 데이타를 수집해서 분석해봤다.


전체적인 시나리오는 note7 으로 태깅된 트위터 피드를 읽어서 30초 단위로 실시간 분석을 하는데, 수집된 트윗에서 구글의 자연어 분석 API를 이용하여(https://cloud.google.com/natural-language/) 명사와 형용사만 필터링을 해서 수집하는 방식으로 진행하였다.


다음은 9/12~9/19일까지 수집한 데이타에 대한 통계이다.



가장 위의 파란선이 recall이라는 단어로 12일 부터 꾸준히 등장해서 16일에 피크를 치고 계속해서 내용이 나타나고 있다. 17일에 피크를 친 빨간선은 S7이라는 단어인데, 왜 노트7 트윗에 S7이 등장했는지는 약간 미지수이다. 일단위 보다는 시간단위 분석이 필요하고 각 일자별로 주요 지표를 상세하게 볼필요가 있다고 생각해서 제플린 노트북을 이용하여 빅쿼리에 수집된 데이타를 분석을 해봤다.


이 그래프는 시간대별 명사들의 카운트인데, 시간당 1500을 넘는 시점이 9/12 16:00, 9/12 23:00, 9/14 01:00 등으로 보인다. 일자별이나 모든 시간대별로 트윗을 분석하는 것보다, 몬가 이슈가 있으면 시간당 트윗이 급격하게 올라가기 때문에, 트윗에서 명사 카운트가 1500을 넘는 시간만 분석해봤다.




이것이 분석 결과인데, 그래프로 보기가 어려우니 표로 표현해서 보자. 주요 날짜별로 주요 키워드를 3개씩만 검출해보면 다음과 같은 결과가 나온다.


먼저 9월12일16시에는  flight와 india라는 단어가 많이 잡혔는데, 이날은 인도에서도 항공기에 노트7을 가지고 탑승을 못하도록 공지한 시간때로 보인다.


http://mashable.com/2016/09/12/samsung-galaxy-note7-flight-ban-india/#nTLbsAiVWqqr


다음 23시에 boy라는 단어가 주로 잡혔는데, 이날은 노트7으로 인하여 6살 어린이 어린이(boy)가 상처를 입은 사건이 발생한 때이다.


https://www.cnet.com/news/exploding-samsung-galaxy-phone-burns-6-year-old/


다음으로 14일과 16일 로그를 분석해보자



14일 1시에는 software, update, explosions라는 단어가 많이 검출되었는데,

http://money.cnn.com/2016/09/14/technology/samsung-galaxy-note-7-software-update-battery-fires/

소프트웨어 업데이트를 통해서 폭발을 막겠다고 발표한 시점이다.


16일은 미국 정부가 노트7의 리콜을 명령한 날로 5시와6시에 goverment와 recall 등의 단어가 집중적으로 올라왔다.


http://www.forbes.com/sites/shelbycarpenter/2016/09/16/government-official-recall-samsung-galaxy-note-7/#351a35c46e53



18일에는 report와 lawsuit (소송) 이라는 단어가 많이 검출되었는데, report는 찾아보니


http://bgr.com/2016/09/18/galaxy-note-7-explosion-burns-samsung-lawsuit/

로이터 통신에서 16일날 언급한 플로리다 남성이 노트7으로 화상을 입고 소송을 한 내용이 2일의 시차를 두고18일에 급격하게 퍼졌다.

그러다가 아래 표와 같이 19일에는 florida, man, pocket,lawsuit 와 같이 플로리다, 남성,주머니,소송 등의 단어가 검출되면서 18일의 내용이 점점 더 구체화 되어가는 과정을 보여주었다.

사실 노트7을 분석 아이템으로 삼은것은 노트7이 출시되었을때, 꽤나 완성도가 높았고 그래서 재미있는 반응도 꽤나 많을것으로 기대했다. 그래서 굳이 다른 키워드 보다 노트7을 고른거였고, 지금은 떠났지만 한때 몸 담았던 회사였기도 했기 때문에 잘 되기를 바라는 마음이었는데, 분석 결과를 지켜보면서 씁쓸한 마음이 이내 떠나지를 않았다.


이 분석을 통해서 얻고자 한것은, 이 시스템을 구축하는데 혼자서 5~6시간 정도의 시간밖에 걸리지 않았다. 예전이라면 이런 분석 시스템을 구축하려면 몇명은 몇달은 투자해야 할텐데, 이제는 혼자서도 이러한 빅데이타 분석이 가능하다는 메세지와 함께, 실시간 분석 시스템 구현 기술을 습득하기 위한 개인 작업이다.

의외로 데이타에서 많은 인사이트를 얻어낼 수 있었고 추후에 이 분석에 대한 모든 코드를 공개할 예정인데, 다른 사람들도 유용하게 사용할 수 있는 정보 공유의 목적이다.

.

인터넷의 정보의 유통 구조의 변화


1990년대 인터넷과 WWW이 생기면서 정보의 유통 과정에 일대 변혁이 왔다. 전문가가 아니더라도 전문 정보를 빠른 시간내에 접할 수 있게 되었고, 정보의 소비자에서 이제는 생산자의 역할로까지 변화되었다.


1 단계-초기의 유통 구조

초기의 정보 유통 구조는 검색엔진과 디렉토리 서비스를 통하여 원하는 정보를 찾는 형태였다. 

검색엔진의 정확도가 상대적으로 낮았고, 랭킹 알고리즘등이 성숙하지 못했기 때문에 디렉토리 서비스를 통해서 분류된 정보를 기반으로 접근하게 되었다. 야후나 라이코스 같은 서비스들의 전성시대가 아니었을까 싶다. 정보의 생산 주체 역시 아무나 웹사이트를 만들 수 없는 환경이었기 때문에, 웹사이트를 만들 수 있는 경제력이나 기술력이 있는 곳을 통해서만 정보에 접근할 수 있었다.


2단계-커뮤니티

인터넷이 점점 발전함에 따라 정보의 소비자가 새롭게 정보를 생성할 수 있는 능력을 가지게 되었고, 사람들은 인터넷 게시판등으로 몰려들어서 서로 소통을 시작하였다. 그리고 블로그의 등장과 함께 누구나 손쉽게 정보를 생산할 수 있게 되었다.


사람들은 커뮤니티 사이트로 몰려들었고, 좋은 정보의 위치를 공유하기 시작하였다.

그리고 검색엔진의 정확도 향상에 의해서 디렉토리 서비스보다는 검색 결과를 통한 접근이 활성화 되었다. 이 시기가 검색의 주도권이 야후에서 구글로 넘어가는 시기라고 본다.


1단계의 경우 정보의 접근은 포탈사이트와 검색을 통해서만 가능하였고, 정보의 생산 역시 개인 보다는 기업이나 단체를 통하여 이루어 졌다.

2단계의 경우, 정보의 접근은 검색엔진과 커뮤니티 사이트를 통해서 원하는 정보를 찾게 되었고, 정보의 저장소 역시 일반적인 웹사이트에서 개인 블로그와 커뮤니티 사이트 등으로 이동하게 된다. 정보의 생산층 역시 일반인으로 까지 넓어지지만, 컴퓨터를 할줄아는 중고급의 사용자로 한정된다.


3단계-SNS

소통을 통한 정보의 유통 구조는 SNS의 등장과 함께 가속되는데, 

누구나 쉽게 정보를 올릴 수 있고, 개인 사생활을 기록하고 공유하는 문화가 형성된다.

싸이월드 미니홈피,페이스북,트위터들과 같이 가치 있는 정보를 생성하여 공유하는 것이 목적이 아니라 자신의 정보를 올리고 다른 사람과 공유하기 위한 모델로 진화한다.

이 과정에서 페이스북의 댓글이나 트윗은 정보성의 가치를 넘어서서, 집단의 트렌드와 의견을 만들어 내고 적극적인 압력으로 작용한다. 이는 미국이나 한국에서도 선거에서 SNS의 영향력등이 커진것들을 볼 수 있다.


중요하게 생각해볼 것중의 하나가 정보를 찾기 위해서 검색엔진 뿐만 아니라, SNS의 댓글이나 SNS의 친구들이 스크랩이나 링크해놓은 사이트를 통해서 접근하게 된다.

검색엔진의 기계적인 검색 결과에서 이른바 "입소문" 이라는 것이 본격화 된다.

여기에 SNS의 "퍼가요", "retweet", "공유" 기능들에 의해서 품질이 높은 정보는 개인을 통해서 전파되고, 정보의 신뢰성을 높이는 역할을 하게 되었다.


이 시기가 중요한 이유중의 하나는 정보 생성자가 SNS라는 쉽고 놀 수 있는 공간을 통해서 정보 생성을 목적으로가 아니라 노는 목적으로 이른바 아무나!! 가 정보를 생성하게 된다. 10대도, 나이 많은 노인들도 SNS라는 간단한 서비스를 통해서 댓글을 달고 사진을 올림으로써 많은 양의 정보를 생성한다.


(정보 접근 방법이 검색뿐 아니라 이른바 입소문을 통한 방법으로 확장되고, 정보의 생산자 폭이 넓어졌으며, 정보의 신뢰도가 높아졌다.)


4단계-모바일 & 인덱스 서비스

여기에 스마트폰과 타플릿 PC가 유행하면서, 또 다른 변화가 생기는데,

스마트 폰으로 생성할 수 있는 짧은 형태의 정보 (댓글,상태,트윗)들이 늘어나고, 위치 정보(LBS)와 함께 제공되는 정보 그리고 무엇보다 실시간성 정보가 늘어나기 시작한다.




이에 정보의 양이 폭증하고, 정보를 접근하기 위한 접근점 (SNS,트위터,검색엔진,블로그)이 많아지면서 이러한 정보의 접근점을 통합하는 서비스가 나타나기 시작하는데, PInterest, Scoop.It, FlipBoard와 같은 서비스들이 대표적인 예라고 볼 수 있다.


PInterest

각자 특징들이 많은 서비스들이지만 약간씩만 집고 넘어간다면

PInterest는 일종의 셀프 웹진형 서비스 이다.



일종의 단문 블로그라고 해야하나? 개인이 사진과 단문형태의 글을 올리면 웹사이트에 아주 이쁘게!!! 출력해준다. 물론 퍼가기... 좋아요 기능도 제공한다.

글을 본인처럼 주저리주저리 쓰는 사람보다는 이쁜 사진에 댓글 정도? 를 다는데 적합하다. 싸이월드의 미니홈피를 보는듯하다. 카카오톡의 카카오스토리도 비슷하다.

이런 UI적인 특징 때문일까? 여성들이 많이 사용하는 것으로 보인다. 인테리어,패션등 아기자기한 사진 일색이다. NoSQL이나 Cloud Computing을 검색해봐도 이런 기술적인 내용들은 거의 검색이 되지 않는다.



위의 그림이 PInterest의 개념을 잘 설명해주는데,  재미있는 것중에 하나가 개인이 올린글과 댓글등이 Trends를 만들어낸다는 것이다. PInterest를 모니터링 하면 대중의 관심사나 유행을 알 수 있고, 반대로 이러한 유행을 만들어 낼 수 도 있다.


다음은 FlipBoard 인데

사용해봤으면 알겠지만, 손으로 드래그 하면 페이지가 휙휙 넘어간다. 매거진 형태의 UI를 사용하면서도 모바일이나 타블렛에 잘 최적화 되어 있다. 쓰기 편하고 이쁘다!!


관심사별로 선택을 해놓으면 새로운 컨텐츠를 매거진 형태로 보여준다.

이뿐만 아니라 트위터,블록,페이스북등의 주요 SNS나 인터넷 서비스를 내 매거진에 추가할 수 있다.

그런데 이 서비스는 PC나 웹용이 없다. 철저하게 모바일 시장만을 겨냥했다.


마지막으로 Scoop.it 이라는 서비스다.

PInterest와 유사하기는 하지만, PInterest가 여성위주의 팬시한 서비스라면, Scoop.it은 약간 더 무거운 서비스라고 보는게 났겠다. 그리고 PInterest가 개인 마이크로 블로그라면, 매거진성의 성격이 강하다. 일종의 스크랩 기능을 이용한  


웹 서핑을 하다가 괜찮은 페이지가 있으면 URL을 Scoop.it에 등록하거나 플러그인을 설치해놓은 경우 버튼만 누르면 바로 스크랩이 된다.



(특정 페이지를 Scoop.it으로 스크랩 하는 화면)



재미있는 기능중에 하나가 내가 관심있는 관심사등록해놓고, 컨텐츠의 소스 (검색엔진, 트위터, 페이스북,블로그 등)을 지정해놓으면, 시스템에서 매일 해당 관심사와 관련된 컨텐츠가 있는지를 찾아보고 사용자에게 알려준다. 사용자는 그 목록을 보고 내가 관심 있는 내용이면 Scoop.it만 시키면 내 매거진에 스크랩이 된다.


(좌측 화면이 특정 관심사에 대해서 검색된 결과)


근래에는 정보의 유통 구조가 모바일 영향과 정보의 유입점이 특정화 되면서(페이스북등의 SNS) 이를 INDEX화 하기 위한 매거진형 서비스들이 유행하고 있고,

여기에 더불어 아기자기한 UI 기반의 마이크로 블로그 서비스들이 유행하고 있다.


PInterest가 미국에서 굉장한 인터넷 트래픽을 생산한다고 하는데, 제 2의 페이스북이 되지 않을까?


정보의 생산,소비 유통 구조는 항상 우리 생활과 비지니스에 큰 변화를 만들어왔다. 다음 변화는 어떨지.. 빨리 예측하고 깨달아서... 그 흐름을 주도해나가고 싶다.



SNS 서비스 트렌드 변화

IT 이야기/트렌드 | 2012.05.27 22:49 | Posted by 조대협

요즘 스마트 폰이 일상화 되면서, SNS 애플리케이션의 형태에도 많은 변화가 있는것 같다.

 

예전에는 블로그나, 카페, 미니홈페이지 같은 것이 주를 이루었다.

주로, 디카로 찍고 몇장의 사진과 장문의 글을 올리는 것이 사용 형태였으며,

컴퓨터와 인터넷에 익숙한 소수(스마트폰 대비)를 대상으로 사용되었고,

업데이트 주기와 시간역시 빨라야 하루였다. (저녁에 편집을 해야 했으니)

 

스마트폰의 도입으로 바뀐 SNS의 시나리오는

스마트폰에 달린 카메라와 인터넷 연결 기능 내장에서 많은 혁신을 불러왔는데,

일단 바로 찍어서 올린다.

글은 스마트 폰의 특성상 장문보다는 단문의 Comment성이 많아지고

업데이트 주기는 하루에 수번으로 많아졌으며,

사용 대상 역시 10대~40대까지 넓어졌다.

 

스마트폰이 PIMS (Personal Information Management System)의 사용자 시나리오에서 시작되서, 이메일이나 일정 관리 등이 주요 시나리오 였다면, 인터넷과 내장 카메라는 이러한 업무 중심의 시나리오를 일반 사용자 중심의 시나리오로 변화시켰다.

 

이와 더불어 신규 시장을 만들어내고 있는데,

요즘 SNS 어플들을 보니, 카메라 애플이 눈에 띈다. 스마트 폰의 특성상 촬영한 사진의 품질이 좋지 않고, SNS에 여러장의 사진을 동시에 올리면 타임 라인이 지저분해지기 때문에,

1. 여러 사진을 한장으로 합쳐주거나

2. 사진을 편집해주거나, (Adobe Photoshop이 아이폰 앱으로 올라왔더라.)

3. 편집한 사진을 SNS에 포스팅 (FB 연동, 트위터 연동, 네이버 연동 등)

4. 그리고 사진을 클라우드에 저장 (네이버 카메라의 N 드라이브 연동 기능)

식의 애플이 주목 받을만하다.

 

[ 그림. 포토샵 아이폰 버전 ]

 

[그림. 사진 MERGE 앱]

 

이런 시나리오는 페이스북의 사용 시나리오가 잘 나가는 것이나, 페이스북의 한국판인 카카오스토리가 요즘 강세를 나타내는 것과 다르지 않다고 본다.

 

전체적으로 사진 위주의 SNS로 서비스의 중심이 옮겨 가지 않나 하는 느낌이다.

이는 PInterest가 급격하게 올라오고, MS의 So.cl 서비스의 사진 위주의 인터페이스 구조나, Scoop.it과 같은 서비스들도 사진 위주의 직관성을 강조하고 있다. 또한 인스탄트그램이 급격하게 성장하고 페이스북에 인수 된것을 봐도 확실히 서비스 시나리오의 중심이 텍스트에서 사진으로 옮겨가는 느낌이다.

 

이러한 데이타는 단순한 포스팅이 아니라 일상을 기록하는 식의 라이프로그가 될터이고,

향후는 기업입장에서는 촬영 위치, 시간, 그리고 사진속의 내용을 분석하여 마케팅 정보로 활용 될 터이고,

개인 입장에서는 개인의 역사를 기록하는 일종의 일기를 대체하게 될 것으로 예측된다.

 

이런 대용량 데이타를 저장하기 위해서 NoSQL의 빅데이타 저장 기술이 탄력을 받을 것이고,

안정적으로 개인 데이타를 단말과 동기화 하여, 다른 디바이스에서 (타블렛,PC, 웹, TV등) 연동하는 시나리오가 탄력을 받으면서 개인 클라우드 서비스가 향후 큰 핵심 서비스가 될것이다.

 

지금 하고 있는 숙제가 georeplication system입니다.
Geo replication 시스템이란 분산 시스템중에서 시스템이 여러 IDC (서로 다른 국가나 대륙에 위치)하여 구축되며, 어느 위치에서 접근하던지 같은 데이타를 볼 수 있게 하는 것을 이야기 합니다.
예를 들어 한국 IDC에서 USER정보를 읽어오나, 미국 IDC에서 읽어오나 그 내용이 같다는 겁니다. 물론 USER정보가 계속해서 transaction에 의해서 update되는 상황에서 말입니다. 대충 방향잡고 아키텍쳐 구상도 해놓긴했습니다만, 몇일째 머리가 뽀게지고 있습니다. 다음주에 새로 JOIN하는 호주 친구가 데이타베이스의 전문가니까는 이 부분을 검증하고 보강해주리라 기대하고 있습니다.(돈이 얼만데... -_- 한달 인건비가 거의 일년 연봉... )

그런데 재미있는 것중 하나가 이런 geo replication system이 enterprise world에서는 잘 존재하지 않는다는 겁니다. 정해진 직원수, 정해진 지역에서 서비스하기 때문에 왠만해서는 구경하기 어려운 아키텍쳐입니다. 기껏해야 글로벌 ERP single instance정도겠네요.
반면에 SNS (Social Networking Service)에는 사례가 많습니다. 대표적으로 Facebook, Amazon,Google,Twitter등의 글들이 많이 떠다는데.. 공통점중의 하나는 우습게도 벤더 솔루션을 사용하는 곳은 하나도 없습니다. 다 만들었더군요. Amazone은 Dynamo를 Google은 BigTable은 Facebook은 Cassandra를.. 기술면에서는 이제 벤더들보다 앞서가는게 아닌가 싶습니다.
여기저기 자료 뒤지다가 몇자 긁적여 봤습니다.

근데, Tistory 블로그 왜 자꾸 레이아웃이 깨질까요. ㅜㅡ 텍스트큐브로 옮겨야 하나.

참고로 유용한 URL을 몇개 적어놉니다.
http://highscalability.com/