2015년 2월 8일 일요일

[유인경이 만난 사람] 빅데이터 전문가 송길영 다음소프트 부사장, 빅데이터, 정서분석


http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201502071727261&code=940100

“빅데이터의 본질은 인간의 마음과 욕망을 읽어내는 것”
유인경 선임기자 alice@kyunghyang.com


[유인경이 만난 사람] 빅데이터 전문가 송길영 다음소프트 부사장


바야흐로 ‘빅데이터’의 시대다. 미래학자들은 빅데이터를 ‘21세기의 원유’라고 표현한다. 가치를 알고 제대로만 활용하면 무궁무진한 가능성과 잠재력을 갖고 있다는 뜻이다. <하버드 비즈니스 리뷰>, <포브스> 등에서도 21세기 가장 유망한 직업 가운데 하나로 ‘빅데이터 분석가’를 꼽는다. 

우리나라에서도 곳곳에서 빅데이터 관련 포럼이 열리고 매일 빅데이터를 분석한 내용이 매스컴을 장식한다. 서울시는 KT의 심야 통화기록을 활용해 심야버스 노선을 확정했고, 서울 강북삼성병원은 다음소프트와 함께 자살 예보 시스템을 구축했다. 이미 빅데이터는 우리 생활 속으로 들어오고 있다.

다들 ‘빅데이터’, ‘빅데이터’를 외치지만 정작 빅데이터의 정체는 여전히 모호한 듯하다. 빅데이터는 도대체 무엇일까. 국내에서 빅데이터 분야의 최고 전문가로 꼽히며 ‘인터넷 언어 분석을 통해 사회 흐름을 포착하는 분야의 개척자’라는 평가를 받는 송길영 다음소프트 부사장을 만나 빅데이터란 무엇이고 빅데이터가 우리의 삶을 어떻게 바꿀지를 물었다.

기업의 상품 마케팅은 물론 대통령선거 등에 빅데이터가 활용된다지만 빅데이터에 대한 해석은 전문가마다 다르더군요. 그리고 얼마나 큰 데이터를 ‘빅데이터’라고 합니까. 

“데이터 앞에 ‘빅’을 붙인 것은 2010년 무렵부터였습니다. 그 전에는 ‘데이터마이닝’(datamining)이라는 말이나 ‘유비쿼터스 컴퓨팅’이라는 단어를 썼죠. 그러다 ‘다루기에 너무 큰’(too big to handle) 데이터, 즉 ‘빅데이터’란 말이 만들어졌고, 그게 퍼졌어요. 쉽게 말하면 데이터가 아주아주 많으면 뭔가 멋진 것을 꺼낼 수 있지 않을까, 그동안 우리가 모르거나 할 수 없던 일을 할 수 있지 않을까란 개념에서 출발한 것입니다. 그리고 ‘빅’의 정의는 단순한 숫자로 말하기는 어렵습니다. 우리가 매일 스마트폰이나 컴퓨터에 문자나 댓글을 남기고 거리 곳곳에는 CCTV가 설치되어 있어 생활 하나하나가 ‘디지털 흔적(자료)’으로 남아 그 양과 종류가 폭증하고 있습니다. 세계적 인터넷 포털 사이트인 구글이 하루에 처리하는 데이터 양이 24페타바이트(약 2400만 기가바이트)쯤인데 이는 미국 의회도서관에 있는 전체 인쇄물의 수천 배에 달하죠. 과거에는 여론조사도 많아야 1000여명의 사람에게 직접 전화를 걸거나 대면조사로 이뤄졌지만 요즘은 트위터 등에 남긴 수십만건의 자료를 분석해서 파악하기도 합니다. 우리 회사가 다루는 것은 사람들이 SNS 등에 자발적으로 남긴 언어 자원인데, 기업에 활용할 경우 50억개 정도의 트위터나 댓글 등을 빅데이터 자료로 활용합니다.”

양만 많다고 빅데이터인가요. 

“아니죠. 빅데이터는 양보다 어떻게 그걸 다루느냐가 중요합니다. 빅데이터를 ‘21세기의 원유’라고 하죠. 원유 역시 처음에는 귀찮은 쓰레기 취급을 받았어요. 밭을 가는데 이상한 기름이 나와 농작물을 더럽히니까 농부가 짜증을 부렸죠. 하지만 그걸 정유 가공하니 석유가 됐습니다. 가치를 모르면 빅데이터도 쓰레기입니다. 데이터를 분석해보면 사람들이 남긴 감성을 읽을 수 있어요. 대부분의 사람들은 슬프거나 우울하면 주식을 팔고 기쁘면 주식을 삽니다. 그러니 트위터나 댓글 등에 ‘슬프다’란 말이 자주 나오면 주식이 떨어지겠다는 것을 짐작할 수 있죠. 그래서 우리는 통계자료 분석가가 아니라 마음을 읽는 사람이라고 주장합니다.”

지난 대선 전에 박근혜 후보의 당선을 예측했죠. 족집게 도사도 아닌데 근거가 뭡니까. 

“대선 한 달 전에 제가 쓴 책에서 ‘대통령선거 결과를 알고 싶다면 선거 1~2주 전에 코스피지수를 보면 된다. 코스피지수가 올라가면 여당이 이기고, 떨어지면 야당이 승리할 가능성이 높다’고 예언했죠. 당시 11월 19일에서 12월 18일까지 코스피지수는 1878.10에서 1993.09로 가파르게 상승했고, 여당 후보인 박근혜 대통령이 당선됐습니다. 그것은 제가 점쟁이여서가 아니라 ‘기분이 나쁘면 경기도 나쁘다’는 ‘공포지수’가 주가 예측에 유용했기 때문입니다. 최근 빅데이터와 관련해서 가장 각광받는 분야는 트위터·페이스북 같은 SNS에 사람들이 쏟아낸 말을 통해 사회적 분위기를 파악하는 ‘정서 분석’(Sentiment Analysis)입니다. SNS의 단어에 나타난 정서를 분석해 주가를 예측할 수 있다고 주장하죠. 미국의 ‘텍스트 마이닝’(대량의 정보에서 목적에 부합하는 의미 정보를 추출하는 방법) 전문가들은 트위터에 표현된 정서를 계량화한 수치가 다우존스 지수를 87.6%의 정확도로 맞힌다는 것을 발견했습니다. 그것을 바탕으로 자동 주식거래 시스템인 ‘더웬트 앱솔루트 리턴 펀드’(Derwent Absolute Return Fund)를 만들었죠. 미국의 경우 주가가 오르면 여당 후보가 당선되고, 대통령이 재선에 성공하면 주가가 계속 올랐습니다. 기분이 좋고 안정적이면 주식도 사고 현 대통령에게 신뢰를 다시 보낸다는 겁니다. 그런데 우리나라의 경우 주가가 올라 정권이 연장된 셈인 여당 후보가 당선되긴 했는데 정작 선거 후에는 주가가 확 떨어졌습니다. 멘탈 붕괴현상이라고나 할까요.” 

빅데이터는 숫자보다 마음, 결국 ‘감성’을 읽어내는 것인데 기분을 수치로 나타낼 수 있나요,

“사람의 기분은 시간의 흐름에 따라 변합니다. 대부분 직장인들의 경우 월요일에는 끔찍하고 수요일엔 체념하고 금요일이 되면 웃음기가 돌죠. 하지만 그건 막연한 느낌일 뿐입니다. 그래서 저는 동료와 함께 트위터 상에서 5개월간 수집된 5억건의 트윗(트위터의 개별 메시지)에 나타난 ‘기분’과 연관된 단어를 조사하는 방식으로 요일별 기분을 계량화했습니다. 사람을 만나거나 물건을 팔 때 요일에 따라 합리적으로 행동할 수 있을 것이라 생각해서입니다. ‘좋다, 슬프다, 신난다, 우울하다’와 같은 단어들이 ‘좋다’처럼 긍정적인 단어와 연관된 비율을 조사하고 이를 요일별로 분석해 특정 요일의 ‘긍정 비율’을 분석했죠. 결과는 상식을 벗어나지 않았습니다. 요일별 긍정 비율은 월요일에 68.5%로 최저이지만 주중에 서서히 상승해 금요일 72.3%로 정점에 이르렀어요. 정보사회학회 세미나에서 이런 결과를 ‘일상의 관찰-기분’이라는 제목으로 발표하기도 했습니다.”


송길영 다음소프트 부사장 / 김기남 기자

공학도인데 감성이나 기분을 어떻게 잘 파악합니까.

“고려대에서 전산학을 전공했습니다. 박사과정을 수료한 뒤 10년 동안 통신과 전산을 담당했습니다. 누가 문제를 주면 그걸 풀어주는 일이죠. 그게 공학도의 한계이기도 하고요. 그래서 제가 문제를 내고 싶었는데 문제를 내고 그걸 해결하려면 인간에 대한 이해가 가장 필요하다고 생각했습니다. 사람이 남긴 언어 자원에서 그의 의도와 감성을 제대로 끌어내 파악하려면 심리학, 정신분석학, 철학 등의 학문은 물론 패션과 정치 등도 알아야 합니다. 그래서 그런 전문가들을 찾아가 계속 묻고 공부했어요. 다행히 이상한 시도를 하는 제게 도움을 주는 이들이 많아 학회나 포럼에 초대도 해주고 교류와 친분을 이어왔죠. 업무 특성상 인문학·사회과학 소양이 필요한 만큼 전문가그룹과 2006년부터 ‘오피니언 마이닝 워크숍’이란 공부 모임을 하고 있습니다. 제가 모시고 있는 직원들도 컴퓨터나 수학 전공자보다는 철학, 심리학 전공자가 많습니다. 빅데이터의 본질은 언어 자원에서 인간의 마음과 욕망을 읽어내는 것입니다.”

기업에서 강의할 때도 ‘상상하지 말 것’을 강조합니다. 새로 펴낼 책도 <상상하지 마라>(가제)라는데, 창조경제 등 상상력이 강조되는 시대에 왜 상상을 거부합니까.

“상상하지 말라는 것이 아니라 ‘그럴 것이다’란 섣부른 예단과 예측을 하지 말고 사람의 일상생활을 관찰하라는 겁니다. 노인용품을 만드는 기업에서는 ‘노인은 힘없고 아프다’ ‘노인은 불쌍하다’는 선입견을 가지면 안 됩니다. 요실금 증세를 보이는 이들이 착용하는 노인용 팬티의 경우 예전에는 외출하고 싶어도 요실금 때문에 참아야 하는 슬픈 현실만 강조했으나, 정작 노인들이 남긴 댓글 등을 분석하면 노인은 성욕도 있고 절대 자신이 늙었다고 생각하지 않아요. 그래서 부부가 같이 입고 즐겁게 활동하는 콘셉트를 잡았습니다. SNS 등을 통해서 하루에 쇼핑 욕구가 일어나는 시간대, 커피를 많이 마시는 시간 등도 다 파악할 수 있습니다. 15억개의 자료를 보고 ‘지름신이 왔다’ ‘지르다’ 등의 단어가 가장 많이 쓰인 시간, 그리고 ‘커피를 마신다’ 등의 단어가 주로 쓰인 시간대를 알 수 있어요.”

빅데이터의 가장 큰 힘은 무엇인가요.“장점은 수많은 자료를 바탕으로 의사 결정을 합리화·과학화할 수 있다는 겁니다. 성공의 반복보다는 실패를 줄일 수 있다는 것이 중요합니다. 무엇보다 제왕적 리더십의 무모한 의사결정의 폐단을 막을 수 있죠. 여전히 사장들은 디자인 전공도 아니면서 회사의 로고 등을 본인의 취향대로 결정하고 ‘친구들이 그러는데’ 등 개인적 견해를 고집합니다. 이런 독단은 기업에 재앙이 될 수도 있죠. 그럴 때 빅데이터로 분석한 자료를 보여주며 ‘대중들의 일상이 이렇게 흐르고 있다’고 설득합니다.”

대기업과 공공기관 등의 일을 하는데 이 사업에도 변화가 있나요.

“10년 전에는 ‘경향신문이 얼마나 자주 언급되나’ ‘어떤 형용사로 언급되나’ 등 평판에 민감하고 그런 반응과 분석을 의뢰했죠. 그런데 요즘은 일상생활을 보기 시작했습니다. 대중들의 결정, 정보 획득, 사고 속에 그 사람의 생각이 들어 있습니다. 또 우울하거나 슬픈 느낌은 굳이 말로 표현을 안 하는데 침묵 속에 담긴 맥락을 찾아 소비자나 국민들이 진짜 원하는 것을 찾는 일을 주로 합니다. 사람들의 소소한 생활에 대해 면밀한 관찰을 하면 새로운 가치를 발견하게 됩니다. 이 좋은 물건을 왜 안 살까를 궁금해할 것이 아니라 이 물건이 일상에서 무슨 의미가 있을까를 고민하는 거죠. 예를 들어 육아가 얼마나 힘든가도 수치로 나타납니다. 아이 키우는 엄마가 남긴 데이터에서 80%가 ‘힘들다’ 등 부정적 단어였는데 모성의 위대함만 강조해서는 안 되죠. ‘힘든 거 다 알아요. 우리가 도와줄게요’라고 접근해야죠.”

일상의 단어들을 읽고 맥락을 파악하는 것이 그렇게 중요한가요.

“2012년의 빅데이터를 보면 미래보다는 현재 이야기가 많았어요. 현재가 행복해서가 아니라 미래에 희망이 안 보여서일 겁니다. 5년만 고생하면 집 산다, 승진한다를 아무도 보장 못하고 안 믿습니다. 그래서 현재가 불행하다기보다 현재를 절대 함부로 허비하거나 막살아서는 안 된다는 것을 깨닫게 됩니다. 이 찰나의 삶을 얼마나 충일하게 보내느냐가 현대인들의 화두라는 것을 빅데이터로 알 수 있어요. 그런 관찰을 통찰로 심화시켜 가는 것이 우리의 과제이기도 합니다.”

일상생활에서 핵심을 파악하는 그런 통찰력은 어떻게 키우나요.

수억개의 단어 가운데서 맥락을 읽어내려면 상대방의 입장에서 생각해보는 것이 중요하죠. 과거에는 이 물건을 사는 사람과 안 사는 사람으로 나눴지만 이젠 지금 사는 사람과 언젠가 살 사람으로 나눠 그들의 욕망도 충족시킬 상품을 만드는 겁니다. 그건 물건을 파는 회사만이 아니라 정치인도 마찬가지죠. 지금 우리를 지지하는 사람과 반대하는 사람으로만 나눌 것이 아니라 우리를 싫어하거나 지지하지 않는 이들의 욕망을 만족시킬 정책을 마련하고 그걸 실천하는 노력을 해야죠. 그런데 대통령을 비롯한 많은 정치인들이 이기적이어서 타자에 관심이 없고, 정치 연습도 부족하고, 무엇보다 지성이 부족한 것 같습니다.”

일각에서는 빅데이터를 21세기형 ‘빅브라더’라고도 합니다. 권력이 빅데이터를 이용할 경우 ‘빅브라더’가 나타날 수도 있다는 우려인데요.

“빅데이터는 그냥 금맥이 아닙니다. 산업 발전과 국가 효율화의 촉매제가 되도록 하려면 미래를 내다보는 체계적인 전략 수립이 필요합니다. 여기엔 현재 간과하기 쉬운 개연성 있는 문제들까지 일괄적으로 방지할 수 있는 대책이 필수적으로 포함되어야죠. 그러나 무엇보다 저는 사람들이 그저 빅데이터의 활용만 신경쓸 것이 아니라 다른 사람들의 그 수많은 단어, 생각, 취향을 통해 스스로를 볼 수 있기를 기대합니다. 타자를 통해 자신을 보는 힘을 키워주는 것도 빅데이터의 역할입니다. 빅데이터를 통해 물질과 물건이 아닌 인간성, 경쟁과 성과만으로 평가받는 것이 아니라 본질로 존중되는 인간성의 회복을 기대합니다.”

송길영 부사장은 직원들을 ‘제가 모시고 있는 직원’이라고 표현했다. 갑질의 횡포가 너무 흔한 요즘, 참 신선한 표현이다. 빅데이터는 이처럼 다른 사람의 입장에서 마음을 읽어내는 것이다. 정치인이나 사장들이 트위터를 통해 자신의 홍보에만 열중할 것이 아니라 부디 국민과 직원들의 마음도 읽었으면 좋겠다.

1.
  • 출고예상일 : 지금 주문하면 2월 9일 출고 예상 (출고후 1~2일 이내 수령)
바로 구매하기
보관함 담기
eBook
-
알라딘 중고
-
회원중고 (3)
11,000원

댓글 없음:

댓글 쓰기