Skip to Content

logo

닫기

모바일메뉴

logoSSANGYONG

Special Theme 1

writer. 김재중 _경향신문 기자

3.jpg

 

미래를 예측할 수 있는
가능성을 열어준 빅데이터

 

빅데이터는 일상에서부터 우리의 삶을 변화시키고 있다. 우리는 매일 빅데이터 분석을 통해 광고회사와 마케팅 업체들이 ‘친절하게’ 분류해서 내보내고 있는 광고를 본다. 또 어떤 제품을 고를 때 자연스럽게 인터넷에 들어가 구매자들이 매긴 점수나 인터넷에 언급된 빈도를 확인한다. 대중교통시스템, 일기예보시스템 등 인프라 시스템에도 빅데이터 분석 기법은 일찌감치 도입돼 활용되고 있다. 더 근본적으로 빅데이터는 인간과 사회에 대한 이해의 깊이와 폭을 한층 확장시키고 있다. 뇌과학의 맹렬한 발전 속도를 감안하면 조만간 우리가 발화하지 않은 정보, 즉 우리가 남에게 내비치지 않은 우리 내면의 생각까지도 읽어내는 기술도 개발될 것이다.

 

알파고와
네이트 실버의 충격

 

변화의 속도와 주기가 극단적으로 짧아진 21세기이지만 지난 2016년은 인류 역사에 기록될 굵직한 사건들이 유독 많이 일어났다.

지난해 봄 인공지능(AI) ‘알파고’가 이룩한 성취는 경외감을 뛰어넘어 두려움을 가지게 했다. ‘딥 러닝’이라는 기술을 이용해 바둑에 관한 막대한 정보를 스스로 학습한 알파고는 아직은 인간의 전유물로 여겨지던 바둑을 정복했다. ‘한 판만 져도 내가 진 것이 될 것’이라고 호언했던 이세돌 9단은 그나마 한 판을 겨우 이긴 것에 만족해야 했다. 알파고의 승전보는 인공지능 시대가 더 이상 공상과학(SF)의 영역에 머물러 있지 않다는 것을 보여줬다. 이는 인간보다 훨씬 똑똑 하고 지치지도, 실수하지도 하지 않는 인공지능이 인간들의 직업을 가로채고 궁극적으로는 인류를 지배하려 할 수도 있다는 공포심을 낳았다.
지난해 11월 미국 대선 결과 또한 전 세계인을 놀라게 했다. 미국 대선 레이스에 등장하는 순간부터 숱한 논란과 반발을 불러일으킨 도널드 트럼프라는 독특한 인물이 마침내 당선됐다. 선거가 치러지기 전 미국 주류 언론과 내로라하는 여론조사 기관들이 힐러리 클린턴과 트럼프가 박빙의 승부를 벌이고는 있지만 최종 승자는 클린턴이 될 것이라는 예상을 내놓았기에 충격은 더했다. 네이트 실버라는 유명한 통계 전문가도 이런 예상을 내놓은 사람 가운데 하나였다. ‘파이브서티에이트’라는 정치 예측 사이트를 운영하고 있는 그는 버락 오바마가 승리한 2008년 미국 대선과 2012년 대선 결과를 정확히 맞추면서 미국 대선 예측의 신처럼 칭송을 받았다. 하지만 힐러리 클린턴의 승리 확률을 71%로 점친 이번 대선 예측 실패로 그의 입지는 타격을 받았다.
얼핏 보기에 연관성이 없는 것처럼 보이는 알파고의 승리와 실버의 수모. 이 둘을 연결하는 키워드는 ‘빅데이터’다. 알파고가 현존 인류 가운데 가장 바둑을 잘 두는 사람 중 한 명을 손쉽게 이길 수 있었던 출발점은 방대한 양의 기존 바둑 대국 정보였다. 알파고 개발자들은 그들이 구할 수 있는 모든 기보를 구해 알파고에게 ‘학습’을 시켰다. 실버 역시 다양한 여론조사와 이전 투표 결과 등 방대한 데이터를 ‘요리’했다.

 

 

 

빅데이터는
무엇인가

 

빅데이터는 몇 해 전부터 우리사회에 화두로 떠오른 용어이다. 빅데이터는 말 그대로 ‘큰 데이터’이다. 얼마나 커야 빅데이터로 취급 받을 수 있을까? 빅데이터와 스몰데이터를 가르는 물리적인 기준은 없다. 빅데이터는 말그대로 어마어마하게 큰 데이터다. 빅데이터 전문가인 송길영 다음소프트 부사장은 필자가 번역한 책 <빅데이터 인문학> 출간을 계기로 한 대담에서 빅데이터를 ‘다루기에 너무 큰(Too big to handle)’ 데이터라고 정의하기도 했다.

예나 지금이나 데이터 분석은 인간이 삶을 영위하기 위한 중요한 수단이었다. 선사시대 유능한 사냥꾼은 사냥감의 행동패턴에 대한 정보를 많이 갖고 있고 이를 잘 분석하는 사람이었을 가능성이 높다. 그리고 작물의 생태적 특성과 기후 등에 대한 데이터를 잘 분석하고 잘 활용하는 사람이 훌륭한 농사꾼이 될 가능성이 높았을 것이다. 인류사에 길이 남을 위대한 업적도 데이터 분석에서 출발한 경우가 많았다. 위인전의 단골 인사인 ‘백의 천사’ 나이팅게일이 한 예다. 그는 전쟁에서 총이나 칼에 맞아 죽는 병사보다 병원의 비위생적 환경 때문에 죽는 병사가 더 많다는 사실을 데이터를 통해 증명함으로써 제도적인 혁신을 가져왔다. 그럼에도 빅데이터가 기존의 데이터와 다른 점은 너무 방대해 기존의 방식으로는 수집, 저장, 분석하기가 어렵다는 것이다. 그리고 이처럼 방대한 데이터의 생성은 컴퓨터화, 디지털화, 인터넷화가 있었기에 가능했다. 국립중앙과학관이 운영하는 인터넷 사이트 ‘스마트 과학관’의 ‘빅데이터’ 항목을 보면 1분 동안 구글에서는 200만 건의 검색, 유튜브에서는 72시간의 비디오, 트위터에서는 27만 건의 트윗이 생성된다. 1시간도, 하루도 아닌 1분에. 이뿐 아니다.

우리가 들고 다니는 휴대전화는 매 순간 우리의 위치정보를 생성한다. 오늘날 우리가 하는 활동 가운데 직간접적으로 인터넷과 연결되지 않는 것이 없으니 우리는 눈을 떠서 잠을 잘 때까지 쉴 새 없이 데이터를생성하고 있다. 잠자는 사람의 수면 상태를 체크해 주는 스마트기기가 나온 지 오래됐으니 잠잘 때도 데이터는 생성되고 있는 셈이다.

 

5.jpg

▲ 이세돌과 알파고의 대결
이세돌이 ‘구글 딥마인드 챌린지 매치’ 5번기에서 1승 4패로 알파고에 아쉽게 패했지만, 4국에서 극적인 승리를 거두며 수많은 사람의 가슴에 뚜렷이 각인됐다. (기사 출처: 2016.3.15. SBS 뉴스 / 사진 출처: 뉴스엔)

 

 

6.jpg

▲ 엔그램 뷰어에서 ‘Information’을 검색
장서 약 800만 권을 데이터베이스화한 엔그램에서 ‘Information’이란 키워드로 검색한 결과, 1950년대부터 해당 키워드 사용이 급상승한 것을 알 수 있다.(planforyou.tistory.com)

 

 

 

엔그램 뷰어를 가지고
놀아보기

 

빅데이터가 이토록 ‘핫’한 키워드가 된 이유는 무엇일까? 결론을 요약하자면 ‘추세’와 ‘예측’이다. 그간 ‘추론’의 영역에 더 가까웠던 인간사의 여러 가지 일들이 빅데이터의 등장으로 직접 검증하고 확인할 수 있게 된 것이다. 여기 1800년부터 2000년 사이에 서양에서 발행된 책 800만 권이있다. 참고로 우리 국회도서관이 보유한 장서수는 423만여 권이다. 어마어마하게 많은 양임에 틀림 없다. 그런데 이 800만 권의 책에 어떤 단어가 얼마나 자주, 얼마나 많이 사용됐는지 궁금하지 않은가? 예를 들어 지난 200년 동안 저자들은 책에 ‘사랑(love)’이라는 단어를 더 많이 썼는지 ‘섹스(sex)’라는 단어를 더 많이 썼는지, ‘종교(religion)’라는 말을 더 자주 썼는지 ‘과학(science)’이라는 말을 더 자주 썼는지, ‘자본주의(capitalism)’에 대해 더 많이 이야기했는지 ‘사회주의(socialism)’에 대해 더 많이 이야기했는지 말이다. 특정 시점에 어떤 단어가 많이 사용됐다는 것을 확인할 수 있고, 이에 더해 지난 200년 동안 해당 단어의 빈도를 한눈에 볼 수 있다면?
이런 것을 가능하게 한 것이 바로 구글의 ‘엔그램 뷰어(Ngram Viewer)’다. 2013년 처음 공개된 엔그램 뷰어의 특징이자 장점은 지난 200년 인류 문화의 궤적과 변동을 눈으로 확인하고 검증할 수 있게 해준다는 것이다. 엔그램 뷰어는 서양 사람들이 1934년부터 종교보다 과학에 대해 더 많이 언급해 왔고, 1912년 이후로는 ‘천당 간다(go to heaven)’는 말보다 ‘지옥 간다(go to hell)’라는 말을 더 많이 했다는 것을 확인시켜 줬다.

 

7.jpg

▲ 영화 <마이너리티 리포트>

범죄가 발생 하기 전 미래의 범죄자를 찾아내어 범죄를 예방하는 첨단 치안시스템이 영화에서 등장하는데, 오늘날의 빅데이터 분석을 연상케 한다. 무려 15년 전 만든 영화라고 믿기지 않는 건 지금과 똑같은 모습의 톰크르즈 때문만이 아니라 빅데이터를 예견한 스티븐 스필버그 감독 때문이다.

 

 

빅데이터를 가지고
무엇을 할 수 있는가

 

엔그램 뷰어는 미국 언론으로부터 ‘시간 잡아 먹는 괴물’, ‘최고의 장난감’이라는 별명을 얻었다. 하지만 빅데이터가 보유한 저력은 단순한 유희거리를 한참 뛰어넘는다. 인터넷과 디지털로 통일된 세계에서 빅데이터 분석은 인류의 현재를 실시간으로 확인하고 미래를 예측할 수 있는 가능성을 열어주었다.
물론 데이터 분석이 그랬던 것처럼 현실 진단과 미래 예측은 인류가 항상 해왔던 것이다. 앞서 말한 종교와 과학의 세력 다툼은 당대의 사상가들에게, 사랑과 섹스의 관계는 호사가들에게 연구와 분석 대상이었다. 그리고 그간 빅데이터 분석이 내놓은 것들이 기존의 데이터 분석과 완전히 동떨어진 세상을 뒤바꿀 만한 것들도 아니다. 빅데이터가 만능은 아니라는 것이다. 미국의 여론조사 기관과 분석 기관들이 천문학적인 돈을 들여 데이터를 긁어모았음에도 트럼프 당선을 예측하지 못한 것처럼 말이다.

그럼에도 빅데이터는 일상에서부터 우리의 삶을 변화시키고 있다. 발빠르게 빅데이터를 이용하고 있는 곳은 기업들이다. 제조 업체든 서비스 업체든 기업들은 기존 고객과 잠재적 소비자들의 관심사가 무엇인지, 그들의 취향이 어떻게 변해가고 있는지에 대해 알고 싶어한다. 이들은 ‘소비자의 마음’에 관한 많은 정보를 빅데이터에서 가져오고 있다. 예를 들어 미래부와 한국정보화진흥원이 지난 1월 31일 발표한 ‘중소기업 빅데이터 활용 우수사례집’을 보면 한 남성 수제구두 업체는 빅데이터 분석을 기반으로 남성 수제구두의 주요 구매층이 여성으로, 이들은 선물용으로 남성 수제구두를 구매하는 경우가 가장 많다는 것을 알아냈다.

이 업체는 이 정보를 바탕으로 선물용 구두를 찾는 여성을 대상으로 맞춤형 홍보를 진행했고, 매출액이 한 달 만에 48% 증가했다고 한다. 그리고 우리가 어떤 필요에 의해서 네이버나 다음, 구글 같은 검색 엔진에 검색어를 입력하면 이 데이터는 ‘맞춤형’ 광고의 재료가 된다. 빅데이터는 공공정책을 수립하고 시행하는 데도 널리 활용되고 있다.

대표적인 것이 도로 및 대중교통 시스템 등 공공 인프라 구축에 앞서 빅데이터 분석을 하는 것은 일반화됐다. 독감, 신종플루, 메르스 등 각종 감염성 질병의 추이 및 감염 경로 분석에도 빅데이터 분석이 활용되고 있다. 범죄의 추적과 예방 측면에서도 빅데이터의 활용 방안이 논의되고 일부 국가에서는 실제 활용되면서 뜨거운 논란의 대상으로 떠오르기도 했다. 더 근본적으로 빅데이터는 인간과 사회에 대한 이해의 깊이와 폭을 한층 확장시키고 있다.

뇌과학 발전의 맹렬한 속도를 감안하면 조만간 우리가 발화하지 않은 정보, 즉 우리가 남에게 내비치지 않은 우리 내면의 생각까지도 읽어내는 기술도 개발될 것이다. 엔그램 뷰어가 지난 200년간 인류의 생각을 읽을 수 있게 해줬다면, ‘생각 읽기 기계’는 인류의 뇌자체를 실시간으로 볼 수 있게 해줄 것이다. 이는 좁게는 노약자, 장애인의 활동 반경을 혁신적으로 넓혀줄 것이며, 인간이 개인적·집단적으로 범하는 실수와 오인의 문제를 바로잡을 기회를 제공할지도 모른다. 물론 영화 <마이너리티 리포트>가 그려낸 것처럼 이 기술은 권력자 또는 자본가들에게 ‘생각의 자유’를 박탈당하고 항상 감시당하는 데 악용될 수도 있다.

 

 

8.jpg

▲ 칼렌시스

수제구두를 만드는 신생기업 칼렌시스는 묘한 마케팅 전략을 구사했다. 여성들이 자주 방문하는 온라인 커뮤니티에 여자용이 아닌 남성용 구두를 홍보하고 나선 것이다. 온라인 키워드 등을 빅데이터 기법으로 분석해 보니 남성 수제구두의 주요 구매자가 여성이라는 분석 때문에 내린 결정이었다. 이 같은 경영 기법을 적용해 제품을 개발하고 마케팅에 나선 결과 영업 실적이 크게 향상돼 2016년 8~11월의 넉달간 월간 매출이 두 배 가까이 올랐다.

 

9.jpg

▲ 네이트 실버

미국의 통계학자이자 세이버매트리션, 정치분석가, 언론인이다. 2007년부터 익명으로 미 대선 결과 예측을 인터넷에 올리다가, 2008년에는 선거 및 정치 분석 웹사이트 FiveThirtyEight를 만들었다. 2008년 대선, 상원의원 선거, 2012년 대선 결과 등을 정확히 예측하였다. 하지만 지난 2016년 미국 대선 때 힐러리 클린턴 당선 예측 실패로 그의 입지는 타격을 받았다.(출처:위키피디아)

 

 

빅데이터의
미래

 

모든 기술발달이 그러하듯 가속도를 내면서 질주하고 있는 빅데이터가 만들어갈 세상이 유토피아가 될 것인지, 디스토피아가 될 것인지는 열려 있다. 살인자의 손에 쥐어진 칼은 사람을 죽이는 도구가 되지만, 외과의사의 손에 쥐어진 칼은 사람을 살리는 도구가 된다. 그러므로 분명한 것은 빅데이터를 ‘기술자’나 ‘장사꾼’들의 손에만 맡겨놓아서는 안 된다는 것이다. 빅데이터에 관한 기술을 이해하고, 빅데이터의 수집 및 관리, 활용에 관한 윤리적 기준을 세워나가는 일에 모두가 적극적으로 나서야한다.