빅데이터는 당신이 할 일을 알고 있다
빅데이터는 당신이 할 일을 알고 있다
  • 김지은 기자
  • 승인 2014.05.12 16:01
  • 댓글 0
이 기사를 공유합니다

▲ 빅데이터는 많은 데이터들 속에서 의미 있는 무언가, 즉 미래를 예측하고자 하는 논리에서 시작된 아주 간단한 개념이다. <일러스트레이션=이영주 기자>

 사람들은 가깝든 멀든 알 수 없는 미래를 궁금해 한다. 기말고사에 나올 문제를, 나아가 이번 학기 학점을 예상해보는 학생들처럼 미래를 알고 싶어 하는 욕망은 인간의 근원적인 본성이다. 미래를 궁금해 하는 건 개개인뿐만이 아니다. 미래 수요를 예측하고, 효율적인 성과 달성을 위해 기업과 정부도 다방면으로 미래 예측에 열을 올리고 있다. 점점 더 깊숙하고 자세한 미래를 요구하는 세상에서 나타난 것이 바로 빅데이터다.

▲ JTBC 예능프로그램 '썰전'에서 사용된 빅데이터.

사실 빅데이터는 갑자기 나타난 것도 아니고, 학자들만 알고 있는 어려운 개념도 아니다. 기업 마케팅이나 선거에나 사용되는 줄로만 알았던 빅데이터 분석은 이제 어디서든 심심찮게 볼 수 있다. JTBC의 예능프로그램 '썰전'에서는 포털사이트, SNS, 블로그 등에서의 빅데이터 분석을 활용했다. 국민여동생을 언급했을 때 따라 나오는 연관검색어를 통해 사람들이 생각하는 국민여동생 연예인은 일반적인 여성 연예인과는 다른 개념으로, '부정적 감성이 없는 환타지 스타'라는 결론을 도출했다. JTBC 뉴스9에서는 기존의 찬반조사에서 추가적으로 의미망 분석을 통해 찬반을 선택한 원인도 파악할 수 있게 했다. 이렇게 빅데이터는 언론이나 미디어에 자주 노출되며 사람들에게 용어는 친숙해졌지만, 정확한 의미를 모르거나 애매모호하게 여기는 경우가 대부분이다. 하지만 빅데이터는 많은 데이터들 속에서 의미 있는 무언가, 즉 미래를 예측하고자 하는 논리에서 시작된 아주 간단한 개념이다.

수많은 비정형 데이터에서 '패턴'을 찾다

인간은 경험과 학습의 동물로, 본인이 겪은 것을 토대로 행동한다. 그렇다면 미래의 행동은 어떻게 알 수 있을까. 수많은 행동의 전체를 파악하고 그 속에서 일정한 패턴을 발견한다면 그것을 미래의 행동이라고 생각하는 것이다. 이미 수많은 미래를 예언한 미래학자 앨빈 토플러가 "미래를 100% 정확하게 알 수 있는 이는 없다. 그러나 혼돈 혹은 혼돈스런 사건과 시스템 속에서도 식별할 수 있는 패턴이 있고 우리는 이것을 찾아낼 수 있다"고 말한 것처럼 미래 예측은 수많은 사건들 속에서 패턴을 찾아내는 것에서 출발한다.

빅데이터는 어려운 컴퓨터 기술이나 통계기법을 아는 사람만 알 수 있는 거창한 이야기가 아니다. 이미 우리는 빅데이터를 통해 미래에 대응해왔다. 사람들은 흔히 연애 상담을 할 때 연애를 많이 해본 경험자를 찾기 마련이다. 시험을 칠 때 모르는 문제가 나오면 대개 3번을 택한다. 모두 축적된 빅데이터의 분석이다. 이처럼 빅데이터 분석은 글로 표현하기 어렵고 수치화하기 힘든 정보인 비정형 데이터들 속에서 특정한 패턴을 찾아 불확실한 미래를 예측하는 것이다.

종전에는 날짜, 온도와 같이 숫자나 수치화·구조화하기 쉬운 텍스트로 이루어진 데이터에서 패턴을 찾아냈다. 하지만 스마트폰의 발달로 개개인의 정보 생산이 손쉬워지면서 웹페이지나 SNS에서 매일같이 대용량의 정보가 쏟아졌다. 이 정보들은 예전과 달리 텍스트뿐만 아니라 이미지, 동영상 등으로 이뤄진 다양한 형태로 이뤄진 비정형 데이터다. 이와 더불어 정보 기술의 발달로 대용량(Big) 데이터의 저장이 가능해졌고, 사람들은 점차 빅데이터 속에서 의미 있는 패턴을 찾는데 집중하기 시작했다.

'썸남'의 마음도 읽어주는 빅데이터

▲ 애플리케이션 텍스트앳은 주고받은 문자대화를 기반으로 감정을 객관적으로 분석해준다.

비정형화된 빅데이터 속에서 패턴을 찾아내는 노력은 불가능할 것처럼 보였던 인간의 감정도 알 수 있게 해줬다. 상대방의 마음을 알려주는 애플리케이션(앱)인 '텍스트앳'이 그 예다. 100% 정확한 것은 아니지만 텍스트앳은 주고받은 문자 대화를 기반으로 감정을 객관적으로 분석해준다. 앱을 내려 받아 상대방과 나의 관계에 대한 기본정보를 입력하고 문자나 카카오톡과 같은 메신저에서 나눈 대화를 불러오면 감정에 관한 분석 보고서를 받을 수 있다. 실제로 텍스트앳 개발자는 이용자가 더 늘어난다면 사람들의 만남이 어떻게 시작해 진행되며, 끝나는지 인간관계의 한 사이클을 알 수 있는 데이터베이스를 구축하는 것도 가능하다고 밝히고 있다.

사람들은 호감도에 따라 다른 대화 패턴을 보인다. 두 사람에게 똑같이 "뭐해?"라고 물었을 때를 가정해보자. 한 사람은 이모티콘과 함께 바로 긴 답장을 보내는 반면, 다른 한 사람은 한참 뒤에 단답형으로 대답한다. 문자만으로 상대방의 마음을 알 수 있게 된 것은 10만여 명이 참여한 약 6억 건의 대화 내용을 기반으로 연인들의 대화 패턴이나 자주 사용하는 단어, 문자 길이와 양, 답장시간 등을 찾아냈기 때문이다. 처음에는 별 마음이 없었던 남녀가 사귀게 되는 등 정확도도 생각보다 높다.

빅데이터는 실생활 속에서도 진가를 발하고 있다. 지난해 서울시가 심야버스를 신설해 큰 호응을 얻었던 뒤에는 빅데이터 분석이 있었다. 심야 시간대 홍대, 강남과 같은 서울의 번화가는 택시잡기로 전쟁터를 방불케 한다. 이에 서울시는 KT와 협약해 심야 통화량 데이터와 고객정보를 이용해 심야버스 시간대 통화량이 가장 많은 지역을 기반으로 유동인구를 파악했다. 여기에 요일별, 노선별 패턴을 분석해 유동인구가 많은 정류장 단위로 심야 버스 노선을 총 9개로 확대했다. 다양한 형태의 거대한(Big) 데이터가 거주 인구 데이터로만으로는 도출하기 힘든 새로운 패턴을 도출해낸 것이다. 결과는 성공적이었다. 기존 시내버스 만족도가 100점 만점에 74점에 그친 반면 심야버스 만족도는 80점으로 높은 만족도를 나타냈다.

수집 못지않게 분석 중요

빅데이터를 단순한 양이 '많은' 데이터라고 생각하면 오산이다. 흔히 3V라고도 부르는데, 초대용량의 데이터 양(volume)뿐 만 아니라 다양한 형태(variety), 빠른 생성 속도(velocity)를 가진 데이터라는 의미다. 요즘은 종전의 정형화된 데이터와 달리 비정형적인 데이터들 속에서 일정한 패턴을 발견하는 것에 대한 중요성이 높아지면서 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 한다. 이 때문에 미국 매사추세츠공대(MIT) 집합지능연구소장인 토머스 멀론은 "빅데이터를 통해 인류가 유사 이래 처음으로 인간 행동을 미리 예측할 수 있는 세상이 열리고 있다"고 주장하기도 했다. 빅데이터가 이른바 미래 예측의 종착점이라는 것이다.

▲ 빅데이터는 21세기의 새로운 원유에 비유된다.

다양한 정보를 포함하고 있는 만큼 빅데이터는 별명도 많다. 그중에서도 주로 비유되는 것이 '21세기의 원유'다. 석유가 없으면 기계가 작동하지 않듯 빅데이터 없이 정보화 시대에서 살 수 없다. 또한 가공되지는 않았지만, 그 속에 가치 있는 패턴이 숨겨져 있다는 점에서 아직 걸러내지 않은 원유라 할 수 있다. 원유 자체보다 정제를 해야 석유와 같은 가치가 높은 기름을 얻을 수 있는 것처럼 빅데이터 역시 수집 못지않게 분석이 중요하다.

수많은 데이터에서 유용한 가치를 분석하는 과정은 보통 데이터마이닝(Data mining)이라고 한다. 무수한 데이터들 속에서 가치 있는 패턴을 찾아내는 작업이 탄광에서 석탄을 캐는 작업처럼 숨겨진 가치를 찾는 것과 비슷하기 때문에 지하에 묻힌 광물을 찾아내는 뜻의 마이닝을 사용하는 것이다. 한국빅데이터학회 정덕훈 부회장은 "수치로 나타나는 정보가 아닌 사람들의 속마음이나 '경험'을 찾아내고 이를 통해 미래 행동을 예측하는 것이 빅데이터 분석의 목적"이라며 "보다 많은 사람들이 참여하도록 하고, 그 안에서 경험을 추출할 수 있게 하는 것이 중요하다"고 말했다.

하지만 전 세계의 모든 데이터를 분석한다고 반드시 좋은 결과가 도출되는 것은 아니다. 경우에 따라 수집한 데이터의 양이 적어도 충분히 가치 있는 결과를 얻을 수 있다. 현재 대부분의 분석서비스 업체들이 빅데이터를 단지 많은 데이터로 생각하고 데이터 수집에만 사력을 기울이고 있지만, 빅데이터 속에는 정말 유용한 정보 외에도 저질 정보도 포함되어 있어 데이터에 숨겨진 의미를 찾아내는 것이 관건이다.
다양한 종류의 데이터를 복합적으로 분석하기 때문에 데이터 간 관계도 중요한 포인트다. 단순히 SNS에서 몇 번이나 언급됐고, 어떤 말이 연상되어 나타났는지가 다가 아니라 어떤 결과를 도출해야할지 염두에 두고 분석을 해야 한다. 우리 대학교 이정형(경영정보학) 교수는 "보통 시각화된 자료만을 빅데이터라고 생각하지만 다양한 소스에서 모은 데이터를 분석하고, 시각화하는 것까지 복합적으로 시행해야만 좋은 빅데이터 분석"이라고 말했다. 또한 "시각화된 자료를 평가하고 피드백하는 과정이 계속해서 이뤄진다면 더 가치 있는 정보들을 얻을 수 있다"고 설명했다.

세상이 넘쳐나는 정보의 바다가 된 것은 이미 오래전 이야기다. 하지만 그 바다 속에서 쓰레기를 건질 것인지, 보물선을 발견할 것인지는 아무도 모른다. 빅데이터에서 사람들의 행동과 마음을 예측할 수 있을지는 전적으로 우리에게 달려있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 부산광역시 사하구 낙동대로550번길 37 (하단동) 동아대학교 교수회관 지하 1층
  • 대표전화 : 051)200-6230~1
  • 팩스 : 051)200-6235
  • 청소년보호책임자 : 권영성
  • 명칭 : 동아대학교 다우미디어센터
  • 제호 : 동아대학교 다우미디어센터
  • 등록번호 : 대전 가 00000
  • 등록일 : 2017-04-05
  • 발행일 : 2017-05-01
  • 발행인 : 이해우
  • 편집인 : 권영성
  • 동아대학교 다우미디어센터 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2024 동아대학교 다우미디어센터
ND소프트