박한우 영남대 언론정보학과 교수
모바일과 SNS(사회관계망 서비스), IOT(사물인터넷)와 AI(인공지능) 등을 통해 수집 분석한 빅 데이터가 사람의 생각을 읽고 미래를 예측한다, 데이터가 돈이 되고 곧 권력이 되는 시대다. 조지 오웰의 1984가 현실이 되고 빅 브라더는 우리 생활 현장 깊숙이 침입했다.
20여 년 빅 데이터 연구와 효용에 천착해 온 디지털 점쟁이 박한우 영남대 언론정보학과 교수(50)는 “이제 데이터 복지에 관심을 가져야 할 때”라며 인공지능과 빅 데이터 활용에 인권과 공정성을 지켜야 한다고 주창했다. 영남대 한복판 낡은 문과대학 연구실에서 컴퓨터 사회과학을 하는 그는 정작 모바일보다 데스크 탑 컴퓨터가 편하다.
- 2020 도쿄올림픽에서 한국여자배구가 세계 4위 터키를 꺾은 것도 빅 데이터가 힘이 된 듯하다. 선수 출신도 아닌 감독 라바리니는 오로지 데이터를 철저히 분석함으로써 먼저 나를 알고 상대를 파악해 내 강점을 최대한 활용해 상대의 약점은 파고들었다. 빅 데이터의 이론이 스포츠를 통해 본격 속살을 드러낸 느낌이다.
△높이뛰기 선수 우상혁이 데이터 분석을 통해 한국신기록을 자신했다는 인터뷰를 봤다. 이번 도쿄 올림픽에서 빅 데이터의 이용은 더욱 일반화됐지만 이미 미국 프로야구에서 일찍이 빅 데이터의 활용이 증명됐다. 프로야구 선수들이 장타를 치려면 공을 높이 쳐야 한다는 것이 데이터를 분석한 결과였고 실제 홈런 선수들의 타격 방향이 뜬공으로 바뀌고 있다.
- 빅 데이터의 이론이 우리 사회에 본격 등장한 지 10여 년이 지났다. 박 교수가 처음 빅 데이터 이론을 펼쳤을 때와 지금 우리 사회에 어떻게 영향을 미치고 있는지를 비교해 달라.
△ 개인의 소비생활에서부터 기업이나 공공기관에서 생산해 내는 엄청난 데이터들을 빅 데이터라 했다. 그런데 그 방대한 데이터가 형태에서 음성과 문자를 넘어 사진과 동영상 관계망 등 지금까지는 무시해왔던 사람들의 사소한 행위들까지 모두 데이터화하고 있다.
이제 빅 데이터는 스포츠에서뿐 아니라 선거와 재난관리, 기업의 경영과 영업 마케팅 도시 도로와 개발 환경 등 소용이 닿지 않는 곳이 없다. 국가와 기업의 정책 수립과 경영 전략에서 의사소통과 결정 등 모든 방면에서 빅 데이터가 동원되고 있다. 심지어 개인의 DNA 유전자 생체 정보까지도 데이터가 되고 있다.
- 빅 데이터의 개념이 달라진 것인가. 이에 따른 사회적 대응 방안이 필요할 것 같다.
△ 개념이 달라진 것이 아니라 확장된 셈이다. 데이터의 생산량이 폭발적으로 많아졌고 다양해지고 특히 비정형화한 데이터들이 늘어나고 있는 것이다.
개인의 의도와 상관없이 모든 행위와 심지어는 생각 까지도 데이터화 되고 있는 것이다. 신용카드를 사용하면서 자신의 사용 내역이 데이터로 수집돼 소비 패턴이 분석되고 기업의 판매마케팅에 활용되기도 하고 생산방식에 이용되기도 한다. 분석 방법이 인공지능과 기계 학습을 통해 인과성을 더욱 정확하게 밝혀낼 수 있게 됐다. 예측력이 높아진 것이다. 유 튜브를 볼 때 내 생각을 미리 읽어 내가 관심 있는 것, 보고 싶은 것만 보게 하는 것이 바로 그것이다. 확증편향을 심화시키는 것이다. 빅 데이터를 통해 인간의 욕구를 더욱 분명하게 잘 파악하고 있다. 그만큼 맞춤화되고 정교해지고 정밀화했다. 인간의 욕구를 심리학에서 분석하던 방식이 빅 데이터에 적용된 것이다.
- 무서운 이야기다. 정보의 수집 방법도 진보하고 다양화되고 있다고 생각해도 되겠나. 새로운 문제점이 생겨날 것 같은데.
△사람들의 인식과 행동에 관련된 모든 신호들이 모두 정보가 되어 수집되고 있다. 사람들의 이동과 통화 문자 소셜미디어 인터넷 검색 트랜드 전자상거래 등 모든 데이터들이 IOT(사물인터넷) ,각종 센서와 SNS를 통해 수집되고 분석되고 있다. 모바일이나 인터넷에서 정보에 접근하기 위해 ‘동의’를 꾹 누르는 행위가 그런 수집을 가능하게 만드는 이유 중 하나다.
이 과정에서 데이터 수집과 분석 과정에서 개인의 인권 침해는 없는지, 또 공정성이 침해되지는 않는지 같은 감시가 필요하다. 사회적 정의와 공공 이익을 위해 빅 데이터가 활용되어야 한다.
- 대구에서 코로나19가 창궐하던 지난 해 2월 소셜 미디어에서 뉴스가 유통되는 방식을 빅 데이터로 분석한 걸로 알고 있다. 어떤 결론을 얻어냈나. 또 다른 영역으로 확장하는 것도 가능할 것 같다.
△ 재난과 스포츠는 빅 데이터의 입장에서는 즉각 대응이라는 점에서 매우 닮았다. 코로나19 바이러스의 확산이라는 재난 사태에서 어떻게 대응하는 것이 가장 빨리 상황을 처리할 수 있느냐는 것을 빅 데이터로 분석했다.
당시 사람들이 어떤 문제에 집중하는지를 알 수 있었고 거기에 맞춘 대응책도 나왔다. 또 코로나19 사태 당시 사용 언어를 빅 데이터로 분석한 결과 남성과 여성의 언어가 다른 점도 밝혀냈다. 남성과 여성의 코로나를 인식하고 대응하는 방식에서 차이가 나는 것을 확인했다.
이젠 부동산 시장에서도 그냥 ‘역세권’이라면 ‘역에서 몇 분’이라거나 ‘몇 m’라는 식의 물리적 아날로그식 개념에서 휴대폰 주파수 분석을 통해 유동인구를 집계 분석해 지역 한계를 분명하게 특정하게 됐고 이를 선거운동 등에서도 활용하고 있는 것으로 알고 있다.
- 그런 점에서 빅 데이터는 통계와 비슷한 것 같다. 근본적인 차이점은 무엇인가.
△ 통계는 기존의 강한 신호를 바탕으로 분석해서 결론을 내린다. 그러나 빅 데이터는 ‘약한 신호’를 놓치지 않고 그 맥락을 찾아내 효과를 측정하는 것이다.
세렌디피티(serendifity)라는 ‘느닷없는’ ‘약한 정보’까지도 수집해 이를 알고리즘을 통해 객관화시키는 것이다. 데이터 간의 연관, 관계 분석을 통해 데이터의 맥락을 짚어내는 것이다. 그만큼 정확성을 높이는 것이 빅 데이터다.
- 통계 기법을 활용한 여론조사가 신뢰도를 의심받고 있다. 빅 데이터가 그 문제를 극복할 수 있다는 말인가.
△ 여론조사는 응답률이 5%도 되지 않는다. 결국 답변할 사람만 답변한다는 말이다. 이는 누가 어떻게 답하느냐는 것을 어느 정도 조정하는 것이 가능하다는 이야기일 수 있다. 무작위로 샘플을 모집하고 또 그 대상들이 성실히 답변하는 식의 여론조사가 아니라는 이야기다. 응답자에 가중치를 적용하고 조사방법과 통계 분석 처리 방법과 기술이 아무리 과학적이고 정확해도 그 답변 자체에 대한 신뢰도가 떨어지면 조사 자체도 신뢰도가 떨어지는 것이다.
데이터 자체가 정크 데이터일 수 있기 때문이다. 거기에서 정확한 판단을 내릴 수는 없을 것이다. 그러나 빅 데이터는 정보 자체가 정직하다. 빅 데이터의 정보는 생산자가 의도하지 않지만 갈수록 다양화되고 비정형화되고 있다.
- 사람들은 자신들이 생산하는 정보가 데이터가 되어 기업들이 이익을 가져가고 있지만 생산자인 개인에게는 전혀 이익으로 돌아가지 않고 있다는 사실을 잘 인지하지 못하고 있는 것 같다.
△ 빅 데이터에 대한 활용이 커질수록 데이터 생산자에 대한 보상이 뒤따라야 한다. 이제는 국가와 사회도 데이터 복지에 대한 관심을 가져야 한다. 인문학자인 내가 지금 관심을 가지고 있는 것은 ‘데이타 복지’다. 빅 데이터와 정보화사회가 발전할수록 개인이 생산자가 되고 기업들은 그 정보들을 수집해서 이익을 창출하고 있다. 거기에 대한 이익을 돌려주어야 한다고 생각한다. 최근 대통령직속 정책기획위원회에 “데이터 생산자에게 이익의 일부를 돌려줘야 한다”는 내용의 건의서를 올린 것도 그 때문이다.
- 데이터 복지라니, 생소한 개념이다. 성과는 얻어냈나. 앞으로 어떻게 대처해야 하나.
△ 개인이 사용한 카드나 모바일이 생산한 데이터 정보를 금융권이나 통신사 배달앱, OTT 등이 수집 분석해 이익을 얻었으면 고객에게 환원해야 한다고 주장한 것이다.
그랬더니 “의의는 있으나 사회적 합의가 필요한 만큼 신중한 접근이 필요하다”며 ‘아직은 시기상조’라는 식의 답변이 돌아왔다. 법 규정이 현실을 따라가지 못하는 문화지체현상을 보여준 것이라 생각한다.
앞으로는 개인은 더욱 분절화 되고 고립이 심화되며 파편화될 수 있다. 기업이 생산하면 개인들이 소비했던 것이 전통 시장의 일상 모습이었다. 그러나 빅 데이터에서 개인이 데이터의 생산자가 되고 기업이 데이터의 수집을 통해 수익을 가져가는 것이다.
지금 전화에서 음성 통화 외에 문자는 모두 무료로 제공되고 있다. 이것은 경쟁자인 카카오톡이나 SNS 소셜 미디어의 등장에 따른 경영전략일 수도 있지만 그 문자 메시지는 데이터화되어 사업자들에게 이익으로 돌아가고 있는 것이다. 컴퓨터 소프트웨어 기술에서 인문학적 소양이 필요한 이유다.
-우리나라는 인터넷 강국이라 했고 한 때는 소프트웨어를 활용한 정보화 분야에서 세계적인 선도주자라고 했다. 지금도 그 명성이 유효하나. 우리나라가 경제적으로 선진국으로 진입했지만 정보화에서는 오히려 후진국보다 뒤쳐진다는 뉴스를 본 적이 있다.
△ 일종의 문화 지체 현상이 나타난 것이다. 정보화 사회 초기 산업화에는 유선(케이블)이 성패를 결정했다. 우리나라가 강국일 수 있었다. 그런데 유선에서 무선으로 정보화 산업이 발전하면서 후발 국가들이 무선으로 곧바로 진입할 수 있는 유리한 위치가 된 것이다. 우리는 유선에서 무선으로 환승하는 데 시간이 걸렸던 것이다. 지금 정보화는 데이터를 중심으로 지능화하고 있다.
- 하드웨어에서 강점을 보였으나 소프트웨어에는 약하다는 이야기로 들린다.
△우리나라는 정보화에서 빅 트랙 플렛폼 기업에 너무 종속된 면이 있었다. 세계무대에서 인정을 받지 못하고 있는 것이다. 인문사회학적 접근이 필요한 이유다. 정보에서도 개인의 리터러시(문해력)가 약하기 때문이다. 지금부터 해결해야 할 과제다.
□ 박한우(50)
영남대 언론정보학과, 디지털융합비지니스대학원, 동아시아문화대학원 교수
영주에서 초교 3학년때 대구로 전학와서 성광고와 한국외국어대와 서울대에서 석사학위를 받았다. 한국지능정보화사회진흥원(NIA)에서 연구원으로 있다가 IMF때 미국으로 건너가 뉴욕주립대에서 박사학위를 받았다. 이후 네덜란드 왕립 아카데미 연구회원을 거쳐 2003년 영남대에서 언론학부 교수로 있으면서 컴퓨터공학자들과 빅데이터 이론을 비롯 뉴미디어언론학을 강의하고 있다. SSCI저널에 논문 100편 이상 게재. 30대에 이미 논문 피인용수와 구글 검색에서 디지털정보 관련 국제 학회로부터 인정받은 빅 데이터 권위자.
/이경우 편집위원