인간은 오래전부터 자신의 생각을 동굴벽에 그림으로 표현하다가 더 나아가 문자로 표현하기 시작했고, 물건의 수량을 표준화된 숫자와 부호를 사용하여 표기하고 기록하기 시작했다. 발명한 문자와 숫자체계의 덕택에 기록을 남기는 일에 소요되는 시간은 획기적으로 줄어들었다. 셈이나 측정을 해서 숫자로 표기하여 기록된 것을 전통적으로 데이터라고 표현한다.
시간이 흐를수록 증가하고 축적된 데이터를 체계적으로 분석하고 정리하기 위해 통계학이 폭넓게 활용되고 있다. 기업 그리고 국가에 이르기까지 유용한 통계량과 정보를 산출하는 행위는 중요한 경영활동이 되었다. 전세계에서 매일 발생하는 데이터의 양은 2020년 기준으로 25억 기가바이트라는 엄청난 빅데이터가 발생하고 그 양은 기하급수적으로 증가하고 있다. 또한 기업에서는 주문접수에서부터 고객납품에 이르는 전 과정에 스마트기반의 자동화 및 정보시스템이 구축되어 모든 업무의 진행과정에서 다양한 데이터가 실시간으로 수집 되고 있다.
이제 인간의 역할은 데이터의 수집과 기록을 벗어나 빅데이터를 활용하여 새로운 정보와 지식을 만들고 가치를 창출하는 활동으로 빠르게 전환되고 있다. 통계분석부터 딥 러닝과 같은 컴퓨팅알고리즘 기반의 인공지능기술을 활용하여 복잡한 현상을 분류하고 판단하거나 예측하기 위한 노력을 통해 알지 못했던 새로운 지식을 창출하고 있다. 그러나 불확실하거나 신뢰할 수 없는 정보와 지식의 홍수로 인해 사회적 비용 또한 발생하고 있어 보다 가치 있는 정보와 지식을 획득하기 위해서 필자는 다음과 같은 제안을 드리고자 한다.
첫째, ‘쓰레기가 들어가면 쓰레기가 나온다’라는 말이 있다. 부정확하거나 오류가 있는 데이터를 분석해서 도출된 결과는 믿고 사용할 수 없으며 오히려 큰 혼란을 줄 수도 있다. 성공적으로 가치를 만들어 내기 위해서는 사용할 데이터의 신뢰성이 관건이다. 따라서 모든 데이터는 그 출처와 정확성을 확인하고 오류는 제거한 다음 사용해야 한다.
둘째, 빅데이터의 분석으로 의미있는 정보를 도출하기 위해 통계기법과 알고리즘에 대한 학습과 이해가 필요하다. 다양한 기법의 용도를 정확히 이해하고 사용해야 하며 특히 어설픈 분석으로 많은 오류를 발생시키고 있는 상관성과 인과성의 개념이해는 매우 중요하다.
마지막으로 정확한 해석을 위해 해당 분야의 다양한 이론과 폭넓은 경험이 반영되어야 한다. 데이터의 분석과정에서 현업 전문가, 통계 전문가, 정보시스템전문가가 협업을 실시하면 보다 다양한 정보와 지식의 창출이 가능하다.
미래학자 엘빈 토플러는 “정보를 가진 자가 권력을 가진다”라고 정보의 중요성에 대해 예견했듯이 이제 정보를 분석하고 활용하는 능력이 중요한 시대가 도래하였다. 우리의 노력은 풍요로운 지식을 만드는 일에 집중되어야 한다. 이를 위해 데이터의 신뢰성을 확보하여야 하며 올바른 분석기법을 사용해야 하고 분야별 전문가들의 소통을 통해 인간의 삶을 윤택하게 하는 지혜를 지속적으로 만들어가야 한다.