위로가기 버튼

불완전한 시선

등록일 2023-01-24 19:37 게재일 2023-01-25 18면
스크랩버튼
전재영 한동대 교수·AI융합교육원
전재영 한동대 교수·AI융합교육원

‘데이터의 시선’이라는 제목을 처음 받았을 때 나는 잠시 헷갈렸다. 데이터를 바라보는 나의 시선인지? 아니면 나를 바라보는 데이터의 시선인지? 예전에는 후자의 경우가 말도 안되는 이야기였겠지만, 지금은 데이터가 나보다 나를 더 잘안다고 말하는 시대이기에 어쩌면 후자가 더 맞을 지도 모르겠다.

영국 주간지 이코노미스트는 “세상에서 가장 중요한 자원은 더이상 원유가 아니라 데이터”라고 말했다.“알고리즘에 낚여서”라는 말을 우리는 이제 너무 쉽게 하지만, 그 알고리즘은 사람의 행동과 말과 글을 관찰하고 모은 데이터에 기반한 것이라는 것을 우리는 알아야 한다. 데이터 없는 알고리즘은 기름 없는 자동차와 같은 것이다.

지금 빅테크 기업들은 사람의 언어를 이해하는 기계를 만들기 위해 언어모델이라는 것을 만들어내고 있다. GPT, BERT, 그리고 최근 ChatGPT까지. 그리고 그 성능은 우리를 놀라게 했다. 질문에 대한 답을 하는 것은 물론이거니와 인간처럼 시를 쓰고 심지어는 코딩까지 해준다.

언어모델개발을 초간단하게 설명하자면 이렇다. 사람들이 작성한 온라인상의 수많은 글들을 Wikipedia, Fox News, CNN News 같은 사이트로부터 수집한 후, 이것을 인공지능을 학습시키는 훈련데이터로 사용하게 된다. 대표적인 훈련 방식은 주어진 문장에서 한 단어를 고의로 제거하고 그 제거된 단어를 예측하도록 컴퓨터를 훈련시키는 것이다. 그리고 이렇게 예측되어진 여러 개의 단어들 중 확률이 제일 높은 단어를 답으로 제시하게끔 하는 것이다.

우리는 여기서 중요한 점 하나를 짚고 넘어가야 한다. 인공지능 언어 모델을 만들기 위해 사용하는 훈련 데이터, 즉 우리 인간이 온라인상에서 생성한 글들이 항상 온전하지만은 않다는 것이다. 우리 인간의 부족함과 불완전함, 우리의 선입관과 차별주의적인 편견 및 정치적인 색깔까지 고스란히 스며들어 있는 것이 우리 사람들의 글이기 때문이다.

그런 불완전하고 편견을 가진 글을 훈련 데이터로 사용해서 학습된 인공지능 모델은 어쩔 수 없이 편견을 가진 답을 할 수밖에 없는 것이다.

인간이 가진 시선이 인공지능의 시선이 되는 것이다. 데이터는 우리 인간의 시선을 비추는 거울이 되는 것이다.

범죄자 재범률을 예측해서 보석 석방을 승낙할 것인지를 판단하는 인공지능 프로그램이 아프리카 미국계인에게 인종차별주의적 결정을 내려 한 때 큰 기사거리가 되었었다. 우리의 잘못된 선입관이 그대로 인공지능에 반영된 하나의 사례이다. 인종차별 기계를 만든 셈이다.

우리의 불완전한 시선은 불완전한 데이터를 만들어내고 불완전한 데이터는 불완전한 알고리즘을 만들어내며, 그런 데이터와 알고리즘은 우리를 불완전하게 바라볼 수밖에 없다. 이것이 데이터의 시선이다. 그리고 때로는 매우 파괴적인 결과를 도래하기도 한다. 완벽한 것을 창조할 수 없는 것이 인간이다. 내가 종교를 가지고 있고 신을 믿는 이유이다.

우리의 디지털 행동이 데이터이고, 그 데이터가 인공지능을 만든다. 우리 모두가 인공지능 개발자라는 것을 잊지 말자.

데이터의 시선 기사리스트

더보기
스크랩버튼