얼마 전 경북매일 구독자로부터 왜 표준어가 아닌 방언으로 쓴 시에 대한 칼럼을 쓰느냐는 질문을 받았다. 이미 누누이 언급했듯이 문학에서의 토착적 정서와 변두리 사람들의 심상을 효과적으로 드러내는 방언은 표준어에 버금갈 만큼 중요한 무형문화유산이라는 대답을 했다. 또한 방언은 인간의 능력으로는 도저히 도달하기 힘든 지식정보 관리를 빠른 시간 내에 처리해낼 수 있는 인공지능의 시대에는 표준어 이상으로 쓸모 있는 정보 데이터이기도 하다는 답도 곁들였다.
영국은 산업혁명을, 프랑스는 정치혁명을, 독일은 정신혁명을, 미국은 청교도 정신을 기반으로 한 지식정보화 혁명을 이루면서 세계사를 한 단계씩 끌어올렸다. 한국은 20세기 이후 전 세계가 깜짝 놀랄 만큼 단 기간에 서구가 수 세기에 걸쳐 이룩해온 제도적 민주화와 경제적 발전과 기술적 성취라는 기적을 이뤘다. 현재 21세기 한국의 놀라운 지식정보화 기술력과 디지털 생산력은 세계적인 경쟁력을 가지고 세계를 선도한다. 지금은 음성, 문자, 이미지를 벡터(0.1)로 전환하여 호환할 수 있는 AI기술시대이자, 기계가 사물을 인식하고 감성까지 그대로 베낄 수 있는 GPT-4(Generative Pre-Training4)의 시대이다. 문제는 사람의 말소리는 순간순간 달라진다. 그리고 지역에 따라 계층에 따라 분화되며 언어권에 따라 또 광범위하게 변이된다. ‘아버지’라고 말한 음성 파형은 말소리로 발화할 때마다 조금씩 달라지지만 동일한 것으로 인식하는 변별적 범주가 있다. 이것을 음운이라고 규정한다. 표준어 ‘잠자리’는 지역에 따라 ‘잔자리’, ‘잠바리’, ‘철갱이’, ‘철기’와 같이 매우 복잡한 방언 분화형을 생산한다. AI나 GPT-4와 같은 기계가 이러한 방언형을 ‘잠자리’로 인식할 수 있게 만들기 위해서는 이러한 방언 분화형의 데이터를 엄청나게 확보해서 이들을 함께 묶어내야만 한다.
우리나라 언어 정보처리 회사 ‘솔트룩스’는 이러한 방언 음성형들을 클라우드 데이터로 구축하는 일을 오랫동안 추진해 왔다. 그리고 ‘당신의 목소리를 구매합니다’라는 광고 문구를 통해 다양한 언어와 방언들을 동시통역함은 물론 방언이 섞인 문학작품을 제대로 번역할 수 있는 시대를 준비해 오고 있다. 그러나 인공지능이 표준어만 학습해 왔다면 그 인공지능은 편향된 데이터를 바탕으로 학습되었기 때문에 방언이나 개인적 언어 변이를 해석해 낼 수 없게 될 것이다. 언어의 지역적 편향성이 심각한 문제를 일으킨 사례로 윈터라이트 랩(Winterlight Labs)이라는 캐나다의 스타트업에서 개발한 알츠하이머병이나 파킨슨병을 진단하는 인공지능의 성능을 들 수 있다. 이 발명은 매우 획기적이었지만 데이터를 온타리오 지역에서 수집한 까닭에 미국 영어 중에서도 온타리오 방언 사용자들만 진단이 가능했다. 표준어나 혹은 방언이냐에 따른 데이터의 편향성으로 인해 인공지능이 무용에 가까운 폐기물이 될 수가 있고 언어정보가 어떤 변이형인지에 따라서 그 기능이 천차만별로 달라질 수도 있다는 좋은 사례다.
충남 서산 출신 김순일 시인의 ‘스산 사투리4’를 예를 들어보자. ‘스산 사투리4’를 예를 들어보자. “갯바닥이나 뒤지며 살든 안흥 새악시가 근친을 왔는디유/새신랑의 품속에서유 야들야들해져가지구유 갯바닥이나/ 뒤지며 살든 새악시가 상글상글 근친을 왔는디유/갯바닥이 달을 품구 응어리진 멍울을 푸는 밤에유 지집 아이들이 모여 앉아서유 첫날밤 이야기를 졸랐는디유/보리누름에유 지름기 자알잘 흐르는 우럭은유 그래두유/ 눈이나 뜨구 먹는디유….” 라는 시를 표준어만 학습한 AI는 도저히 읽어낼 수가 없을 것이다. 충남 방언에서는 중모음이 길어지면 고모음으로 변화한다. ‘서:산’이 ‘스:산’으로 바뀌며 접속어미 ‘-고’가 ‘-구’로 바뀌고 모음으로 끝나는 접속어미 끝에 ‘-유’가 붙어서 말소리가 느려지고 길어진다. ‘계집’이 ‘지집’으로 ‘기름’이 ‘지름’으로 ㄱ-구개음화가 널리 퍼져 있는 충남 방언의 특성을 학습하지 못한 인공지능은 충청도 방언으로 된 이 시를 제대로 읽어내기 힘들 것이다.
이런 점에서 인공지능의 데이터 편향성을 극복하고 방언을 이해하는 인공지능을 개발하는 일은 개발자들의 윤리적 의무라고도 할 수 있다. 2002년부터 한국지능정보사회진흥원(NIA)에서는 남북을 포함한 한국어의 지리적 사회 계층적 방언음성형을 대대적으로 조사하여 클라우드 데이터로 구축하려는 국가적 시도를 진행하고 있다.