위로가기 버튼

국학자료 디지털화·번역, AI로 날개 달아

피현진기자
등록일 2022-12-26 20:04 게재일 2022-12-27 5면
스크랩버튼
진흥원, ‘고도서 한자 인식’ 프로그램 공개… 한문 인식률 정확성 90%<br/>작업 속도 전망… 지속적인 데이터 축적 통해 인식률 높여나가기로
한국국학진흥원이 보유하고 있는 막대한 분량의 국학 자료의 디지털화 작업에 속도가 붙을 전망이다.

진흥원은 오는 28일 국학자료 속 한문을 디지털 텍스트화하는 문자인식(OCR, Optical Character Reader) 프로그램인 ‘고도서 한자 인식’ 프로그램을 공개한다. 이번에 공개하는 서비스는 한국국학진흥원 홈페이지에서 제공되며, PC뿐 아니라 태블릿과 스마트폰으로도 이용이 가능하다.

또한 OCR을 활용한 ‘고도서 이미지 검색’과 필사본 서체를 확인 가능한 ‘필사본 자전 서비스’도 함께 공개할 예정이다.

앞서 진흥원은 4차 산업혁명 시대 국학자료 관리 방법의 획기적인 전환 필요성을 인식하고, 장기 프로젝트로 인공지능을 활용한 국학자료 자동번역 프로그램 개발에 착수했다.

이번에 공개한 고도서 한자 인식 프로그램은 국학자료 속의 한자를 디지털 텍스트로 변환하는 기술로, 한문 인식률의 정확성은 약 90% 이상에 달한다.

그동안 국학 자료는 한문으로 적혀있어 일반인은 접근하기 어려웠다.

국학 자료의 활용은 디지털 텍스트화와 한글 번역은 필수적이라 할 수 있지만, 막대한 예산과 긴 시간이 필요했기 때문이다.

국학자료를 디지털화 및 번역하는 작업은 ‘스캐닝·촬영→텍스트 입력→전문 번역’이라는 20년 전부터 이뤄진 방식 그대로 진행돼 이미지 디지털화는 50% 미만, 텍스트 디지털화는 5%도 채 진행되지 못했다.

이에 진흥원은 인공지능을 활용한 자동번역 프로그램 개발에 착수, 소장한 국학 자료를 기반으로 고도서 원문자료의 자동인식부터 표점, 한글 번역까지 일련의 과정을 인공지능을 통해 자동화할 계획이다.

이번에 공개하는 고도서 한자 인식 프로그램은 이 작업의 첫 단추로, 향후 기관은 지속적인 데이터 축적을 통해 한자의 해서체뿐만 아니라 초서체에 대한 인식률도 높여갈 예정이다.

정종섭 진흥원장은 “인공지능을 활용해 국학 자료를 자동 번역하는 사업은 일반인들이 국학자료를 쉽고 가깝게 접할 수 있는 중요한 작업”이라며 “우리의 전통 기록유산과 첨단기술을 접목한 새로운 일자리 창출뿐만 아니라, 기록유산에 담긴 소중한 가치를 발굴하는 데 기여할 것”이라고 밝혔다.

/피현진기자

phj@kbmaeil.com

사회 기사리스트

더보기
스크랩버튼