목소리를 내지 않고 입 모양과 목 근육의 움직임만으로 상대방과 대화를 나눌 수 있는 차세대 음성 복원 기술이 국내 연구진에 의해 개발됐다.
포항공과대학교(이하 포스텍) IT융합공학과·기계공학과·전자전기공학과·융합대학원 박성민 교수와 홍성욱 박사 연구팀은 목 주변 근육의 미세한 움직임을 빛으로 읽어내고 이를 AI(인공지능)를 이용해 실제 목소리로 되살리는 ‘웨어러블 음성 합성 기술’을 구현했다고 2일 밝혔다.
연구팀은 사람이 말을 할 때 성대뿐만 아니라 목 주변 근육과 피부가 정교하게 움직이며 일정한 패턴(움직임 지도)을 만든다는 점에 주목했다.
이를 정밀하게 측정하기 위해 부드러운 실리콘 소재와 소형 카메라를 결합한 ‘다축 변형 매핑 센서’를 자체 개발했다. 목에 간편하게 착용하는 이 센서는 피부의 미세한 굴곡 변화를 실시간으로 포착해 데이터화한다.
수집된 움직임 정보는 AI가 분석해 사용자가 의도한 단어와 문장을 추론한다. 여기에 개인의 음성 특징을 학습시킨 음성 합성 기술을 접목해 실제 사용자의 목소리와 유사한 음성으로 출력해 준다.
특히 재착용 시 발생하는 오차를 자동으로 보정하는 알고리즘을 적용해 일상생활에서도 안정적인 성능을 유지하도록 했다.
기존의 음성 복원 기술은 근전도나 뇌파 등 복잡한 생체 신호를 활용해 장비가 크고 착용이 불편하다는 단점이 있었다. 반면 이번 기술은 가벼운 웨어러블 형태로 소음이 심한 공장이나 산업 현장에서도 높은 정확도로 음성을 재구성할 수 있음을 실험을 통해 증명했다.
이 기술은 후두 수술이나 성대 질환으로 목소리를 잃은 환자들의 의사소통 보조 기구는 물론 마이크 없이 대화해야 하는 특수 산업 현장, 도서관처럼 정숙이 필요한 곳에서의 ‘조용한 커뮤니케이션’ 등 폭넓은 분야에 활용될 전망이다.
박성민 교수는 “발성 장애 환자들이 자신의 목소리를 되찾는 날을 앞당길 수 있기를 바란다”며 “산업 현장부터 일상 속 조용한 대화까지 응용 범위가 매우 넓은 원천 기술”이라고 말했다.
이번 연구 결과는 의공학 분야 국제 학술지인 ‘사이보그 및 바이오닉 시스템(Cyborg and Bionic Systems)’ 온라인판에 최근 게재됐다.
/단정민기자 sweetjmini@kbmaeil.com