안찬수의 더 느린질주: 국보 ‘승정원일기’ 번역으로 본 AI의 현재와 미래/ 김기범 경향신문 기자

2018년 1월 15일 월요일

국보 ‘승정원일기’ 번역으로 본 AI의 현재와 미래/ 김기범 경향신문 기자

“<승정원일기(承政院日記)>는 그때의 사실을 모두 실현하였으니, 아무도 모르는 사람이 없어 보지 않는 사람이 없습니다. 본 자는 전해주고 듣는 자는 의론하여 온 세상을 유포하여 사람들의 이목을 도우니, 신의 사심(私心)이 애통하여 곤궁한 사람이 돌아갈 곳이 거의 없습니다.”

이 글은 영조 52년(1776년), 영조의 손자인 정조가 아버지인 장조(사도세자)에 대한 <승정원일기> 속 기록을 지워달라며 보낸 상소의 앞부분이다. 옛스러운 문체 외에 부자연스러운 부분을 찾아보기 힘든 이 현대어 번역은 인공지능(AI)으로 자동번역한 내용이다. 고문 번역 전문가가 번역한 것과도 큰 차이가 없다. “<승정원일기>의 경우는 그때의 사실이 전부 실려 있으니”라고 번역해야 할 맨 앞부분 정도가 잘못된 번역으로 지적됐을 뿐이다.

■ 스스로 번역학습하는 인공지능

이렇게 인간 전문가의 번역과 큰 차이가 없는 인공지능의 자동번역은 지난해 12월 인간 전문가의 평가에서 5점 만점에 3점 그러니까 100점에 60점가량의 점수를 얻었다. 인공지능만으로 <승정원일기>라는 고전문헌을 정확히 번역할 수 있는 수준은 아니지만 초벌 번역을 통해 전문가의 번역을 돕기에는 충분하다는 평가였다. 인공지능을 통한 <승정원일기> 번역을 추진하고 있는 한국고전번역원과 한국정보화진흥원은 인간 전문가가 번역할 경우 2062년에야 번역이 완료될 것이라 예상했던 것을 2035년으로 27년가량 앞당길 수 있다는 장밋빛 전망을 내놓은 바 있다. 이런 번역이 가능했던 것은 컴퓨터 하드웨어의 발전과 이를 통해 빨라진 연산처리 속도, 그리고 기존에 단어와 구문 단위로 번역했던 통계 기반의 번역과는 달리 문장을 통째로 파악하고 번역하는 인공신경망 기계번역(NMT) 덕분이다.

인공지능의 학습을 위해 고전번역원과 정보화진흥원이 만든 코퍼스(말뭉치)는 35만개가량인데 전문가들은 보통 인공지능이 제대로 된 자동번역을 수행하기 위해서는 100만~200만개의 코퍼스가 있어야 한다고 말한다. <승정원일기>의 예를 들면 코퍼스는 인간 전문가들이 기존에 번역해놓은 정확한 번역과 <승정원일기> 원문의 쌍이 된다.

백한기 고전번역원 고전정보센터장은 “인간 전문가의 정확한 번역이 존재했기 때문에 인공지능을 학습시킬 수 있는 양질의 데이터를 만드는 것이 가능했다”며 “예상보다 인공지능의 번역 결과가 높은 평가를 받을 수 있었던 것도 정확하고 풍부한 학습 데이터 덕분으로 분석된다”고 설명했다.

■ 고전문헌 번역의 획기적 발판

이렇게 인공지능에 의해 <승정원일기> 번역이 앞당겨지는 것은 사실 한국 사회가 이 방대한 양의 기록물에 대해 갖고 있는 자랑스러움과 부끄러움이라는 상반되는 감정을 조금이라도 빨리 해소할 수 있는 기회이기도 하다.

조선시대 임금들의 일거수일투족을 담은 기록물인 <승정원일기>는 국보 303호이자 유네스코 세계기록유산으로 지정돼 있다. 임진왜란 때 소실된 광해군 이전 부분을 제외하고도 인조~순종 사이의 기록이 3243책, 약 2억4000만자에 달한다. 단일 기록물로서는 세계적으로도 가장 방대한 양을 지닌 문헌이니 후손으로서 긍지를 가질 만하다.

그러나 이렇게 자랑스러운 기록물에 어떤 내용이 담겨 있는지 파악하지 못하고 있다는 점은 부끄러워해야 하는 부분이기도 하다. 1994년부터 고전번역원과 고전번역 전문가들이 23년 동안 번역한 양은 전체의 22% 정도인 499책에 불과하다. 고전번역원이라는 기관 자체가 민간에서 만든 것이고, 국가기관으로 편입된 것이 불과 10년 전이라는 점만 봐도 한국 사회가 얼마나 고전문헌 번역에 관심을 두지 않았는지를 알 수 있다. <승정원일기>의 경우 1999년 국보로 지정하고 2001년 세계기록유산에 등재하는 것에만 관심을 두었을 뿐 그 안에 어떤 귀중한 역사적 사실들이 담겨 있는지에 대해서는 나몰라라 했던 것이다.

그런 점에서 인공지능의 고전문헌 번역사업 투입은 고전문헌 연구, 역사 연구에 획기적인 변화를 일으킬 수도 있다. 인공지능이 인간 번역자의 수고를 점수만큼인 약 60% 덜어줄 수 있다면 그만큼 번역에 드는 시간을 단축함과 동시에 번역의 질을 올릴 수 있다. 하루가 다르게 인공지능 기술이 발전하고 있음을 감안하면 인공지능의 번역 수준은 계속해서 향상될 것이고, 그만큼 <승정원일기> 번역에 드는 시간도 줄어들 수 있다. 실제 2016년 3월 ‘알파고 리’가 이세돌 9단을 상대로 승리한 지 1년7개월이 지난 2017년 10월 구글은 알파고 제로가 알파고 리의 실력을 능가했다고 발표한 바 있다. 규장각 도서 등 아직 햇빛을 보지 못한 상태의 방대한 고전문헌들의 번역에도 인공지능이 크게 기여할 수 있을 것이다.

■ 인공지능도 사람의 손길 필요

물론 인공지능의 고전문헌 번역이 순조롭게만 진행되는 것은 아니다. <승정원일기> 전체 번역을 위해서는 물론, 다른 문헌의 번역을 위해서는 풀어야 할 과제가 많다.

고전번역원과 정보화진흥원 등이 가장 먼저 풀어야 할 숙제는 현재 영조대의 기록에 특화된 인공지능의 번역 실력을 다른 임금 때의 기록에도 적용 가능하도록 학습시키는 일이다. 60점이라는 평가 역시 영조대의 기록에 머물러 있을 뿐 다른 임금 때의 기록에 대한 자동번역 결과는 아직 기대에 못 미치고 있다. 예를 들어 고종 때 기록의 경우 한문 문장 구조에 차이가 있을 뿐 아니라 신문물이 유입되고 새로운 제도가 생겨나면서 인공지능 번역의 질이 낮아지는 것이다. 이를 보완하기 위해서는 다른 임금 때의 기록을 코퍼스로 만들어 학습시키는 것이 필수적이다.

여기서 또 고전문헌 번역의 걸림돌로 작용하는 것이 쉼표나 마침표 등 문장부호를 표기한 판본을 말하는 표점본을 만드는 작업이 필요하다는 점이다. 한문은 어디서 끊어 읽느냐에 따라 뜻이 완전히 달라지는 경우가 많기 때문에 쉼표나 마침표가 들어 있는 판본을 자동번역한 결과는 문장부호가 없는 판본을 번역한 것보다 질이 높을 수밖에 없다. 그래서 원문을 읽고 뜻을 파악할 수 있는 인간 전문가의 역할이 더욱 중요해진다. 표점본을 만드는 작업은 전문가만이 할 수 있기 때문이다.

인공지능의 번역 능력을 <승정원일기> 이외의 다른 고전문헌에 확대하는 것 역시 중요한 과제다. 현재 고전번역원이 번역 현대화 작업을 추진하는 <조선왕조실록>은 물론 고전 시가나 개인 문집 등 다양한 문체로 쓰인 고전문헌들에도 인공지능의 번역을 적용하려면 방대한 양의 학습 데이터를 만들 필요가 있다. 고전번역원이 이미 많은 양의 고전문헌 번역본을 보유하고 있지만 이를 디지털 데이터로 만드는 것에는 많은 예산과 인력이 투입되어야 한다.

고전번역원과 정보화진흥원은 현재 인터넷으로 제공하고 있는 <승정원일기> 원본 서비스에 자동번역 기능을 추가하는 것을 목표로 삼고 있다. 아직 인간 전문가의 번역이 존재하지 않는 고종 때 기록의 원본에 들어가 자동번역을 하면 구글 번역기처럼 즉각적으로 번역 결과를 보여주도록 하려는 것이다. 백한기 센터장은 “<승정원일기> 원본에 자동번역 기능이 생기면 기존에 불가능했던 통시적인 고찰과 인물, 사건에 대한 심층적인 연구가 가능해질 것”이라며 “<승정원일기> 자체의 내용 연구는 물론, 역사 연구에도 큰 도움이 될 것”이라고 말했다.

<김기범 기자 holjjak@kyunghyang.com>

출처 http://v.media.daum.net/v/20180114211134701

안찬수의 더 느린질주

2018년 1월 15일 월요일

국보 ‘승정원일기’ 번역으로 본 AI의 현재와 미래/ 김기범 경향신문 기자

댓글 없음:

댓글 쓰기

about me

페이지

followers