기계 번역

인간이 사용하는 자연 언어를 컴퓨터를 사용하여 다른 언어로 번역하는 일

기계 번역(機械飜譯, 영어: machine translation, MT[1])은 인간이 사용하는 자연 언어를 컴퓨터를 사용하여 다른 언어로 번역하는 일을 말한다. '자동 번역'이라고도 한다.

스페인어 문구를 영어로 번역하고 있는 휴대전화 앱

일관성과 통일성이 있게 번역되는 장점이 있으나 기계 번역은 현재로서는 자연스러운 번역을 보장할 수 없으며, 문장이 부자연스러운 어투로 나오는 경우가 잦다. 하지만 기술적인 진보가 계속해서 이루어지고 있으며 통계 및 인공 지능과 컴퓨터 처리 능력의 발전으로 점점 더 빠르게 성장하고 있다.

기계 번역의 개념 자체는 컴퓨터의 존재 이전부터 존재하기 때문에 기계 번역은 번역 소프트웨어와 동의어는 아니지만 현재 기계 번역은 대부분 번역 소프트웨어로 구현된다. 예를 들어, 영어 문장을 입력하면 그것을 번역하는 한국어 문장을 출력하는 영한 번역 소프트웨어 등이 있다.

역사 편집

초창기 기계 번역은 규칙 기반(RBMT Rule-Based MachineTranslation) 기술을 이용한 것이 주류였다. 규칙기반 기술은 언어문법을 규칙화해 번역하는 방법으로, 개발 과정에서 언어학자가 중심이 되어야 구축이 가능한 번역 기술이었다. 규칙기반 기계 번역은 알고리즘의 기초를 문법에 두기 때문에 정확성이 매우 높다는 장점이 있었으나, 개발 시간과 비용이 많이 들기 때문에 시스트란과 같은 번역 전문 대기업만 할 수 있는 분야였다.[2]

이후 1988년 IBM이 통계방식(SMT, Statistical Machine Translation) 기술을 기계번역에 도입하면서 혁신적인 변화가 일어났다. 통계기반 기술은 방대한 양의 연구 자료, 즉 빅데이터를 이용해 통계적으로 규칙을 생성해 번역하는 방법이다. 통계기반의 기계 번역은 언어학자 없이도 개발을 할 수 있고 데이터가 많이 쌓일수록 번역의 품질이 높다는 장점이 있으며, 반대로 대량의 데이터가 쌓이기 전까지는 번역의 품질이 떨어진다는 단점이 있다.[2]

통계방식의 기계번역이 도입된 이후, 언어 데이터를 다루는 검색 엔진 기업 등의 글로벌 IT 기업들이 기계 번역 개발에 뛰어들 수 있게 됐다. 최근에는 규칙기반 기계번역도 통계기반 기술을 함께 사용하는 하이브리드 방식으로 진화 중이다.[2]

번역 소프트웨어의 가능성 편집

번역 소프트웨어의 효과적인 사용법에 대해서는 선입견에 기반한 오해가 매우 많은 것이 현실이다. 특히 초기의 번역 소프트웨어 개발에 포함된 사람들 사이에서는, 당시에 비해 하드웨어·소프트웨어적인 모든 부분에서 비약적으로 발전해 있음에도 불구하고 오해가 뿌리 깊다. 이것은 전적으로 '번역 소프트웨어를 어떻게 사용해야 하느냐'는 논의가 부족했기 때문이다.

또한 번역될 언어를 초심자가 지정하지 않는 완전 자동 번역과, 번역가가 고급 편집 작업을 수행하는 번역 지원을 혼동하는 경우가 많다. "외국어에 약해서 번역 소프트웨어를 사용한다"는 선입견을 버릴 수 없는 것이다. 얼핏 보기에 비슷해보일 수 있지만 방향성이 전혀 다르다.

현재 기계 번역은 소설이나 회화 등을 제대로 번역할 수 없다. 번역 소프트웨어 비교라고 칭하는 기사 등에서 번역 소프트웨어가 골칫거리로 하는 문장만을 번역하려고 하지만, 이것은 번역 소프트웨어를 활용하려는 관점에서 볼 때 극히 비실용적이다.

매뉴얼 번역 등에 있어서는 구문과 어휘가 한정되어 있기 때문에 매우 높은 정밀도가 얻어진다. 번역할 언어와 번역될 언어에 대한 고도의 능력, 번역 능력, 컴퓨터 기술을 익힌 번역자가 번역 소프트웨어의 특성을 제대로 이해하고 사용하면 번역 작업의 효율을 대폭 향상시킬 수 있다. 극히 일부의 고급 번역자는 이러한 번역 소프트웨어의 가능성에 대해 인식하여 적극적으로 활용하고 있다.

최근 실무 번역(특히 컴퓨터 매뉴얼이나 사용 설명서 등 같은 유사한 문장이 많이 포함된 문서 번역)에서는, 번역 메모리라는 번역 지원 도구가 사용되고 있다. 번역자 사이에서도 오해가 퍼져있지만, 번역 메모리와 번역 소프트웨어는 기본적인 발상을 완전히 달리할 것이다. 번역 지원 도구에 번역 메모리와 번역 소프트웨어가 포함된다. 업무용 번역 소프트웨어는 번역 메모리 기능을 포함하는 경우도 많다. 그러나 업무용 번역 소프트웨어와 함께 제공되는 번역 메모리 기능은 별도의 번역 메모리와 비교했을 때 관리 및 유연성에 있어서 뒤떨어진다. 따라서, 번역 메모리와 번역 소프트웨어를 연계시키는 작업 환경이 개발되고 있다.

자동 번역 및 번역 지원 편집

기계 번역은 "자동 번역"과 "번역 지원"이라는 완전히 다른 두 방향으로 사용된다. 자동 번역은 인간의 개입을 최소화하며, 모든 것을 기계적으로 번역시키려고 한다. 이것은 "번역할 언어를 이해 할 수 없는 사람"을 위한 기술이다. 이것은 기술적으로 대단한 어려움을 수반하기 때문에 아직까지 갈 길이 멀다. 한편, 번역 지원은 전문 번역가가 번역 작업을 효율적으로 수행하기 위해 번역 소프트웨어를 활용하는 것이다. 이것은 이미 일부 선진적인 번역가에 의해 활용되고 있다. 하지만 현재로서는 고급 기술이 필요하며 누구나 사용할 수 있는 것은 아니다.

자동 번역의 유용성에 관하여 편집

현실의 번역은 서로의 언어 관계에 따라 크게 다르다. 언어는 각각 고립되어 존재하는 것이 아니라, 어느 정도 서로 영향을 주며 존재한다. 특히 공통의 역사가 긴 경우, 문법과 어휘에 공통성, 혹은 공통의 기원을 더 가질 수 있다. 그런 경우, 극단적으로 말하면 단어를 대체만 하더라도 어느 정도의 번역이 가능하기 때문에, 기계 번역도 더 쉽다.

대강의 의미를 알기 위한 개요적인 번역을 보자면 프랑스어, 스페인어, 이탈리아어 등 인도 유럽 어족 로망스(Romance)어 계 어족 간의 자동 번역은 비교적 당연히 쉽고, 영어와 로망스어계 혹은 게르만어계 언어 간의 자동 번역은 실용적인 수준에 이르렀다고 할 수 있다.

한국어의 번역의 경우 실제로 사용 가능한 수준에 있는 것은 한일 자동 번역이다. 한국어와 일본어는 교착어라는 문법적인 공통성과, 한자어를 사용해서 자동 번역의 정확도는 문체에 따라 다르지만 보통 80%~90%이다. 따라서 한일 자동 번역 게시판 등에 실제 사이트가 존재한다. (외부 링크 NAVER 한일 자동 번역 게시판 참조).

일본어의 경우 조사나 동음 이의어가 다수 존재하는 형태소를 분석하는 단계에서의 난이도가 상당히 높다. 그러므로 일반적으로 일한 번역에 비해 일영 번역의 능력은 낮은 단계에 있다. 영어 능력이 없는 사람이 영어로 된 글을 번역기를 이용하여 번역해서 완성된 영문으로 된 글을 평가 할 수 없는 경우, 영어로 번역된 문장을 일본어로 다시 변환을 시도하여 일본어로 의미 합격 여부를 확인해보면 좋다. 이러한 것은 한국어일 경우에도 마찬가지이다.

번역 지원의 경우는 특정 분야의 번역에 적합한 사용자 사전을 작성하면 번역 소프트웨어의 번역 품질이 크게 향상된다. 하지만 일정 규모의 기업 조직 사용자가 아닌 일반 사용자의 소규모 사용 시나리오에서는 사용자 사전의 효과보다 만드는 데 걸리는 시간과 노력이 더 크다. 그 이유는 사전 만드는 기술을 필요로 하는 사용자 지정 사전의 내용이 없을 경우 사전에 상호 이용을 위한 인프라가 없어서 번역의 양이 적기 때문인 것으로 보인다. 이러한 문제를 해결하기 위해 AAMT(아시아 태평양 기계 번역 협회)가 사용자 지정 사전을 공유할 수 있는 사양인 UPF을 만들었다. 그 후, 2006년부터 이후 모델인 UTX가 현재 개발 중이다.

부작용 및 사후 대책 편집

통상적으로 위키백과 등과 같은 곳을 보면 다른 언어판 위키백과를 이용하여 한국어 위키백과에 문서를 만들게 되면 심심치 않게 기계 번역이 일어나는 경우도 있다. 그러나 기계 번역으로 만들어지게 되면 내용이나 문맥이 맞지 않게 되는 등 읽을 때 난해하는 문제가 생길 수도 있다. 그럴 때에는 네이버다음의 어학사전을 이용하여 뜻풀이를 우선적으로 찾는 것이 1단계로 조치해야 효과가 있다. 차선책으로는 네이버 파파고 같은 번역기로 돌리게 될 때 틀린 문장이 나타나게 되면 이 문장을 가지고 이면지볼펜을 이용하여 적바림한 뒤 문서를 생성시켜서 제대로 된 문장을 완성시키는 것이 물론 중요하다. 그러니까 기계 번역은 아예 하지 말아야 하는 것이 차선책이며, 부수된 내용으로만 가지고 확인해야 절충안이 성립된다.

기계 번역기의 종류 편집

같이 보기 편집

각주 편집

  1. Stephen Budiansky (December 1998). “Lost in Translation”. 《Atlantic Magazine》. 81–84쪽. 
  2. “[지식충전소] “얼라 했더니 Kid…3년 내 사투리까지 자동번역””. 중앙일보. 2016년 10월 19일. 2016년 10월 19일에 확인함. [깨진 링크(과거 내용 찾기)]

외부 링크 편집