사용자토론:Yes0song/다지모/제가 생각하는 방법

Yes0song님의 의견은 너무 복잡하고 추상적이라 제가 의견을 내어 봅니다.

대원칙 편집

  • 한국어 위키백과를 표준어와 문화어로 나누어 표기하지 않고, 한국어 / 한자 위키백과만 중국어 위키백과 처럼 자동 번역으로 지원한다. (이 조건은 한국어 위키 백과에 두음 법칙과 사이시옷 적용을 하지 않음으로서, 기계 번역의 부담을 줄여준다)
  • '한자→한글'만 기계 번역으로 처리하고, '한글→한자'는 기계 번역으로 처리하지 않는다.
  • 번역기는 최소한의 것만 번역만 해야하고, 나머지는 손으로 예외 처리한다. (이 조건은 번역기에 발생할 수 있는, 예기치 못한 문제를 방지해 주며, 쉽게 구현 하게 해준다)
  • '한자→한글→한자' 또는, '한글→한자→한글' 번역시 번역 상의 손실이 없어야 한다.
  • 모든 예외는 기본적으로 중국어판과 마찬가지로 -{ko:한글|ko-hanja:漢字}-로 처리한다.

준비물 편집

  • 한자의 대표음을 나타낸 표. (가장 많이 사용하는 두음법칙을 적용하지 않은 음 하나만 나타낸다.)
  • 다른 표기틀 / 같은 표기 틀 (-{ko:한글|ko-hanja:漢字}- 방식은 입력하기가 복잡하므로, 사용하기 편하도록 틀을 만들어 사용한다, 다른 표기틀은 {{다른표기틀|한글표기|한자표기}}로 사용하며, 같은 표기틀은 {{같은표기틀|공통표기}}로 사용한다. 이 틀은 예외 처리용이며, 예외 처리가 필요 없을 경우에 사용해서는 안된다.

한자판에서 문서 수정시 편집

기계 번역기가 작업해야 할 내용은 순서대로 다음과 같다.

  1. 편집된 부분 만 한글판으로 번역한다.
  2. 자동 예외 처리에 해당하는 부분이 있을 경우에는 자동 예외 처리 한다.
  3. '한자의 대표음을 나타낸 표'를 이용하여, 한자→한글로 전환한다.
  • 예외 처리에 ko부분이 있을 경우에만 예외 처리로 번역한다.

한글판에서 문서 수정시 편집

기계 번역기가 작업해야 할 내용은 순서대로 다음과 같다.

  1. 편집된 부분 만 한자판으로 옮겨서 적용시킨다.
  2. 자동 예외 처리에 해당하는 부분이 있을 경우에는 자동 예외 처리 한다.
  • 예외 처리에 ko-hanja부분이 있을 경우에만 예외 처리로 번역한다.

자동 예외 처리 편집

  • 한글판에서 한글(한자)의 경우 -{ko:한글(한자)|ko-hanja:한자}- 로 바꾸어 준다. (단, 괄호 안과 밖의 글자 수가 같을 경우에만)
  • 한자판에서 한자(한글)의 경우 -{ko:한글|ko-hanja:한자(한글)}- 로 바꾸어 준다. (단, 괄호 안과 밖의 글자 수가 같을 경우에만)

도입 순간의 기계 번역 편집

  1. '한글판에서 문서 수정시'와 동일하다.

정리 편집

  • 각 한자를 가장 많이 사용하는 발음으로 자동 전환하고, 나머지는 수동이나, 로봇으로 변환합니다.
  • 한국어 위키백과가 문화어를 허용한다는 것을 이용하여, 두음법칙과 사이시옷을 무시하는 문화어식의 한자 읽기 방법을 사용합니다.
  • 제가 제안하는 방법을 사용할 경우, 준비해야 할 것은 위에서 말한 표와 틀 밖에 없습니다. 또한, 프로그래머가 만들어야 할 기계 번역기의 구조도 상당히 단순 해 집니다. 한국어 위키백과 사용자가 두음법칙과 사이시옷이 없는 한국어를 받아 드리는 것이 문제가 될 수도 있겠지만, 이는 통일 된 한국이 온다면 누구나 받아 들여야 하는 문제 입니다.

--마소리스 2006년 12월 13일 (목) 20:44 (KST)답변



필요한 준비물 및 알고리즘 편집

준비해야 할 것을 적어 보았습니다.

준비물 편집

  • 한자의 두음법칙을 적용하지 가장 많이 쓰는 음 하나만 나타낸 표 (GFDL과 호환하는 저작권이여야 한다)

필요한 알고리즘 편집

한글, 한자 구분 알고리즘 편집

  • 'Hangul Syllables (AC00~D7AF)'는 한글로 처리합니다.
  • 'CJK Unified Ideographs (3400~9FFF)'는 한자로 처리합니다.
  • 나머지는 번역기가 처리 할 필요가 없으므로, 특수문자로 처리합니다.

기타 편집

  • 快樂, 樂園, 音樂, 樂山 등 한자의 예외 처리는 로봇이나 수동적으로 합니다. 따라서, 로봇을 위한 예외 처리 표를 따로 마련 할 필요가 있습니다.

--마소리스 2006년 12월 13일 (목) 21:36 (KST)답변



한국어 정책으로 제안 한다면 편집

한국어 위키의 공식 정책으로 제안 한다면 제안문에는 대략 다음과 같은 내용이 들어 있었으면 합니다.

  1. 제안의 이유 (대전제)
    1. 한자판을 따로 만들경우
      1. 백과사전은 전문성이 따르므로, 한자 이용이 효과적이다.
      2. 한국어를 어느 정도 할 수 있는, 한자문화권의 다른 외국인이 한국어 기여에 도움을 준다.
    2. 표준어와 문화어
      1. 현재 한국어 위키는 표준어와 문화어 모두를 허용 하고 있다.
      2. 표준어와 문화어 위키를 따로 만드는 것 보다는 함께 만드는 것이 좋다. (....이유)
  2. 구체적인 방법
    1. 한자 표를 사용한 전환
    2. 예외 처리 방법
    3. 로봇이 해야 할 일
  3. 한글판/한자판이 나누어 지면
    1. 초기에는 한글판이 지금과 차이가 없다.
    2. 한자판에서 문서를 수정 할 경우, 수정된 부분이 한글 판에서는 문화어식 한자 읽기로 나타난다.



표준어 문화어를 구분 한다면 편집

저는 표준어와 문화어의 구분을 반대하지만, 그런 경우도 한번 가정해 보겠습니다. Yes0song님이 생각하시는 방식의 비슷한 방식을 구현하려면 다음과 같이 해야 합니다.

  • 한자 대표음을 나타낸 표에 두음법칙을 적용한 한자를 추가해야 합니다.
  • 한국어, 문화어 대응표가 필요 합니다. (이는 지속적으로 업데이트 해야합니다.)
  • 예외 처리 표를 만들어야 합니다. (사이시옷과 그 밖의 예외를 처리하기 위해) 표에 필요한 것은, 한자, 표준어, 문화어 입니다.
  • 고려해야할 총 경우의 수는 한자→표준어, 한자→문화어, 표준어→한자, 표준어→문화어, 문화어→한자, 문화어→표준어로 총 6가지 입니다. (한자→한국어, 한국어→한자에 비해 3배로 증가합니다)
  • 예외 처리 표는 항상 적용 되어야 합니다.
  • 한자→표준어 변환시, 위와 같은 처리로 하되, 첫번째 한자어에서만 두음법칙을 적용합니다.
  • 한자→문화어 변환시, 위와 같습니다.
  • 표준어→한자 변환시, 위와 같습니다.
  • 표준어→문화어 변환시, 예외 처리 표로 변환 합니다.
  • 문화어→한자 변환시, 위와 같습니다.
  • 문화어→표준어 변환시, 예외 처리 표로 변환 합니다.

위의 방식의 문제점 편집

  • 한국어와 문화어가 아닌 많은 위키백과 사용자가 사용할 수 있는 다른 방언을 고려해야 합니다. (예를들어 조선족말)
  • 예외 처리 표를 지속적으로 관리 및 업데이트 해 줘야 합니다. 현재 한국어 위키백과의 사람 수로는 사실상 이것이 불가능 합니다.
  • 예외 처리 표로 인해 발생 할 수 있는 예외를 항상 수동으로 처리해 줘야 합니다. 이로 인해 최소한 10배 이상의 추가적인 수동 예외 처리가 필요하리라 생각합니다.
  • 한자와 한국어만 지원할 경우, 글자 수가 동일하므로, 수정된 부분을 정확히 알아내는 알고리즘을 쉽게 만들 수 있으나, 표준어, 문화어 지원시 글자 수가 다르다는 가정도 포함 해야 하며, 이로 인한 잠재적인 문제가 발생할 수 있습니다.
  • 띄어 쓰기 예외 처리는 사실상 불가능 하고, 예외 처리의 한계로 인해 결국에는 문화어판, 표준어판 모두, 문화어와 표준어가 공존하는 판이 될 수 밖에 없습니다.

--마소리스 2006년 12월 13일 (목) 21:16 (KST)답변

번역기가 표준어 지원을 위해 할 수 있는 일 편집

꼭, 표준어를 지원할 생각이시면 가장 현실적인 방법은 다음과 같습니다.

  • 한자→표준어 변환시 두음법칙을 함께 처리합니다.
  • 나머지는 수동 또는 로봇이 처리합니다.

번역기에 변환용 DB를 탑제하는 방법도 있지만, 이는 지속적인 DB및 인공지능 업데이트에 한계가 있습니다. --마소리스 2006년 12월 14일 (목) 01:25 (KST)답변

"Yes0song/다지모/제가 생각하는 방법"의 사용자 문서로 돌아갑니다.