음성 합성: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
Charlielee (토론 | 기여)
수식 음성 합성, MacInTalk 보충
잔글 정리
5번째 줄:
음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰이고 있다.
 
== 음성 합성 기술의 개요 ==
인위적으로 사람의 소리를 합성하는 시스템이며, 텍스트를 음성으로 변환한다는 데서 텍스트 음성 변환 (text-to-speech, 줄여서 TTS) 시스템이라고 부르기도 한다. 또한 [[발음 기호]]를 음성으로 변환하는 시스템도 있다.
 
== 활용 사례 ==
음성 합성 기술은 문자를 읽기 어려운 장애인이나 문자를 읽을 수 없는 사람(아이, 외국인 등)에게 화면 읽기 소프트웨어(스크린 리더)로서 오랫동안 쓰이고 있어 말을 발표하는 것이 곤란한 사람이 대체 수단으로서 이용하는 경우도 많다.
 
사람이 말을 녹음하면 대사가 바뀔때마다 그 부분을 다시 녹음해야 하지만 음성 합성 기술만 있으면 데이터를 작성만 하면 다시 녹음할 필요가 없다.
 
최근에는 개인용 소프트웨어 등에도 활용되었다.
=== 텍스트 음성 변환 시스템 ===
텍스트 음성 변환 시스템은 프론트 엔드와 백엔드 두 부분으로 구성된다. 일반적으로 프론트 엔드는 사용자가 입력한 텍스트에서 기호화된 언어 표현 (symbolic linguistic representation)을 내보낸다. 백엔드는 합성된 음성의 파형을 내보낸다. 출력되는 음성이 얼마나 현실의 사람의 목소리를 닮아 있는가, 출력되는 음성을 얼마나 잘 알아듣을 수 있는가로 평가한다.
 
==== 프론트 엔드 ====
프론트 엔드는 두 가지의 큰 일을 한다. 그 중 하나는 텍스트 안의 숫자나 생략 표현을 읽을 때 표현으로 변환하는 것이다. 텍스트의 정규화, 프리프로셋싱, 토큰화 등으로 불리기도 한다. 또 하나는 각 단어를 발음 기호로 변환하여 텍스트 숙어, 단어나 문장, 문장 등의 운율 단위로 분할하는 것이다. 낱말 발음 기호를 할당 작업을 텍스트 음소 (text-to-phoneme, 줄여서 TTP) 변환 또는 서기소음소 (grapheme-to-phoneme, 줄여서 GTP) 변환이라고 부른다. 발음 기호와 운율 정보를 조합하여 기호화된 언어 표현을 만들어서 프론트 엔드로 내보낸다.
 
==== 백엔드 ====
프론트 엔드가 내보낸 결과를 바탕으로 보다 자연스러운 음성으로 만들기 위해 운율 등의 음성을 조정하여 실제 음성 데이터를 출력한다. 이 과정에서 음성의 특성이 정해지기 때문에 음성 합성 소프트웨어만의 색채가 나오는 경우가 많다.
===운영 체제에서의 음성 합성===
애플 운영체제<Br>1984년에는 [[애플]] 컴퓨터에 MacInTalk 기능을 탑재했다. 1990년 시스템 6.07에 MacInTalk 2가 포함되었으며, 이후 MacInTalk 3와 Pro로 발전되었다. 이후에도 새로운 OS 버전이 나오면서 음질이 개선되고있다. 또한 [[음성 인식]]도 도입하고 있으며, 시각 장애인을 위한 지원 프로그램이었던 PlainTalk의 기능을 통합했다. [[Mac OS X]] v10.4 이상에는 VoiceOver라는 음성 합성 기능이 제공되고있다.<Br>마이크로소프트 윈도<Br>[[Windows]]에서는 SAPI라고 하는 오디오 관련 API를 제공하고있다. [[Windows XP]]에서는 Narrator라는 음성 합성 프로그램이 추가되었다(영어). 콜 센터 등의 사용자에게 음성 인식과 음성 합성 패키지로 Microsoft Speech Server를 제공하고 있다.<Br>기타<Br>* [[TI-99/4A]] 에는 음성 합성 기능을 옵션으로 추가 가능하다.* [[PC-6001mkII]]에는 음성 합성 기능을 내장했다.* 그 뒤 [[PC-6001mkIISR]]과 [[PC-6601]]는 노래도 음성 합성이 가능했다.* [[FM-7]]과 [[FM-77]] 시리즈는 음성 보드 (MB22437/FM-77-431)가 옵션으로 주어진다.* [[MZ-1500]]과 [[MZ-2500]]은 옵션으로 음성 보드가 있다. 알파벳과 일부 문구가 샘플링되어 ROM으로 구워 연재되고 재생하는 것이다.
====수식의 음성 변환====
수학 공식과 각종 과학 기술 분야에서 사용하는 심볼은 일반적인 텍스트로는 표현에 제약이 있거나 해당 분야 전문가가 아니면 정확하게 읽을 수 없는 경우가 많은데, 음성 합성 기술이 발전됨에 따라 수식을 읽어주는 기능과 접목하여 장애인 뿐만 아니라 일반인들의 교육용에도 점점 많이 응용이 시도되고 있다. 수식편집 소프트웨어인 [[매스매직]]과 웹브라우져용 수식 표현 플러그인 중에 하나인 [http://en.wikipedia.org/wiki/MathPlayer MathPlayer]에서 수식을 음성으로 합성해주는 기능을 지원하고 있다.
 
===인터넷에서의 운영 체제에서의 음성 합성 ===
애플 운영체제<Br>1984년에는 [[애플]] 컴퓨터에 MacInTalk 기능을 탑재했다. 1990년 시스템 6.07에 MacInTalk 2가 포함되었으며, 이후 MacInTalk 3와 Pro로 발전되었다. 이후에도 새로운 OS 버전이 나오면서 음질이 개선되고있다. 또한 [[음성 인식]]도 도입하고 있으며, 시각 장애인을 위한 지원 프로그램이었던 PlainTalk의 기능을 통합했다. [[Mac OS X]] v10.4 이상에는 VoiceOver라는 음성 합성 기능이 제공되고있다.<Br>마이크로소프트 윈도<Br>[[Windows]]에서는 SAPI라고 하는 오디오 관련 API를 제공하고있다. [[Windows XP]]에서는 Narrator라는 음성 합성 프로그램이 추가되었다(영어). 콜 센터 등의 사용자에게 음성 인식과 음성 합성 패키지로 Microsoft Speech Server를 제공하고 있다.<Br>기타<Br>* [[TI-99/4A]] 에는 음성 합성 기능을 옵션으로 추가 가능하다.* [[PC-6001mkII]]에는 음성 합성 기능을 내장했다.* 그 뒤 [[PC-6001mkIISR]]과 [[PC-6601]]는 노래도 음성 합성이 가능했다.* [[FM-7]]과 [[FM-77]] 시리즈는 음성 보드 (MB22437/FM-77-431)가 옵션으로 주어진다.* [[MZ-1500]]과 [[MZ-2500]]은 옵션으로 음성 보드가 있다. 알파벳과 일부 문구가 샘플링되어 ROM으로 구워 연재되고 재생하는 것이다.
음성 합성 마크업 언어<Br> 텍스트 음성 변환을 위한 XML 기반의 마크업 언어가 몇 가지있다. 최근 SSML가 W3C 에서 제안되어 초안 상태이다. 이외에도 SABLE, JSML 등이있다. Cascading Style Sheets 2의 이전 버전인 Aural Cascading Style Sheets을 포함한다. 음성 합성 마크업 언어인 VoiceXML은 같은 대화 마크업 언어와는 다르다. 대화 마크업 언어는 텍스트 음성 변환뿐만 아니라, 음성 인식 등도 지원하고 있다.<Br>
인터넷 음서 합성 서비스<Br> 외국의 여러 대학교와 Bell, IBM, AT&T와 같은 기업연구소에서 음성 합성 연구 결과를 공개하거나 일반인이 기능을 시험 사용해 볼 수 있도록 간단한 서비스를 제공하기도 한다. 하지만, 한국어 음성 합성 기능까지 고품질을 제공하는 무료 인터넷 서비스로는 [http://text-to-speech.imtranslator.com text-to-speech.imtranslator.com]가 가장 좋은 품질을 제공하고 있다.
==== 수식의 음성 변환 ====
수학 공식과 각종 과학 기술 분야에서 사용하는 심볼은 일반적인 텍스트로는 표현에 제약이 있거나 해당 분야 전문가가 아니면 정확하게 읽을 수 없는 경우가 많은데, 음성 합성 기술이 발전됨에 따라 수식을 읽어주는 기능과 접목하여 장애인 뿐만 아니라 일반인들의 교육용에도 점점 많이 응용이 시도되고 있다. 수식편집 소프트웨어인 [[매스매직]]과 웹브라우져용 수식 표현 플러그인 중에 하나인 [http://en.wikipedia.org/wiki/MathPlayer MathPlayer]에서 수식을 음성으로 합성해주는 기능을 지원하고 있다.
 
===운영 체제에서의인터넷에서의 음성 합성 ===
==참고 자료==
음성 합성 마크업 언어<Br> 텍스트 음성 변환을 위한 XML 기반의 마크업 언어가 몇 가지있다. 최근 SSML가 W3C 에서 제안되어 초안 상태이다. 이외에도 SABLE, JSML 등이있다. Cascading Style Sheets 2의 이전 버전인 Aural Cascading Style Sheets을 포함한다. 음성 합성 마크업 언어인 VoiceXML은 같은 대화 마크업 언어와는 다르다. 대화 마크업 언어는 텍스트 음성 변환뿐만 아니라, 음성 인식 등도 지원하고 있다.<Br>
 
== 참고 자료 ==
* [[구희산]](2003). 영어[[음성학]]. 한국문화사
 
== 바깥 고리 ==
* [http://krdic.naver.com/search.nhn?query_euckr=%C0%BD%BC%BA%C7%D5%BC%BA 네이버 국어사전]