음성 합성: 두 판 사이의 차이

6 바이트 제거됨 ,  8년 전
편집 요약 없음
텍스트 음성 변환 시스템은 프론트 엔드와 백엔드 두 부분으로 구성된다. 일반적으로 프론트 엔드는 사용자가 입력한 텍스트에서 기호화된 언어 표현 (symbolic linguistic representation)을 내보낸다. 백엔드는 합성된 음성의 파형을 내보낸다. 출력되는 음성이 얼마나 현실의 사람의 목소리를 닮아 있는가, 출력되는 음성을 얼마나 잘 알아듣을 수 있는가로 평가한다.
 
==== 프론트 엔드 ====
프론트 엔드는 두 가지의 큰 일을 한다. 그 중 하나는 텍스트 안의 숫자나 생략 표현을 읽을 때 표현으로 변환하는 것이다. 텍스트의 정규화, 프리프로셋싱, 토큰화 등으로 불리기도 한다. 또 하나는 각 단어를 발음 기호로 변환하여 텍스트 숙어, 단어나 문장, 문장 등의 운율 단위로 분할하는 것이다. 낱말 발음 기호를 할당 작업을 텍스트 음소 (text-to-phoneme, 줄여서 TTP) 변환 또는 서기소음소 (grapheme-to-phoneme, 줄여서 GTP) 변환이라고 부른다. 발음 기호와 운율 정보를 조합하여 기호화된 언어 표현을 만들어서 프론트 엔드로 내보낸다.
 
==== 백엔드 ====
프론트 엔드가 내보낸 결과를 바탕으로 보다 자연스러운 음성으로 만들기 위해 운율 등의 음성을 조정하여 실제 음성 데이터를 출력한다. 이 과정에서 음성의 특성이 정해지기 때문에 음성 합성 소프트웨어만의 색채가 나오는 경우가 많다.
 
* 마이크로소프트 윈도 - [[마이크로소프트 윈도|윈도]]에서는 SAPI라고 하는 오디오 관련 API를 제공하고있다. [[윈도 XP]]에서는 내레이터(Narrator)라는 음성 합성 프로그램이 추가되었다(영어). 콜 센터 등의 사용자에게 음성 인식과 음성 합성 패키지로 마이크로소프트 스피치 서버(Microsoft Speech Server)를 제공하고 있다.
==== 수식의 음성 변환 ====
수학 공식과 각종 과학 기술 분야에서 사용하는 심볼은 일반적인 텍스트로는 표현에 제약이 있거나 해당 분야 전문가가 아니면 정확하게 읽을 수 없는 경우가 많은데, 음성 합성 기술이 발전됨에 따라 수식을 읽어주는 기능과 접목하여 장애인 뿐만 아니라 일반인들의 교육용에도 점점 많이 응용이 시도되고 있다.
 

편집

970