음성 합성: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
잔글편집 요약 없음
체리파이 (토론 | 기여)
편집 요약 없음
1번째 줄:
'''음성 합성'''(音聲合成, {{lang|en|speech synthesis}})은 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다.
 
음성의 [[분절음]]을 합성하는 것은 어렵고 결과가 좋지 않기에, 분절음의 경계를 중심으로 앞 음성의 뒷부분과 뒤 음성의 앞부분을 함께 기록하여 이를 토대로 음성 합성을 하기도 한다. 이러한 이음 처리를 ''diphone'' 처리라고 한다.
 
음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰이고 있다.
10번째 줄:
== 활용 사례 ==
음성 합성 기술은 문자를 읽기 어려운 장애인이나 문자를 읽을 수 없는 사람(아이, 외국인 등)에게 화면 읽기 소프트웨어(스크린 리더)로서 오랫동안 쓰이고 있어 말을 발표하는 것이 곤란한 사람이 대체 수단으로서 이용하는 경우도 많다.
사람이 말을 녹음하면 대사가 바뀔때마다 그 부분을 다시 녹음해야 하지만 음성 합성 기술만 있으면 데이터를 작성만 하면 다시 녹음할 필요가 없다. 이와 같은 기술로는 [[AHS]]사의 VOICELOID가 있다.
 
또한 이를 이용하여 [[VOCALOID]]라는 음성 합성 기술을 이용한 음악 소프트웨어도 있는데, 인공적으로 인간의 목소리를 내어 노래를 불러주는 소프트웨어이다. 이와 흡사한 소프트웨어로 [[보카리나]]가 있다.
사람이 말을 녹음하면 대사가 바뀔때마다 그 부분을 다시 녹음해야 하지만 음성 합성 기술만 있으면 데이터를 작성만 하면 다시 녹음할 필요가 없다.
 
=== 텍스트 음성 변환 시스템 ===