UTF-8: 두 판 사이의 차이
내용 삭제됨 내용 추가됨
잔글 →UTF-8의 설계 원칙: ~하는 데 필요한 |
잔글 →UTF-8의 설계 원칙: ~하는 데 쓰이다 |
||
51번째 줄:
* 첫 바이트가 아닌 나머지 바이트들은 상위 2비트가 항상 10이다.
UTF-8이 이런 성질을 가지도록 설계한 까닭은 어떤 경우에도 한 문자에 대한 바이트 표현이 다른 문자에 대한 바이트 표현의 일부가 되는 경우가 없도록 하기 위함이다. 따라서 텍스트 안에 들어 있는 다른 텍스트를
그 설계 때문에 어떤 바이트들이 올바른 UTF-8로 확인되면, 그 문자열이 실제로 UTF-8로 인코딩되었을 가능성이 매우 높다. 임의의 바이트들이 순수한 ASCII 인코딩이 아닌 UTF-8 문자열일 가능성은 2바이트 문자의 경우 1/32, 3바이트 문자의 경우 5/256으로 매우 낮다. 또한 [[ISO-8859-1]]과 같은 기존의 인코딩으로 표현된 자연어 문자열이나 문서를 UTF-8로 표현된 것으로 오인할 가능성도 매우 낮다.
|