UTF-8: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
32번째 줄:
위의 패턴을 사용하면 더 큰 코드 포인트를 표시할 수도 있다. 원래 UTF-8은 6바이트를 사용해서 U+7FFFFFFF까지의 코드 포인트를 표현할 수 있게 하였으나, [[2003년]] 11월에 발표된 RFC 3629에서는 유니코드에서 실제로 정의하는 U+10FFFF까지의 문자만을 표시할 수 있도록 제한하였다. 따라서 이전까지는 UTF-8에서 나타날 수 없는 바이트가 0xFE와 0xFF 뿐이었지만, RFC 3629에 따라서 0xC0, 0xC1, 그리고 0xF5부터 0xFF까지의 13개의 바이트가 나타날 수 없게 되었다.
 
== 변형된 UTF-8!!! ==
[[자바 (프로그래밍 언어)|자바]]는 내부적으로 문자열을 [[UTF-16]] 인코딩으로 저장하며, 문자열 직렬화를 위하여 UTF-8을 변형하여 사용하고 있다. 이를 [http://java.sun.com/j2se/1.5.0/docs/api/java/io/DataInput.html#modified-utf-8 변형된 UTF-8]이라 부른다.