국제 문자 세트
국제 문자 세트(UCS, Universal Character Set, 범용 문자 집합)는 ISO 10646으로 정의된 문자 인코딩의 국제 표준이다.
다른 이름 | UCS, 유니코드 |
---|---|
언어 | 국제 |
표준 | ISO 10646 |
인코딩 포맷 | UTF-8, UTF-16, GB18030 덜 일반적: UTF-32, BOCU, SCSU, UTF-7 |
이전 인코딩 | ISO 8859, ISO 2022 등 |
유니코드 |
---|
부호화 형식 |
UCS |
양방향 텍스트 |
BOM |
한중일 통합 한자 |
유니코드 범위 목록 |
유니코드 등가성 |
유니코드와 HTML |
유니코드와 전자 우편 |
유니코드 글꼴 |
1991년부터, 유니코드 컨소시엄에서는 유니코드 표준과 ISO/IEC 10646을 발전시키기 위해 ISO와 공동 작업을 해 왔다. 분류와, 문자명과 유니코드 표준 2.0 버전의 코드들은 ISO/IEC 10646-1:1993과 첫 수정판과 동일하다. 2000년 3월 유니코드 3.0이 발표된 이후, 새롭게 추가된 문자들이 ISO/IEC 10646-1:2000을 통해 UCS에 포함되었다.
UCS는 110만 개 이상의 코드가 있지만, 일반적으로 첫 65536개 (BMP, Basic Multilingual Plane, 기본 다국어 평면) 만이 사용된다. 나머지는 고대 이집트 상형문자나 쓰임이 적은 한자같은 문자를 표현하기 위해 남겨져 있다. 많은 코드영역, 심지어 BMP 영역에서도 서로 다른 인코딩 형태와 미래의 확장성을 고려하여, 일부러 문자를 할당하지 않았다.
UCS의 인코딩 폼
편집UCS용 인코딩 방법으로 ISO 10646가 정의되어 있다. 간단히 축약하여 UCS-2 라고도 하는데, 각 글자들을 0 ~ 65535(0xFFFF) 사이의 코드 값으로 매겨놓고, 각 값들을 16비트로 표현한다. 그것으로서 UCS-2는 BMP의 코드 영역을 표현할 수 있고, BMP 밖의 영역은 표현이 불가능하다. UCS-2를 확장하여 BMP 밖의 영역도 표시가 가능하게 한 인코딩으로 UTF-16이 있다.
UTF-32[1]는 0xFFFFFFFF 까지의 단일 코드 즉 32비트로 한 글자를 표현한다. 그러므로 UCS-4는 UCS-2보다 더 많은 수의 글자를 표현할 수 있으나, UCS-2에 비해 2배의 저장공간을 필요로 한다.
대응되는 유니코드
편집- ISO/IEC 10646-1:1993 ≈ Unicode 1.1
- ISO/IEC 10646-1:2000 ≈ Unicode 3.0
- ISO/IEC 10646-2:2001 ≈ Unicode 3.2
- ISO/IEC 10646-3:2003 ≈ Unicode 4.0
관련 ISO
편집같이 보기
편집각주
편집- ↑ UCS-4
외부 링크
편집- ISO/IEC JTC1/SC2/WG2, ISO 10646 워킹그룹
- UTF-8 와 유니코드 FAQ
- ISO/IEC 10646 열람