유니코드

전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준

유니코드(영어: Unicode, 정식 명칭 The Unicode Standard)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이다. 유니코드는 유니코드 협회(Unicode Consortium)가 제정한다. 또한 이 표준에는 ISO 10646 문자 집합, 문자 인코딩, 문자 정보 데이터베이스, 문자들을 다루기 위한 알고리즘 등을 포함하고 있다.

유니코드
다른 이름국제 문자 세트(UCS)
언어국제
표준유니코드 표준
현재 상태지원 중
인코딩 포맷UTF-8, UTF-16, GB18030
덜 일반적인 인코딩: UTF-32, BOCU, SCSU, UTF-7
이전 인코딩ISO 8859
유니코드
부호화 형식
UCS
양방향 텍스트
BOM
한중일 통합 한자
유니코드 범위 목록
유니코드 등가성
유니코드와 HTML
유니코드와 전자 우편
유니코드 글꼴
v  d  e  h

또한 유니코드의 목적은 현존하는 문자 인코딩 방법들을 모두 유니코드로 교체하려는 것이다. 기존의 인코딩들은 그 규모나 범위 면에서 한정되어 있고, 다국어 환경에서는 서로 호환되지 않는 문제점이 있었다. 유니코드가 다양한 문자 집합들을 통합하는 데 성공하면서 유니코드는 컴퓨터 소프트웨어국제화와 지역화에 널리 사용되게 되었으며, 비교적 최근의 기술인 XML, 자바, 그리고 최신 운영 체제 등에서도 지원하고 있다.

유니코드에서 한국어 발음을 나타날 때는 예일 로마자 표기법의 변형인 ISO/TR 11941을 사용하고 있다.

기원 및 개발 편집

유니코드의 기원은 1987년으로 거슬러 올라가며, 이 때 제록스의 조 베커와 애플의 리 콜린스, 마크 데이비스가 통일된 문자 집합을 만드는 것을 탐구하기 시작하였다.[1] 1988년 조 베커는 유니코드라는 이름의 국제/다언어 문자 인코딩 시스템(international/multilingual text character encoding system, tentatively called Unicode)를 위한 초안을 출판하였다.

버전 편집

유니코드 버전
버전 날짜 대응하는 ISO/IEC 10646 버전 문자 집합 수 글자들
전체[2] 주요 추가 사항
1.0.0 1991년 10월 ISBN 0-201-56788-1 (Vol.1) 24 7,161 가타카나, 구르무키 문자, 구자라트 문자, 그리스 문자, 데바나가리, 라오 문자, 라틴 문자, 말라얄람 문자, 벵골 문자, 아랍 문자, 아르메니아 문자, 오리야 문자, 조지아 문자, 주음부호, 칸나다 문자, 키릴 문자, 타밀 문자, 타이 문자, 텔루구 문자, 티베트 문자, 한글, 히라가나, 히브리 문자[3]
1.0.1 1992년 6월 ISBN 0-201-60845-6 (Vol.2) 25 28,359 20,902자의 한중일 통합 한자가 지정됨.[4]
1.1 1993년 6월 ISO/IEC 10646-1:1993 24 34,233 기존 2,350자의 한글에 4,306자가 더 추가됨. 티베트 문자 삭제.[5]
2.0 1996년 7월 ISBN 0-201-48345-9 ISO/IEC 10646-1:1993과 개정 5, 6, 7 25 38,950 기존의 한글 글자마디를 삭제하고, 11,172자의 새 한글 완성자 영역을 새로 지정함. 티베트 문자 새 위치에 추가. 서러게이트 영역을 지정하였고, 제15, 제16평면을 사용자 정의 영역으로 지정함.[6]
2.1 1998년 5월 ISO/IEC 10646-1:1993과 개정 5, 6, 7, 18 25 38,952 유로 기호 추가.[7]
3.0 1999년 9월 ISBN 0-201-61633-5 ISO/IEC 10646-1:2000 38 49,259 룬 문자, 몽골 문자, 버마 문자, 시리아 문자, 신할라 문자, 에티오피아 문자, 오검, 이 문자, 점자, 체로키 문자, 캐나다 원주민 음절 문자, 크메르 문자, 타나 문자[8]
3.1 2001년 3월 ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

41 94,205 고대 이탈리아 문자, 고트 문자, 데저렛 문자음악 기호, 42,711자의 한중일 통합 한자.[9]
3.2 2002년 3월 ISO/IEC 10646-1:2000과 개정 1

ISO/IEC 10646-2:2001

45 95,221 부히드 문자, 하누노오 문자, 타갈로그 문자, 타그반와 문자 등 필리핀 문자[10]
4.0 2003년 4월 ISBN 0-321-18578-1 ISO/IEC 10646:2003 52 96,447 키프로스 문자, 림부 문자, 선형 B 문자, 오스마냐 문자, 샤비안 문자, 타이 러 문자, 우가리트 문자64괘[11]
4.1 2005년 3월 31일 ISO/IEC 10646:2003과 개정 1 59 97,720 부기 문자, 글라골 문자, 카로슈티 문자, 신 타이 르 문자, 고대 페르시아 문자, 실헤티 나가리, 티피나그 추가, 콥트 문자가 그리스 문자에서 분리. 고대 그리스 숫자와 고대 그리스 음악 기호 추가.[12]
5.0 2006년 7월 18일 ISBN 0-321-48091-0 ISO/IEC 10646:2003과 개정 1, 2, 그리고 개정 3의 문자 4개 64 99,089 발리 문자, 쐐기 문자, 응코 문자, 파스파 문자, 페니키아 문자[13]
5.1 2008년 4월 4일 ISO/IEC 10646:2003과 개정 1, 2, 3, 4 75 100,713 카리 문자, 참 문자, 카야흐 리 문자, 렙차 문자, 리키아 문자, 리디아 문자, 올치키 문자, 레장 문자, 사우라슈트라 문자, 순다 문자, 바이 문자, 파이스토스 원반의 기호, 마작 타일과 도미노 타일 추가, 대문자 ß 추가.[14]
5.2 2009년 10월 1일 ISBN 978-1-936213-00-9 ISO/IEC 10646:2003과 개정 1, 2, 3, 4, 5, 6 90 107,361 문자 15종류 추가, 4149자의 한중일 통합 한자 (CJK-C), 옛 한글 확장 자모 추가[15]
6.0 2010년 10월 11일 ISBN 978-1-936213-01-6 ISO/IEC 10646:2010과 인도 루피 기호 93 109,449 문자 3종류 추가, 플레잉카드 기호, 교통 및 지도 기호, 연금술 기호, 이모티콘에모지. 222자의 한중일 통합 한자 (CJK-D) 추가.[16]
6.1 2012년 1월 31일 ISBN 978-1-936213-02-3 ISO/IEC 10646:2012 100 110,181 문자 7종류[17]
6.2 2012년 9월 27일 ISBN 978-1-936213-07-8 ISO/IEC 10646:2012와 터키 리라 기호 100 110,182 터키 리라 기호[18]
6.3 2013년 9월 30일 ISBN 978-1-936213-08-5 ISO/IEC 10646:2012와 여섯 문자 100 110,187 좌서/우서 형식 문자 5자[19]
7.0 2014년 6월 16일 ISBN 978-1-936213-09-2 ISO/IEC 10646:2012와 개정 1, 2, 루블 기호 123 113,021 문자 23종류와 딩뱃[20]
8.0 2015년 6월 17일 ISBN 978-1-936213-10-8 ISO/IEC 10646:2014와 개정 1, 2, 조지아 라리 기호, 한중일 통합 한자 9자와 에모지 41자[21] 129 120,737 문자 6종류와 5771 한중일 통합 한자(CJK-E), 체로키 소문자, 피부색 조정자 5자[22]
9.0 2016년 6월 21일 ISBN 978-1-936213-13-9 ISO/IEC 10646:2014와 개정 1, 2, 아들람, 네와 문자, 일본 텔레비전 심벌, 74자의 에모지와 심벌[23] 135 128,237 서하 문자 등 6종의 문자와 에모지 72자[24]
10.0 2017년 6월 20일 ISBN 978-1-936213-16-0 ISO/IEC 10646:2016과 개정 1, 2, 헨타이가나, 한중일 통합 한자 21자와 에모지 56자[25] 139 136,755 소욤보문자 등 4종의 문자와 한중일 통합 한자(CJK-F)[26]
11.0 2018년 6월 6일 ISBN 978-1-936213-19-1 ISO/IEC 10646:2017과 개정 1, 2, 도그라 문자 등 8종, 한중일 통합 한자 5자와 에모지 145자[27] 146 137,439 도그라 문자 등 8종의 문자와 에모지 145자[28]
12.0 2019년 3월 5일 ISBN 978-1-936213-22-1 ISO/IEC 10646:2017과 개정 1, 2와 62개 추가 문자[29] 150 137,993 엘리마이스 문자 등 4종과 일본어 고어에 쓰인 소형 히라가나가타카나 등, 에모지 61자[30]
12.1 2019년 5월 7일 ISBN 978-1-936213-22-1 ISO/IEC 10646:2017과 개정 1, 2와 63개 추가 문자 150 137,994 레이와 연호 사각문자[31]
13.0 2020년 3월 10일 ISBN 978-1-936213-22-1 ISO/IEC 10646:2020과 개정 1, 2와 63개 추가 문자 154 143,859 호라즘 문자, 디베스 아쿠루, 거란 문자 소문자, 예즈드 문자, 한중일 통합 한자(CJK-G), 하우사 문자, 월로프 문자, 힌디코 문자, 펀자브 문자, 에모지 55자[32]
14.0 2021년 9월 22일 ISBN 978-1-936213-22-1 ISO/IEC 10646:2021과 개정 1, 2와 63개 추가 문자 159 144,697 토토 문자, 키프로 미노안, 비트쿠키 문자, 고대 위구르 문자, 라틴 문자(확장F, 확장G) 등[33]
15.0 2022년 9월 13일 ISBN 978-1-936213-22-1 ISO/IEC 10646:2022와 개정 1, 2와 63개 추가 문자 166 149,186 카위 문자, 나그 문다리, 카토빅 숫자, 아랍 문자(확장C), 데바나가리 문자(확장A), 한중일 통합 한자(CJK-H) 등[34]
15.1 2023년 9월 12일 ISBN 978-1-936213-22-1 ISO/IEC 10646:2023과 개정 1, 2와 63개 추가 문자 167 149,813 한중일 통합 한자(CJK-I) [35]

유니코드 목록 편집

유니코드 표 (범위 목록)v  d  e  h
다국어 기본 평면
BMP
다국어 보충 평면
SMP
상형 문자 보충 평면
SIP
상형 문자 제3 평면
TIP
특수 목적 보충 평면
SSP
U+0000
U+1000
U+2000
U+3000
U+4000
U+5000
U+6000
U+7000
U+8000
U+9000
U+A000
U+B000
U+C000
U+D000
U+E000
U+F000
U+10000
U+11000
U+12000
U+13000
U+14000
U+15000
U+16000
U+17000
U+18000
U+19000
U+1A000
U+1B000
U+1C000
U+1D000
U+1E000
U+1F000
U+20000
U+21000
U+22000
U+23000
U+24000
U+25000
U+26000
U+27000
U+28000
U+29000
U+2A000
U+2B000
U+2C000
U+2D000
U+2E000
U+2F000
U+30000
U+31000
U+32000
U+E0000

유니코드 변환 형식과 국제 문자 세트 편집

유니코드는 2가지 매핑 방식이 있다: 유니코드 변환 형식(Unicode Transformation Format, UTF) 인코딩, 국제 문자 세트(Universal Coded Character Set, UCS) 인코딩.

UTF 인코딩은 다음을 포함한다:

각주 편집

  1. “Summary Narrative”. 2010년 3월 15일에 확인함. 
  2. 각 버전의 글자의 수는 지정되어 있는 모든 문자를 포함한 것이며, 사용자 정의 영역 문자와 서러게이트 영역은 제외한다.
  3. “Unicode Data 1.0.0”. 2010년 3월 16일에 확인함. 
  4. “Unicode Data 1.0.1”. 2010년 3월 16일에 확인함. 
  5. “Unicode Data 1995”. 2010년 3월 16일에 확인함. 
  6. “Unicode Data-2.0.14”. 2010년 3월 16일에 확인함. 
  7. “Unicode Data-2.1.2”. 2010년 3월 16일에 확인함. 
  8. “Unicode Data-3.0.0”. 2010년 3월 16일에 확인함. 
  9. “Unicode Data-3.1.0”. 2010년 3월 16일에 확인함. 
  10. “Unicode Data-3.2.0”. 2010년 3월 16일에 확인함. 
  11. “Unicode Data-4.0.0”. 2010년 3월 16일에 확인함. 
  12. “Unicode Data”. 2010년 3월 16일에 확인함. 
  13. “Unicode Data 5.0.0”. 2010년 3월 17일에 확인함. 
  14. “Unicode Data 5.1.0”. 2010년 3월 17일에 확인함. 
  15. “Unicode Data 5.2.0”. 2010년 3월 17일에 확인함. 
  16. “Unicode Data 6.0.0”. 2010년 10월 11일에 확인함. 
  17. “Unicode Data 6.1.0”. 2012년 1월 31일에 확인함. 
  18. “Unicode Data 6.2.0”. 2012년 9월 26일에 확인함. 
  19. “Unicode Data 6.3.0”. 2013년 9월 30일에 확인함. 
  20. “Unicode Data 7.0.0”. 2014년 6월 15일에 확인함. 
  21. “Unicode 8.0.0”. Unicode Consortium. 2015년 6월 17일에 확인함. 
  22. “Unicode Data 8.0.0”. 2015년 6월 17일에 확인함. 
  23. “Unicode 9.0.0”. Unicode Consortium. 2016년 6월 21일에 확인함. 
  24. “Unicode Data 9.0.0”. 2016년 6월 21일에 확인함. 
  25. “Unicode 10.0.0”. Unicode Consortium. 2017년 6월 20일에 확인함. 
  26. “Unicode Data 10.0.0”. 2017년 6월 20일에 확인함. 
  27. “Unicode 11.0.0”. Unicode Consortium. 2018년 6월 6일에 확인함. 
  28. “Unicode Data 11.0.0”. 2018년 6월 6일에 확인함. 
  29. “The Unicode Standard, Version 12.0.0 Appendix C” (PDF). Unicode Consortium. 2019년 3월 5일에 확인함. 
  30. “Announcing The Unicode® Standard, Version 12.0”. 《blog.unicode.org》. 2019년 3월 5일에 확인함. 
  31. “Unicode Version 12.1 released in support of the Reiwa Era”. 《blog.unicode.org》. 2019년 5월 8일에 확인함. 
  32. “Unicode Version 13.0 released in support of the Reiwa Era”. 《blog.unicode.org》. 2020년 3월 10일에 확인함. 
  33. “Unicode Version 14.0 released in support of the Reiwa Era”. 《blog.unicode.org》. 2021년 9월 22일에 확인함. 
  34. “Unicode Version 15.0 released in support of the Reiwa Era”. 《blog.unicode.org》. 2022년 9월 13일에 확인함. 
  35. “Unicode Version 15.1 released in support of the Reiwa Era”. 《blog.unicode.org》. 2023년 9월 12일에 확인함. 

외부 링크 편집