참조 유전체

표준 유전체(reference genome)에서의 '표준'이란 '참조'라고 번역해야 하는 "reference"가 "standard"의 번역인 '표준'으로 오번역된 것이다. 즉 참조 유전체(reference genome)으로 번역되어야 할 용어가 표준 유전체으로 번역되어 일부 언론을 통해 확산되는 것은 번역오류에 기인하지만 표준이라는 용어가 법정 표준체계와 긴밀하게 관련되어 있어서 개념상의 혼란 이상으로 혼선을 야기할 수 있다.

참조 유전체의 정의와 의미

유전체학(genomics)에서 표준 유전체(혹은 표준유전체)이란 용어는 학술적으로 타당하거나 국제적으로 통용되는 표현이 아니다. 표준 유전체의 어원이라고 할 수 있는 용어는 참조 유전체(reference genome)은 유전체 분석에서 필수적인 재조립의 지침이 되는 유전체 지도(map)에 해당된다. 영문 Wikipedia의 설명을 보면 다음과 같다.

“

"A reference genome (also known as a reference assembly) is a digital nucleic acid sequence database, assembled by scientists as a representative example of a species' set of genes. As they are often assembled from the sequencing of DNA from a number of donors, reference genomes do not accurately represent the set of genes of any single person. Instead a reference provides a haploid mosaic of different DNA sequences from each donor. For example, GRCh37, the Genome Reference Consortium human genome (build 37) is derived from thirteen anonymous volunteers from Buffalo, New York.^[1] The ABO blood group system differs among humans, but the human reference genome contains only an O allele (although the other alleles are annotated)."

”

핵심적인 개념을 확인해 보면,

생물의 종을 대표하는 염기서열이며
동일한 종에도 개체간의 변이가 있을 수 있기 때문에 한 개체 염기서열 자체가 아닌 (희귀한 변이를 최소화한) 여러 명의 합성(mosaic)으로 반배체(haploid)를 재구성한 것이고
GRCh37(현재는 GRCh38 버전이 사용됨)과 같이 가장 완성도가 높은 유전체 조립을 참조 유전체으로 사용하며
예를 들어 참조 유전체에는 ABO형이 있다면 A,B,O 모든 서열이 다 모여 있어야 하는 것이 아니라 정확한 O형의 염기서열 하나만 제시하여, 다른 사람이 A인지 B인지를 판단하는 근거로 작용한다.^{[편집자 주 1]}

즉, 인간의 참조 유전체은 인간을 대표하는 1인의 가상 염기서열이다.(즉, 한 쌍의 반배체 염기서열) 변이 판정의 기준이 되어야 하므로 가장 품질이 1인의 초정밀 염기서열이 뼈대가 되어 만들어진 합성유전체이다. 현재의 유전체 분석 기술은 30억개의 염기서열을 100-300개 정도의 조각으로 토막토막 잘라낸 후에, 각 조각을 분석한 후 그것을 조립하는 "재조립"과정을 사용한다. 재조립 과정에서 어떤 조각과 어떤 조각이 어느정도의 거리를 가지고 있는지를 판단해 주는 유전체지도(genome map)가 필수적인 이유이다. 현재 국제적으로 통용되는 인간의 참조 유전체은 인간유전체프로젝트의 성과로 얻어진 hg38(혹은 GRC38)이 사용되고 있다. 가장 완벽한 수준으로 염기서열이 확인되어 있고, 각 염기서열 별로 많은 기능정보(annotation)가 구현되어 있기 때문에 국제적으로 통용되는 것이다. 이는 다음에 이야기할 인구집단 안에 변이가 어느정도 있는가를 제시하는 개념으로 참조 유전체, 유전체DB 등과는 명확히 구분된다.

유전체분야 표준 및 참조 개념 정리

국가 표준체계에서 유전체는 물론 바이오 및 생물학 분야전체는 매우 새로운 분야이다. 기존의 표준이 물리-화학적 특성을 중심으로(KS 마크 등) 인증 등으로 확립되어 있지만, 생물학은 가변성과 불확실성의 개념이 물리-화학과는 근본적으로 다른 어려움이 있어서, 표준체계의 수용이 전세계적으로도 큰 과제라고 할 수 있다. 참조표준(reference standard)이라고 불리는 국가 표준체계가 존재하여 용어상으로 더욱 혼란을 줄 수도 있다. 참조표준의 의미는 고정된 물성표준과는 달리 강우량과 같이 어느정도의 변이가 있는지를 예측할 수 있도록(표준적인 변이의 범위와 평균) 정보를 제공해 주는 개념이다. 유전체분야에서 참조표준과 가장 유사한 것은 세계적으로는 1천명의 전장유전체 염기서열 정보의 DB인 1000 genome project가 대표적이며, 한국의 질병관리본부 유전체센터에서 제공하고 있는 한국인 참조유전체 DB^[2]등이 이러한 개념에 해당된다.

또 한가지 용어에서 구분이 필요한 것은 유전체지도(genome map)라는 용어와 유전체조립 혹은 유전체어셈블리(genome assembly)이라는 용어의 차이이다. 유전체조립은 기존의 지도를 참고하지 않고 독자적인 신생조립을 한 경우를 지칭한다. 예를 들어 새로운 종이 발견되어 그 생물학적인 종의 유전체 정보가 필요하다면 우선적으로 유전체조립을 만들게 된다. genome assembly의 구성과정은 기존의 유전체 지도를 참고로 하지 않고 조립을 하게 된다. 사람의 유전체에도 다양한 유전체조립이 존재한다. 특히, 유전체 분석기술이 덜 보편화되었던 시기에는 유전체 분석기술의 성과를 집약하는 결과물로 현재의 국제공용 참조표준인 hg38이외에도 다양한 연구팀의 다양한 유전체조립이 미국 NCBI 등에 등재되어 있다. 그러나, 모든 유전체조립이 유전체지도로 인정되는 것은 아니며, 유전체지도로 인정되기 위해서는 엄격한 기준이 적용된다. 유전체조립은 다음과 같은 3가지의 품질기준을 만족해야만 유전체지도로서 인정된다^[3]

전체 유전체조립의 염기서열 중 미확인(ACGT가 아닌 N으로 표기)가 연속해서 10개를 넘는 서열이 없을 것.
모든 정상 염색체가 염색체 차원에서 다 확인될 수 있을 것.
모든 스캐폴드(scaffold)는 2)에서 확인된 염색체에 위치가 확인되어 있을 것.

표준 유전체의 또 다른 의미는 유전체물질이다. 이는 reference genome과는 달리 표준 DNA물질을 의미하며, 염기서열의 상당부분이 확인되어 있어서 분석기술을 검증하거나 질관리 등의 목적으로 사용될 수 있는 유전체을 의미한다. 이러한 표준 유전체물질은 실제 표준의 개념과 방법론이 적용될 수 있는 분야이다. 현재 표준 유전체물질의 제작은 미국의 표준연구원(NIST)에서 제공하는 참조 유전체물질(reference genome material)^[4]이 존재하며, 우리나라에서도 산업부의 지원으로 연구가 수행 중이다.^{[편집자 주 2]}

한국인의 참조 유전체

유전체의 서열 및 구조는 개인별, 인구집단별 크게 차이가 나기 때문에, 질병 및 인종 특성에 대한 척도로서 많이 사용되고 있으나, 인간 참조 유전체지도(human reference genome)는 주로 백인 및 흑인의 유전체으로 구성되어 있다. 기존의 이론으로는 지도란 재조립과정을 통해서 변이를 확인하는 기준으로만 사용되면 되기 때문에 종별로 1개의 가장 완성도가 높은 지도만 존재하면 된다. 그러나, 실제로 유전체가 가지는 복잡성과 다양성이 더 많이 밝혀지면서 아시아인의 고유한 참조 유전체지도를 통해서 유전체 분석을 할 경우 더 많은 정보를 확인할 수 있을 것이라는 근거들이 더욱 많이확보되고 있다.^[5]^[6]^[7]

우리나라에서도 한국인의 독자적인 참조 유전체과 유전체지도가 향후 유전체 연구에 미칠 수 있는 선도적 위치를 고려하여 산업부의 지원으로 "한국인 표준 유전체지도 작성: 유전체 대동여지도 사업" 이 수행되고 있다^[8]

각주

참조주

↑ “Editorial (October 2010). "E pluribus unum". Nature Methods. 7 (5): 331. doi:10.1038/nmeth0510-331.”.
↑ “질병관리본부”.
↑ “National Center for Biotechnology Information” (영어). 2017년 6월 7일에 확인함.
↑ “미국 Genome Reference Material, NIBSC 웻사이트”.
↑ Park, Hansoo; Kim, Jong-Il; Ju, Young Seok; Gokcumen, Omer; Mills, Ryan E.; Kim, Sheehyun; Lee, Seungbok; Suh, Dongwhan; Hong, Dongwan (May 2010). “Discovery of common Asian copy number variants using integrated high-resolution array CGH and massively parallel DNA sequencing”. 《Nature Genetics》 (영어) 42 (5): 400–405. doi:10.1038/ng.555. ISSN 1061-4036. PMC 3329635. PMID 20364138.
↑ Cho YS; 외. “An ethnically relevant consensus Korean reference genome is a step towards personal reference genomes”. 《Nature Communications》.
↑ Tao; 외. “Genetic differences among ethnic groups”. 《Genetic Differences among Ethnic Groups - BMC Genomics》.
↑ Seo, Jeong-Sun; Rhie, Arang; Kim, Junsoo; Lee, Sangjin; Sohn, Min-Hwan; Kim, Chang-Uk; Hastie, Alex; Cao, Han; Yun, Ji-Young (2016년 10월 13일). “De novo assembly and phasing of a Korean human genome”. 《Nature》 (영어) 538 (7624): 243–247. doi:10.1038/nature20098. ISSN 0028-0836.

내용주

↑ A,B,O각각을 다 모아 놓은 것은 다음에 이야기할 유전체 DB 혹은 참조표준DB의 개념에 해당된다.(편집자 주)
↑ 서울대학교 성주헌 교수와 표준과학원의 배영경 양인철 박사 등이 표준 유전체물질개발 연구를 수행 중

[1] “Editorial (October 2010). "E pluribus unum". Nature Methods. 7 (5): 331. doi:10.1038/nmeth0510-331.”.

[3] “질병관리본부”.

[4] “National Center for Biotechnology Information” (영어). 2017년 6월 7일에 확인함.

[5] “미국 Genome Reference Material, NIBSC 웻사이트”.

[7] Park, Hansoo; Kim, Jong-Il; Ju, Young Seok; Gokcumen, Omer; Mills, Ryan E.; Kim, Sheehyun; Lee, Seungbok; Suh, Dongwhan; Hong, Dongwan (May 2010). “Discovery of common Asian copy number variants using integrated high-resolution array CGH and massively parallel DNA sequencing”. 《Nature Genetics》 (영어) 42 (5): 400–405. doi:10.1038/ng.555. ISSN 1061-4036. PMC 3329635. PMID 20364138.

[8] Cho YS; 외. “An ethnically relevant consensus Korean reference genome is a step towards personal reference genomes”. 《Nature Communications》.

[9] Tao; 외. “Genetic differences among ethnic groups”. 《Genetic Differences among Ethnic Groups - BMC Genomics》.

[10] Seo, Jeong-Sun; Rhie, Arang; Kim, Junsoo; Lee, Sangjin; Sohn, Min-Hwan; Kim, Chang-Uk; Hastie, Alex; Cao, Han; Yun, Ji-Young (2016년 10월 13일). “De novo assembly and phasing of a Korean human genome”. 《Nature》 (영어) 538 (7624): 243–247. doi:10.1038/nature20098. ISSN 0028-0836.

[2] A,B,O각각을 다 모아 놓은 것은 다음에 이야기할 유전체 DB 혹은 참조표준DB의 개념에 해당된다.(편집자 주)

[6] 서울대학교 성주헌 교수와 표준과학원의 배영경 양인철 박사 등이 표준 유전체물질개발 연구를 수행 중

[1]

[편집자 주 1]

[2]

[3]

[4]

[편집자 주 2]

[5]

[6]

[7]

[8]