차세대 염기서열 분석

차세대 염기서열 분석(영어: NGS, Next Generation Sequencing)은 유전체의 염기서열의 고속 분석 방법이며 High-throughput sequencing, Massive parallel sequencing 또는 Second-generation sequencing이라고도 불린다.^[1]^[2] 기존 생어 염기서열 분석(Sanger sequencing)과 달리 많은 수의 DNA조각을 병렬로 처리하는 데 특징이 있다.^[3]^[4] 차세대 염기서열 분석의 등장으로 유전체 분석에 필요한 비용이 급격히 낮아져 많은 분야에서 다양하게 사용되고 있다.^[5]

실험 과정

온전한 상태의 DNA는 길이가 2미터에 달하며^[6](), 이를 통째로 분석할 수 있는 NGS 기기(이하 시퀀서)는 2021년 현재 존재하지 않는다. 따라서 시퀀서에서 인식이 가능한 크기로 잘라주는 DNA 분절화(Fragmentation) 과정이 필수로 요구된다.

DNA 분절 방법

일반적인 NGS 실험과정에서 사용되는 DNA 분절화 과정은 크게 물리적 방법과 효소적 방법으로 나뉜다. 물리적 방법은 샘플 튜브상에 담긴 DNA를 물 등의 매질을 통해 초음파적 진동으로 분절하는 원리이며, 에너지의 세기 및 노출 시간을 조절하여 원하는 길이의 DNA 파편을 제작할 수 있다. 효소적 방법은 제한 효소를 이용한 DNA 분절 방법이며, DNA를 효소로 자름과 동시에 Adapter를 붙이는 단계가 동시적으로 일어난다. 물리적 방법에 비해 어댑터 부착단계까지의 여러 과정을 생략하기 때문에 적은 시료로도 가능하다. 허나, 물리적 방법에 비해 효소적 방법은 분절과정의 시간에 큰 영향을 받으며, 시료의 상태가 좋지 않을수록 균일한 DNA파편을 제작하기가 어렵다.

말단 수리

분절화된 DNA 파편들은 완전한 이중나선구조가 아닌 한쪽 말단의 염기가 부족한 불완전한 구조인 경우가 많다. 이를 균일하게 만들기 위해 염기서열이 긴 쪽을 DNA중합효소 등으로 잘라내거나 짧은 쪽을 상보적인 염기로 채워넣는다.

어댑터 부착

어댑터는 시퀀서에서 인식할 수 있도록 사전에 설계한 특정 염기서열을 가진 올리고뉴클레오타이드이다. 앞서 추가한 말단 아데닌과 상보적으로 결합하는 다수의 티민으로 구성된 결합부위를 갖고 있으며, 이외에도 시퀀스 내 샘플 정보를 대변하는 특정 염기서열인 바코드(barcode)를 지니고 있다. 어댑터 부착이 완료된 DNA 분절은 라이브러리로 불리며, 분석 종류에 따라 PCR을 통한 증폭 및 자성 비드(magnetic bead)를 통한 정제작업을 거친다.

시퀀싱

라이브러리 제작 단계에서 부착시킨 어댑터 부위가 시퀀서 상의 상보적인 프라이머와 결합하여 대규모 복제가 이루어진다. 대규모 복제 과정은 시퀀싱 기기(이하 시퀀서; Sequencer) 생산 업체마다 차이가 있으나, 주된 목적은 같은 방향의 단염기서열을 다수 복제하는 것으로 동일하다. 이후 정렬된 DNA에 염기가 재조합되는 순서를 관측하는 과정이 이루어진다. 형광물질이 결합된 염기가 조합될 때 발생하는 빛을 카메라로 촬영하거나 염기에 따른 전압차를 측정하는 방식이 현재 쓰이고 있다.

플랫폼

로슈 454의 등장으로 다량의 DNA를 한꺼번에 분석하는 방법이 시도되었으며^[7] 이후 일루미나(Illumina), 팩바이오(PacBio)등의 플랫폼이 등장한다.

NGS Platforms
Platform	Template Preparation	Chemistry	Max Read length (bases)	Run Times (days)	Max Gb per Run
Roche 454	Clonal-emPCR	Pyrosequencing	400‡	0.42	0.40-0.60
GS FLX Titanium	Clonal-emPCR	Pyrosequencing	400‡	0.42	0.035
Illumina MiSeq	Clonal Bridge Amplification	Reversible Dye Terminator	2x300	0.17-2.7	15
Illumina HiSeq	Clonal Bridge Amplification	Reversible Dye Terminator	2x150	0.3-11^[8]	1000^[9]
Illumina Genome Analyzer IIX	Clonal Bridge Amplification	Reversible Dye Terminator	2x150	2-14	95
Life Technologies SOLiD4	Clonal-emPCR	Oligonucleotide 8-mer Chained Ligation^[10]	35-50	4-7	35-50
Life Technologies Ion Proton^[11]	Clonal-emPCR	Native dNTPs, proton detection	200	0.5	100
Complete Genomics	Gridded DNA-nanoballs	Oligonucleotide 9-mer Unchained Ligation	7x10	11	3000
Helicos Biosciences Heliscope	Single Molecule	Reversible Dye Terminator	35‡	8	25
Pacific Biosciences SMRT	Single Molecule	Phospholinked Fluorescent Nucleotides	10,000 (N50); 30,000+ (max)^[12]	0.08	0.5^[13]

분석 방법

파이로 시퀀싱(Pyrosequencing)

1996년 Pål Nyrén이 제안한 방법으로 염기서열의 길이가 늘어날 때마다 각 서열이 다른 색을 발생하게 하여 많은 DNA를 동시에 분석하는 방법이며 로슈 454에 적용되었다.^[7] 조각난 DNA를 라이브러리로 제작해 각 라이브러리를 일종의 기름방울 안에 넣고 증폭한다.

일루미나 시퀀싱

각 DNA를 유리판에 부착된 프라이머로부터 증폭하는 방법을 이용한다. 이렇게 하면 프라이머 부근에 각 DNA 라이브러리의 복제본이 집락을 이루게 되고 이 집락을 형광 염료로 표지된 염기를 이용해 분석한다. 이 방법은 많은 양의 데이터를 얻는 것이 가능하고 오류가 적다는 장점이 있지만 분석할 수 있는 서열의 길이가 짧다는 단점이 있다.

Phospholinked Fluorescent Nucleotides or Real-time sequencing

퍼시픽 바이오 사이언스(Pacific Biosciences)에서 개발한 방법이다.

데이터 분석

시퀀서를 통해 전자적으로 읽어진 한 라이브러리의 염기서열 정보를 read라고 부른다. 생성된 read 데이터는 시퀀서로부터 2진수 형태인 BCL 파일로 생성되며 이를 시퀀서 자체 시스템 또는 bcl2fastq 소프트웨어를 사용하여 fastq 파일 형태로 가공된다. 일반적인 유전체 원시데이터는 이 fastq파일을 뜻한다. 각 fastq파일은 시퀀싱에 사용된 리드(read)의 ID 및 시퀀싱 순서 정보, 염기서열 정보, 시퀀싱 질을 나타내는 프레드 품질 점수(Phred Quality Score) 등으로 구성된다.

질적 정량기준을 통과한 데이터는 이후 유전체를 재조립하는 과정에 부품으로서 사용된다. 이미 제작되어 있는 참조 유전체(Reference Genome) 상에 read들을 퍼즐처럼 조합시키는 과정이 진행되며, 이를 Alignment 또는 Mapping이라 한다. 학계 내 발표된 참조 유전체가 존재하지 않는 경우 read간의 연결을 통하여 유전체를 조합하는 방법이 있는데, 이는 de-novo sequencing이라 하며 주로 발굴된 고생물 시료 및 신생물종 연구에서 활용된다. 생성된 유전체는 이후 유전자의 위치, 유전 변이 확인 및 위험성 평가 등을 측정하는 Annotation 과정은 거친다.^[14]

외부 링크

3, 4년 뒤 100달러로 내 모든 DNA 한눈에 본다 (2017.11, 동아일보)

각주

↑ Schuster SC (2007). “Next-generation sequencing transforms today's biology.”. 《Nature Methods》 5 (1): 16–18. doi:10.1038/nmeth1156.
↑ Mardis ER (2008). “Next-Generation DNA Sequencing Methods.”. 《Annual Review of Genomics and Human Genetics》 9 (1): 387–402. doi:10.1146/annurev.genom.9.081307.164359.
↑ Sanger, F., Air, G. M., Barrell, B. G., Brown, N. L., Coulson, A. R., Fiddes, J. C.; 외. (1977). “Nucleotide sequence of bacteriophage φX174 DNA.”. 《Nature》 256 (5596): 687–695. doi:10.1038/265687a0.
↑ Ahmadian, A., Ehn, M., & Hober, S. (2006). “Pyrosequencing: History, biochemistry and future.”. 《Clinica Chimica Acta》 363 (1-2): 83–94. doi:10.1016/j.cccn.2005.04.038. CS1 관리 - 여러 이름 (링크)
↑ “dna-sequencing-costs”. 2016년 8월 1일에 원본 문서에서 보존된 문서. 2016년 5월 5일에 확인함.
↑ McGraw-Hill Education (2012, Oct 12.). 《McGraw-Hill Encyclopedia of Science and Technology》.
↑ ^가 ^나 M. Ronaghi, S. Karamohamed, B. Pettersson, M. Uhlen, and P. Nyren (1996). “Real-time DNA sequencing using detection of pyrophosphate release”. 《Analytical Biochemistry》 242 (1): 84–9. doi:10.1006/abio.1996.0432. PMID 8923969. CS1 관리 - 여러 이름 (링크)
↑ “보관된 사본”. 2014년 12월 6일에 원본 문서에서 보존된 문서. 2016년 5월 3일에 확인함.
↑ “보관된 사본”. 2014년 11월 6일에 원본 문서에서 보존된 문서. 2016년 5월 3일에 확인함.
↑ McKernan KJ, 외. (Sep 2009). “Sequence and structural variation in a human genome uncovered by short-read, massively parallel ligation sequencing using two-base encoding”. 《Genome Res》 19 (9): 1527–41. doi:10.1101/gr.091868.109. PMC 2752135. PMID 19546169.
↑ “Ion Torrent”. 2013년 12월 30일에 원본 문서에서 보존된 문서. 2014년 1월 1일에 확인함.
↑ Pacific Biosciences Introduces New Chemistry With Longer Read Lengths to Detect Novel Features in DNA Sequence and Advance Genome Studies of Large Organisms
↑ Lex Nederbragt. “De novo bacterial genome assembly: a solved problem?”.
↑ Howe, A., & Chain, P. S. G. (2015). “Challenges and opportunities in understanding microbial communities with metagenome assembly (accompanied by IPython Notebook tutorial).”. 《Frontiers in Microbiology》 6: 678. doi:10.3389/fmicb.2015.00678. CS1 관리 - 여러 이름 (링크)

[ref1-1] Schuster SC (2007). “Next-generation sequencing transforms today's biology.”. 《Nature Methods》 5 (1): 16–18. doi:10.1038/nmeth1156.

[ref2-2] Mardis ER (2008). “Next-Generation DNA Sequencing Methods.”. 《Annual Review of Genomics and Human Genetics》 9 (1): 387–402. doi:10.1146/annurev.genom.9.081307.164359.

[ref4-3] Sanger, F., Air, G. M., Barrell, B. G., Brown, N. L., Coulson, A. R., Fiddes, J. C.; 외. (1977). “Nucleotide sequence of bacteriophage φX174 DNA.”. 《Nature》 256 (5596): 687–695. doi:10.1038/265687a0.

[ref5-4] Ahmadian, A., Ehn, M., & Hober, S. (2006). “Pyrosequencing: History, biochemistry and future.”. 《Clinica Chimica Acta》 363 (1-2): 83–94. doi:10.1016/j.cccn.2005.04.038. CS1 관리 - 여러 이름 (링크)

[5] “dna-sequencing-costs”. 2016년 8월 1일에 원본 문서에서 보존된 문서. 2016년 5월 5일에 확인함.

[6] McGraw-Hill Education (2012, Oct 12.). 《McGraw-Hill Encyclopedia of Science and Technology》.

[Ronaghi-7] 가 ^나 M. Ronaghi, S. Karamohamed, B. Pettersson, M. Uhlen, and P. Nyren (1996). “Real-time DNA sequencing using detection of pyrophosphate release”. 《Analytical Biochemistry》 242 (1): 84–9. doi:10.1006/abio.1996.0432. PMID 8923969. CS1 관리 - 여러 이름 (링크)

[8] “보관된 사본”. 2014년 12월 6일에 원본 문서에서 보존된 문서. 2016년 5월 3일에 확인함.

[9] “보관된 사본”. 2014년 11월 6일에 원본 문서에서 보존된 문서. 2016년 5월 3일에 확인함.

[Lig3-10] McKernan KJ, 외. (Sep 2009). “Sequence and structural variation in a human genome uncovered by short-read, massively parallel ligation sequencing using two-base encoding”. 《Genome Res》 19 (9): 1527–41. doi:10.1101/gr.091868.109. PMC 2752135. PMID 19546169.

[11] “Ion Torrent”. 2013년 12월 30일에 원본 문서에서 보존된 문서. 2014년 1월 1일에 확인함.

[12] Pacific Biosciences Introduces New Chemistry With Longer Read Lengths to Detect Novel Features in DNA Sequence and Advance Genome Studies of Large Organisms

[13] Lex Nederbragt. “De novo bacterial genome assembly: a solved problem?”.

[ref3-14] Howe, A., & Chain, P. S. G. (2015). “Challenges and opportunities in understanding microbial communities with metagenome assembly (accompanied by IPython Notebook tutorial).”. 《Frontiers in Microbiology》 6: 678. doi:10.3389/fmicb.2015.00678. CS1 관리 - 여러 이름 (링크)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]