생물정보학

생물학의 하위 분야

생물정보학(生物情報學), 흔히 바이오인포매틱스(bioinformatics)는 생물학적인 문제를 응용수학, 정보과학, 통계학, 컴퓨터 과학, 인공지능, 화학, 생화학 등을 이용하여 주로 분자 수준에서 다루는 학문이다. 전산생물학의 연구분야는 시스템즈 생물학과 중복되기도 한다. 주 연구분야는 서열정렬, 유전자 검색, 유전자 조합, 단백질 구조 정렬, 단백질 구조 예측, 유전자발현의 예측, 단백질간 상호작용, 진화모델 등 다양하다.

발생 배경 편집

1950년대 영국 케임브리지의 앨런 튜링 (Alan Mathison Turing) 박사가 자연발생적인 생물학적 패턴에 관한 논문이 생물정보학의 최초의 논문으로 인식된다. 그 뒤, 영국 케임브리지의 MRC 센터의 막스 퍼루츠와 존 켄드류박사가 헤모글로빈의 3차원 단백질 구조를 밝혀 내면서, 그 때까지 손으로 계산기를 이용하던 것에서, 컴퓨터를 가지고 모델을 만들기 시작한 것이 구조생물정보학(structural bioinformatics)의 시작이다. 그 뒤 같은 MRC 센터의 퍼루츠의 연구원이된 프란시스 크릭(Francis Crick)이 시드니 브래너 (Sydney Brenner)와 같이 코돈(codon)이란 말을 만들면서, 생물학의 핵심인 DNA 나선구조와 정보 복사라는 개념을 더 확고히 하게 되었다. 그 때, 같은 MRC 센터의 생어 박사가 최초의 인슐린 단백질 서열을 해독해 내면서, MRC 센터 내에 서열연구의 중요성과 기반이 만들어졌다. 그 뒤 생어 박사가 두 번째 노벨상을 타게되는 DNA 서열을 쉽게 읽는 2 가지의 방법을 고안하면서, 많은 양의 DNA 정보가 쏟아지게 되었다. 이때, MRC 센터는 이미, 최초의 3차원 단백질을 컴퓨터로 그리기 시작했으며, 최초의 DNA 게놈 구조비교, 최초의 DNA서열 정렬법, 최초의 DNA 정렬 패키지 등을 만들게 되었다. 몇몇의 물리학자 및 수학자 출신들이 직접 컴퓨터 프로그래밍을 통해 무료로 알고리즘을 배포하기 시작하면서, 생물정보학의 완성된 모습들이 미국에 영향을 주기 시작한다. 특히, 1960년와 1970년대에는 미국에서 수많은 포스트닥터와 연구자들이 케임브리지의 MRC 센터에서 생물리학, 생화학, 생물정보학을 전수하여 갔다. 1970년대, 최초의 단백질 아틀라스 발간, 유전자 정보 은행, 니들만 원쉬 알고리즘 등의 미국 연구자들의 기여가 증가하고, 인터넷이 급격히 보급되는 1995년에, 생물정보학은 지금의 연구자들이 이해하는 형태로 되었다. 그 전까지는 생물정보학에 대한 정의나, 역사에 대한 지식이 일부 200명 남짓하는 소수 전문가들에게만 알려졌었다. 인터넷을 통한 자유로운 정보교환은, 따라서 생정보학의 가장 중요한 철학적 배경을 가지고 있으며, 그 뿌리는 모든 정보를 무료로 배포한 케임브리지의 MRC 센터의 문화에서 기인한다. 그에 반해, 미국은 실리콘밸리와 하버드 및 예일에서의 동부 지역을 주축으로 한 조금 더 경쟁적이고 폐쇄적인 정보교환이 진행되다, 미국 NCBI가 본격적으로 운행되면서, 막대한 양의 생물학 정보들이 전 세계적으로 보급되는 계기를 90년대에 만들게 되었다. 지금은 1970년대 영국 케임브리지 생어의 DNA 서열 분석 방법의 발달에 따라 현재 수많은 종의 전장 게놈 서열이 밝혀져 있으며, 이런 정보가 생물정보학의 핵심 컨텐츠이다. 특히 게놈은 생물정보학의 탄생부터 가장 핵심되는 분야로서, 게놈학과 생물정보학은 밀접하다. 결론적으로 생물체로부터 얻어진 대량의 데이터로부터 유용한 지식을 얻어내기 위한 이론물리/전산/통계/수학적인 도구를 이용하여 생명현상을 연구하는 분야를 생정보학(bioinformatics) 혹은 생명정보학, 생물정보학으로 쓰이고 있으며, 전산생물학(computational biology)이라는 용어 또한 흔히 같은 뜻으로 쓰이고 있다. 그러나, 전산 생물학은 생물학에서 컴퓨터를 쓴다는 생물학에 포함된 정의로 이해할 수 있다. 최근 생명현상을 보는 시각이 확대되면서, 기존의 Bio+Logie의 뜻과 같으나, 단순한 부속의 합이 아니란 취지의, 시스템 전체에 대한 분석 및 수리적인 모델링(mathematical modeling)을 강조하는 용어인 시스템 생물학(systems biology)도 생정보학과 상당부분 겹치는 용어이다.

2010년을 기점으로 게놈해독기술이 급격하게 발전하면서, 게놈뿐만 아니라, 발현체(전사체, 단백질, 대사체, 외유전체)의 해독과 분석이 용이하게 되면서, 이런 체(ome)의 총칭인 오믹스(체학)의 다양성이 늘어났다. 이 다양한 체학의 데이터를 다중오믹스 혹은 다중체정보라고 부른다. 다중오믹스(multiomics)는 현재 생명정보학의 빅데이터의 핵심이다. 특히, 게놈위주의 체학에서, 다중오믹스간의 유기적 관계성을 인공지능(AI)로 해석을 하는 시도들이 늘어나서, 암뿐만 아니라, 심장병까지도 다중오믹스적으로 그 원인유전자 분석을 하게 되었다. 심장병은 암과 같이 유전질환으로 인식이 안되는 만성 성인병임에도 불구하고, 다중오믹스의 분석파워의 증가에 따라, 유전자와 발현체정보의 활용에 힘입어, 조기 진단 및 치료에까지 생정보학의 영역이 확대되고 있고, 이것은 생정보학과 의료정보학의 중복성을 잘 보여준다.

관련 분야 편집

  • 생물학
  • 컴퓨터 과학 : 대용량의 데이터 처리 및 가공, 변형에 컴퓨터 과학이 필수적으로 필요하다.
  • 통계학 : 방대한 자료에서 의미있는 정보를 얻어낼 때 주로 통계적 처리가 필요하다.
  • 수학 : 생물학적 자료의 방대함으로 인해, 현재의 컴퓨터 계산 능력(computing power)으로도 적당한 시간 안에 자료를 처리할 수 없는 경우, 또는, 새로운 방법으로 자료를 해석해야 하는 경우, 수학적인 방법론이 필요하다.

하위 분야 편집

관련 기관 편집

관련 저널 편집

외부 링크 편집