단순화된 분자입력 라인입력 시스템

(SMILES에서 넘어옴)

단순화된 분자입력 라인입력 시스템(單純化된分子入力Line入力System, 영어: simplified molecular-input line-entry system, SMILES)는 짧은 ASCII 문자열을 사용하여 화학 종의 구조를 설명하기 위한 선 표기법(line notation)의 형태이다. SMILES는 분자 편집기에서 2차원 도면이나 3차원 모델로 다시 변환하기 위해 가져올 수 있다.

SMILES
파일 확장자.smi
인터넷 미디어 타입
chemical/x-daylight-smiles
포맷 종류화학 파일 포맷
시프로플록사신에 대한 SMILES 생성 과정: 고리를 일자로 변형한 후, 주사슬과 가지를 표기한다.

SMILES는 1980년대 후반에 개발되었고 지금까지 발전하여 사용되고 있다.

표기법

편집

SMILES 표기법을 구성하는 분자구조의 요소는 크게 원자(atom), 결합(bond), 고리(ring), 방향족(aromaticity), 가지(branch), 입체화학(stereochemistry)로 나눌 수 있다.[1]

원자

편집

원자의 [Au]는 각괄호를 사용하여 원소를 나타낸다.

괄호는 다음과 같은 경우에 생략될 수 있다:

  1. B, C, N, O, P, S, F, Cl, Br, I의 "유기적인 부분집합"에 속한 경우
  2. 형식전하가 없는 경우
  3. 어떠한 원자에 수소가 결합된 수가 원자가 전자의 수와 같을 경우(일반적으로 하나의 원자가 전자를 갖지만, 질소,인,황 등은 원가가 전자가 두 가지로 나타난다.)
  4. 일반적인 동위 원소인 경우
  5. 키랄(카이랄) 중심이 아닌 경우

다른 요소는 모두 괄호로 묶어야 하며 전하와 수소를 나타내야 한다. 예를 들어, 에 대한 SMILES은 O 또는 [OH2]로 쓸 수 있다. 이때 수소는 원자로 각괄호를 쓸 수 있기 때문에, [H]O[H]로도 쓸 수 있다.

괄호를 사용할 때는 괄호 안의 원자가 하나 이상의 수소와 결합하면 H를 적는데, 1보다 크면 수소 원자의 수를 적고, 양전하의 경우에는 +를, 음전하의 경우에는 -를 사용하여 표시한다. 예를 들어 암모늄(NH+
4
)의 경우 [NH4+]로 나타낼 수 있다. 전하가 있는 경우에는 일반적으로 숫자로 쓰이지만, 예외적으로 이온의 전하량에서는 부호를 반복하는 것도 가능하다. 따라서, 티타늄(IV) Ti4+에 대해서는 [Ti+4] 또는 [Ti+++]로 쓸 수 있고, 수산화 이온(OH-)은 [OH-], 하이드로늄 이온(H3O+)으로 표시되며 코발트(III) 양이온(Co3+)은 [Co+3] 또는 [Co+++]이다.

결합

편집

결합은 기호 . - = # $  : / \ 중 하나를 사용하여 표현한다.

지방족 원소 사이의 결합은 일반적으로 단일로 가정되며, SMILES 문자열의 인접한 원소들 사이에서 이를 암시할 수 있다. 단일 결합은 -로 표기할 수 있지만, 일반적으로 생략한다. 예를 들어, 에탄올에 대한 SMILES 문자열은 C-C-O, CC-O 또는 C-CO로 기록될 수 있지만, 일반적으로 CCO로 표기된다.

이중 결합, 삼중 결합, 4중 결합은 각각 기호 =, #, $로 표시되며, 이는 SMILES로 O=C=O(이산화탄소 CO2), C#N(시안화수소 HCN), [Ga+]$[As-](갈륨 비화갈륨)로 나타낼 수 있다.

결합을 하지 않았을 경우, 두 부분이 서로 결합되지 않았음을 나타내기 위해 .로 표시한다. 예를 들어, 염화나트륨 수용액은 [Na+].[Cl-]로 표기할 수 있다.

§ 방향족 "1과 1/2" 결합은 :을 사용하여 나타낼 수 있다.

이중 결합에 인접한 단일 결합은 § 입체화학적 구성은 / 또는 \를 사용하여 나타낼 수 있다.

고리

편집

고리 구조는 임의의 지점에서 각각의 고리를 풀어서(어떤 지점은 다른 지점보다 SMILES를 쉽게 해석할 수 있다.) 비인접 원자 간의 연결을 보여주기 위해 각 비인접 원자에 같은 숫자를 작성한다.

예를 들어, 사이클로헥세인1,4-다이옥세인은 각각 C1CCCCC1O1CCOCC1로 기록될 수 있다.

고리가 2개일 경우, 두 번째 고리의 비인접 원자에도 숫자를 붙인다. 데칼린(데카하이드로나프탈렌, decalin)은 C1CCCC2C1CCC2로 기록될 수 있다.

SMILES는 고리의 비인접 원자에 대한 번호를 특정 순서로 사용할 필요가 없으며 숫자 0도 가능하며, 서로 다른 두 고리에 같은 번호를 사용하여 나타내는 것도 가능하다. 하지만 이는 문자열을 읽기 어렵게 만들 수 있다. 예를 들어, 바이사이클로헥실은 일반적으로 C1CCCC1C2CCCC2로 작성되지만, C0CCCCCC0CCC0로도 작성될 수 있다.

하나의 원자 뒤에 여러 숫자가 표기된 경우는 여러 개의 고리 결합을 나타낸다. 데칼린의 다른 SMILES 표기법은 C1CCCC2CCCCC12이다. 두 자리 수의 숫자를 나타낼 때에는 숫자 앞에 %가 붙기 때문에, 예시는 두 개의 결합을 나타냄을 알 수 있다.

고리를 나타낼 때 다중 결합을 이룬 원자 또한 선택할 수 있다. 사이클로프로페인은 일반적으로 C1=CC1로 쓰이지만, 이중 결합을 고리 결합으로 선택한다면, 이것은 C=1CC1, C1CC=1 또는 C=1CC=1로 쓸 수 있다.(대체로 첫 번째 문자열이 선호된다.) C=1CC-1는 고리와 결합이 충돌하는 유형이기 때문에 모순이다.

고리 결합은 다중 결합을 나타내기 위해 사용될 수 없다. C1C1에틸렌에 대한 C=C로 표기가 불가능는 하다. 하지만 결합이 없을 때에는 사용될 수 있다.C1.C2.C12프로페인(propane)의 CCC를 나타내지만 주로 후자가 일반적이다.

두가지의 고리가 인접한 경우, 두 고리를 포함한 원자를 선택하여 고리결합을 나타낸다면, 가지 표현을 줄일 수 있기 때문에 더 단순한 작성이 가능하다. 사이클로헥세인-1,2-다이올은 가장 간단하게 OC1CCCC1O로 쓸 수 있다. 이때 고리를 끊기 위해 다른 원자를 선택하면 괄호를 써야 하는 더 복잡한 구조가 생성된다.

방향족

편집

벤젠과 같은 방향족성 고리는 세 가지 형태 중 하나로 쓸 수 있다:

  1. C1=CC=CC=C1과 같이 단일 결합과 이중 결합을 교대로 갖는 케쿨레 형태
  2. C1:C:C:C:C:C1로 방향족 결합 기호를 사용하는 형태
  3. 구성 B, C, N, O, P, S 원자를 각각 b, c, n, o, p, s로 적는 형태

세 번째의 경우, 두 원자 사이의 결합은 방향족 결합으로 가정된다. 따라서, 벤젠, 피리딘, 퓨란은 각각 c1ccccc1, n1ccccc1, o1cccc1로 표시될 수 있다.

피롤에서 발견되는 방향족 질소는 [nH]로 표시되며, 따라서 이미다졸n1c[nH]cc1로 표기된다.

방향족 원자들이 바이페닐과 같이 단일 결합하는 경우, c1ccccc1-c2ccccc2처럼 단일 결합을 표기해야 한다. 이는 기호 -가 필요한 몇 안 되는 경우이다. (대부분의 SMILES 프로그램은 두 고리 사이의 방향족 결합이 있는지 구별하지 못하기 때문에 c1ccccc1c2ccccc2을 이해하지 못한다.)

 
COc(c1)cccc1C#N로 표기된 3,4-시아노이솔의 형태

가지

편집

가지는 프로피온산CCC(=O)O, 플루오로포름FC(F)F에서와 같이 괄호로 설명된다. 괄호 안의 첫 번째 원자와 괄호 뒤의 첫 번째 원자는 모두 같은 원자에 결합되어 있음을 나타낸다. 결합은 괄호 안쪽에 표시되어야 하며 바깥쪽(예: CCC=(O)O)은 잘못된 표기이다.

3,4-시아노이솔 이성질체에서 치환 고리COc(c1)cccc1C#N(그림 참고) 또는 COc(cc1)ccc1C#N(그림 참고)로 표기할 수 있다. 이렇게 대체된 고리를 SMILES로 표기하는 것이 더 읽기 쉽다.

가지는 임의의 순서로 작성할 수 있다. 브로모클로로디플루오로메탄FC(Br)(Cl)F, BrC(F)(F)Cl, C(F)(Cl)(F)Br 등으로 표기할 수 있다. 일반적으로 SMILES 문자열은 단순한 가지를 먼저, 주사슬이 가장 복잡할 때 가장 읽기 쉽다.

이러한 표기에서 링 번호를 다시 쓰는 경우, 링 번호는 SMILES 문자열의 표시 순서에 따라 쌍으로 연결된다. 이때 올바른 표기를 위해 일부 조정이 필요한 경우가 발생할 수 있다. (예: § 입체화학이 지정된 경우)

괄호를 필요로 하지 않는 한 가지 형태는 고리 결합이다. 고리 결합을 적절히 표기하면 필요한 괄호 수를 줄일 수 있다. 예를 들어, 톨루엔은 일반적으로 Cc1ccccc1 or c1ccccc1CC로 표기되며, c1cc(C)ccc1 또는 c1cc(ccc1)C로 표기되는 경우와 달리 괄호를 쓰지 않을 수 있다.

입체화학

편집
 
트랜스-1,2-디플루오로에틸렌

SMILES는 입체 이성질체의 형태를 표기하는 법이 있지만 필요하지 않다.

이중 결합에 대한 구성은 문자 /\를 사용하여 이중 결합에 인접한 방향성 단일 결합을 표시한다. 예를 들어, F/C=C/F(그림 참고)는 플루오린이 이중 결합의 반대편에 있는 트랜스-1,2-디플루오로에틸렌인 반면에, F/C=C\F(그림 참고)는 불소가 이중 결합의 동일한 면에 있는 시스-1,2-디플루오로에틸렌이다.

결합 방향 기호는 항상 최소 2개의 그룹으로 나뉘며, 그 중 첫 번째 그룹은 임의로 정한다. 즉, F\C=C\FF/C=C/F와 같다. 단일, 이중 결합이 교대로 존재할 때 그룹은 두 개보다 많아지고, 가운데에 존재하는 기호는 두 개의 이중 결합에 인접한다. 예를 들어, 2,4-헥사디엔의 일반적인 형태는 C/C=C/C=C/C이다.

 
베타카로틴(β-Carotene), 11개의 이중결합이 존재한다.

보다 복잡한 예로, 베타카로틴은 단일 결합과 이중 결합의 매우 긴 골격을 가지며, 이는 CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C로 쓸 수 있다.

카이랄 분자의 구성은 @ 또는 @@로 지정된다. 문자열의 왼쪽에서 오른쪽으로 나타나는 순서대로 네 개의 결합을 표기한다. 첫 번째 결합의 관점에서 중심 탄소 쪽을 보면, 나머지 세 개는 시계 방향 또는 반시계 방향이다. 이때 각각 @@@로 표시된다.(@ 기호 자체가 시계 반대 방향의 모양이기 때문이다).

 
L-알라닌

아미노산 알라닌을 보면 일반적으로 N[C@H](C)C(=O)O로 표기되지만 NC(C)C(=O)O도 가능하다. 보다 일반적인 이성질체인 L-알라닌은 주로 N[C@@H](C)C(=O)O(그림 참고)로 표기된다. 여기서 질소-탄소 결합을 보면 수소(H), 메틸(CH3), 카르복실산기(C(=O)O)가 시계 방향으로 나타난다. 따라서 D-알라닌은 N[C@H](C)C(=O)O(그림 참고)로 쓸 수 있다.

일반적으로 SMILES에서 가지의 배열 순서는 중요하지 않지만, 이성질체의 경우는 다르다. 두 그룹의 위치를 바꾸면 카이랄 표시를 반대로 사용해야 하기 때문이다. 만약 알라닌이 위와 다르게 NC(=O)C로 쓰여지면, 방향 또한 달라지게 된다. L-알라닌은 N[C@H](C(=O)O)C(그림 참고)로 바뀐다.(이를 쓰는 다른 방법에는 C[C@H](N)C(=O)O, OC(=O)[C@@H](N)C, OC(=O)[C@H](C)N이 있다.)

일반적으로 4개의 결합 중 첫 번째 결합은 카이랄 중심 원자의 왼쪽을 나타나지만, 만약 SMILES가 C(C)(N)C(=O)O와 같이 카이랄 중심인 탄소로 시작된다면, 4개의 결합은 모두 오른쪽에 있지만 그중 첫 번째가 기준이 될 수 있다.

SMILES 문자열은 삼각쌍뿔 분자와 같은 더 복잡한 입체화학을 나타내기 위해 @ 기호가 활용 될 수도 있다.

동위 원소

편집

동위 원소는 원자 기호 앞에 표기된 숫자로 구분할 수 있다. 벤젠의 원소 중 하나가 탄소-14이라면 벤젠은 [14c]1ccccc1로 표기되고 듀테로화 클로로포름[2H]C(Cl)(Cl)Cl으로 표기된다.

예시

편집
분자 이름 구조 SMILES 표기
이질소(Dinitrogen) N≡N N#N
아이소사이안화 메틸(Methylisocyanate) (MIC) CH3−N=C=O CN=C=O
황산 구리(Copper(II) sulfate) Cu2+SO2−
4
[Cu+2].[O-]S(=O)(=O)[O-]
바닐린(Vanillin)   O=Cc1ccc(O)c(OC)c1
COc1cc(C=O)ccc1O
멜라토닌(Melatonin) (C13H16N2O2)   CC(=O)NCCC1=CNc2c1cc(OC)cc2
CC(=O)NCCc1c[nH]c2ccc(OC)cc12
플라보페레이린(Flavopereirin) (C17H15N2)   CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4
CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
니코틴(Nicotine) (C10H14N2)   CN1CCC[C@H]1c2cccnc2
Oenanthotoxin (C17H22O2)   CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
피레트린(Pyrethrin) II (C22H28O5)   CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
아플라톡신(Aflatoxin) B1 (C17H12O6)   O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
글루코스(Glucose) (β-D-glucopyranose) (C6H12O6)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
베르게닌(Bergenin, cuscutin) (수지(resin)) (C14H16O9)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
캘리포니아 깍지 벌레페로몬   CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2S,5R)-칼코그란(Chalcogran): 딱정벌레(bark beetle), 별나무좀(Pityogenes chalcographus)[2]페로몬   CC[C@H](O1)CC[C@@]12CCCO2
알파-투존(알파-투욘, α-Thujone) (C10H16O)   CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
티민(티아민, Thiamine) (vitamin B1, C12H17N4OS+)   OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

9개 이상의 고리 결합을 가진 분자를 설명하기 위해, 13개의 스테로이드성 고리로 이루어진 피라진(pyrazine)세팔로스타틴(cephalostatin)-1,[3](실험식 C54H74N2O10) :

 

그림의 왼쪽부터 표기한 문자열:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

% 은 9번째 고리 앞에 표기된다. § 고리란을 참고

SMILES의 또 다른 예시

편집

SMILES 표기법은 Daylight Chemical Information Systems[4]에서 제공하는 SMILES 이론 메뉴얼에 자세하게 설명되어 있으며 많은 예시들이 존재한다.

변환

편집

SMILES는 구조도 생성(SDG) 알고리즘을 사용하여 2차원 표현으로 다시 변환할 수 있다. 이 변환이 항상 정확하지는 않다.[5] 3차원 표현으로의 변환은 에너지 준위가 바닥상태인 분자로 나타나게 된다. 변환을 위한 다양한 사이트와 앱이 있기 때문에 이를 사용하면 쉽게 변환이 가능하다.

각주

편집
  1. e브릭몰. “SMILES(SMILES string)란? - SMILES의 표기법”. 2022년 7월 14일에 원본 문서에서 보존된 문서. 2022년 7월 14일에 확인함. 
  2. Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (March 1990). “Isolation of pheromone synergists of bark beetle,Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay”. 《Journal of Chemical Ecology》 16 (3): 861–876. doi:10.1007/BF01016496. PMID 24263601. S2CID 226090. 
  3. “CID 183413”. 《PubChem》 (영어). 2012년 5월 12일에 확인함. 
  4. “Daylight”. 2022년 7월 14일에 확인함. 
  5. Helson HE (1999). 〈Structure Diagram Generation〉. Lipkowitz KB, Boyd DB. 《Reviews in Computational Chemistry》 13. New York: Wiley-VCH. 313–398쪽. doi:10.1002/9780470125908.ch6. ISBN 978-0-470-12590-8. 

같이 보기

편집