SMILES(Simplified Molecular Input Line Entry System)
SMILES란?
- 정의: SMILES는 분자 구조를 문자열 형태로 표현하는 표기법입니다.
- 사용 목적: 분자의 정보를 간단히 표현하여 데이터로 관리하고, 컴퓨터 알고리즘에 활용할 수 있습니다.
SMILES의 구성 요소
- 원자(Atom): 각 원소를 기호로 표기.
- 결합(Bond): 단일(-), 이중(=), 삼중(#) 결합 등으로 표기.
- 고리(Ring): 고리의 시작과 끝을 숫자로 표시.
- 방향족(Aromaticity): 벤젠과 같은 방향족 고리를 소문자로 표기.
- 가지(Branch): 가지는 괄호()로 표현.
SMILES의 예시
- Aspirin: CC(=O)OC1=CC=CC=C1C(O)=O
- 비슷한 구조의 화합물: CCC1=CC=C(OC(C)=O)C(=C1)C(O)=O
장점
- 데이터 관리 용이.
- 분자의 정확한 표현 가능.
- 머신러닝/딥러닝에 활용 가능.
단점
- 유사한 구조의 분자도 다른 문자열로 표현.
- 같은 분자에 여러 SMILES 가능.
- 3D 구조 표현의 한계.
도구
- MarvinSketch: SMILES를 쉽게 다룰 수 있는 무료 소프트웨어.
- https://docs.chemaxon.com/display/lts-europium/marvinsketch-downloads.md
활용분
- 약물 설계: 새로운 약물 후보 물질을 발굴하고 설계하는 데 사용됩니다.
- 물질 스크리닝: 방대한 화합물 라이브러리에서 특정 조건을 만족하는 물질을 찾는 데 사용됩니다.
- 독성 예측: 화학 물질의 독성을 예측하는 데 사용됩니다.
- 물질 특성 예측: 분자 구조를 기반으로 물질의 물리화학적 특성을 예측하는 데 사용됩니다.
결론
- SMILES는 분자를 문자열로 간단히 표현하여 다양한 용도로 활용 가능.
- SMILES 표기법에 대한 이해는 화학과 인공지능 모델 개발에 유용.