计算机科学

首页 > 计算机科学

简化分子线性输入规范

2018-09-06 14:21:25     所属分类:化学信息学
SMILES
扩展名 .smi
互联网媒体类型 chemical/x-daylight-smiles
格式类型 chemical file format
SMILES的产生:中断周期,然后写为一条主干枝.

简化分子线性输入规范英语:Simplified molecular input line entry specification,简称SMILES),是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.),修改和扩展。

由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。

SMILES字符串可以被大多数分子软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)。

目录

  • 1 典范SMILES
    • 1.1 记法
      • 1.1.1 原子
      • 1.1.2 化学键
      • 1.1.3 芳香环
      • 1.1.4 支链
  • 2 异构SMILES
    • 2.1 立体化学
    • 2.2 同位素
  • 3 发展
  • 4 其他记法及比较
  • 5 外部链接

典范SMILES

典范SMILES保证每个化学分子只有一个SMILES表达式。典范SMILES常用于分子数据库的索引。

记法

原子

  1. 原子用在方括号内的化学元素符号表示。
    • 例如Au表示“金”。
  2. 有机物中的CNOPSBrClI等原子可以省略方括号,其他元素必须包括在方括号之内。
  3. 氢原子常被省略。对于省略了方括号的原子,用氢原子补足价数。
    • 例如,水的SMILES就是O,乙醇是CCO
  4. 离子用方括号括起,用元素符号和电荷表示,"+"表示正电荷、"-"表示负电荷,电荷数跟在正负号之后。如果该原子与氢原子相连,氢原子写在元素符号后面。
    • 四价钛离子 (Ti4+) 写作 Ti+4Ti++++ 。三价钴离子(Co3+) 写作 Co+3Co+++
    • 氢氧根 (OH-) 表示为 OH- ,水合氢离子 (H3O+) 表示为 OH3+

化学键

  1. 双键用“=”表示;三键用“#”表示。
    • 含有双键的二氧化碳则表示为O=C=O,含有三键的氰化氢表示为C#N
  2. 如果结构中有环,则要打开。断开处的两个原子用同一个数字标记,表示原子间有键相连。
    • 环己烷(C6H12)表示为C1CCCCC1。需要注意,标志应该是数字(在此例中为1)而不是“C1”这个组合。扩展的表示是(C1)-(C)-(C)-(C)-(C)-(C)-1而不是(C1)-(C)-(C)-(C)-(C)-(C)-(C1)。

芳香环

  1. 芳环中的COSN原子分别用用小写字母c,o,s,n表示。
    • 如苯表示为 c1ccccc1

支链

  1. 碳链上的分支用圆括号表示。
    • 比如丙酸表示为CCC(=O)OFC(F)F或者C(F)(F)F表示三氟甲烷。

异构SMILES

异构SMILES是指扩展的,可以表示同位素、手性和双键结构的SMILES版本。它的一个显著特征是可以精确地说明局部手性。

立体化学

双键两侧的结构分别用符号/表示,例如,F/C=C/F表示反二氟乙烯,它的两个氟原子位于双键的两侧。
F/C=CF表示顺二氟乙烯(顺二氟乙烯),它的两个氟原子位于双键的同一侧。

手性碳原子的情况用 @@@ 标明。例如,L-丙氨酸表示为 NC@@H(C)C(=O)O,标示符 @@ 表明,从氮原子 (N) 处沿着连接氮原子和手性中心的碳原子的键看去, 取代基序列——氢原子 (H), 甲基 (C) 和羧基 (C(=O)O) ——按顺时针出现。 D-丙氨酸则表示为 NC@H(C)C(=O)O@ 即意为逆时针。取代基列出的顺序在这种情况下显得非常重要,D-丙氨酸还可以表示为 NC@@H(C(=O)O)C

同位素

表示同位素时将质量数写在元素符号前面。如氘代氯仿为 2HC(Cl)(Cl)Cl ,苯中一个碳原子是碳-14时表示为 14c1ccccc1

发展

SMARTS是SMILES基础之上的改进版。SMARTS中增加的一点是,它允许使用通配符表示原子和化学键。因此,它在化合物数据库中广泛用于结构的计算机化搜索。这种搜索的机理是先通过输入的SMILES式重构化学式,再搜索子图的同形;而不是直接通过SMILES式的对比完成的。

USMILES(有时成为广义SMILES),这种“Unique SMILES”是日光化学信息系统有限公司关于结构的规范表达。就是说不管内部原子的编码顺序如何,通过这种算法总可以得到关于化合物规范的、无歧义的、唯一的描述(化学结构表达的唯一性,可参见国际化合物标识)。

其他记法及比较

其他著名的线性记法包括Wiswesser Line Notation(WLN),ROSDAL和SLN。最近国际纯粹与应用化学联合会推荐国际化合物标识作为标准的分子式表达式。

然而普遍认为,SMILES与InChI相比更具有可读性;而且很多软件都支持SMILES,其中不少软件都具有图论等方面的理论基础。

外部链接

  • SMILES指南: http://www.daylight.com/smiles/index.html
  • 在线SMILES式二维图片转换软件
    • https://web.archive.org/web/20011202023429/http://www.daylight.com/daycgi/depict
    • https://web.archive.org/web/20041015134803/http://cactus.nci.nih.gov/services/gifcreator/ converter with more controls
  • 能生成SMILES的分子器软件: http://www.molinspiration.com/jme/index.html
  • SMILES分析: http://www.dalkescientific.com/writings/diary/archive/
  • 自由SMILES转换软件: http://www.acdlabs.com/download/chemsk.html
  • SMILES式三维模型转换软件: http://jmol.sourceforge.net/
  • JSDraw能生成SMILES
  • SMILES Depictor

上一篇:分子查询语言
下一篇:组合化学
相关推荐