研究

機械学習により有機化学の論文からの化学合成反応プロセス詳細な手順を自動抽出するための基盤を開発

ポイント

・有機化学の論文から化学合成反応プロセスの詳細な手順を自動抽出する方法を提案した。
・有機化学の論文に、既存の化学反応データベースではA+Bという形で記述される反応について、
 AをBに加えるといった詳細な手順を記述したコーパスを作成した。
・機械学習の枠組みを用いることにより、同様の情報が新しい論文からも抽出可能であることを確認した。

概要

多くの有機化学の論文では、新しい化学合成反応プロセスが提案されており、その反応については、Reaxysなどの化学反応データベースに登録されています。しかし、これらのデータベースに登録される情報には、反応物、触媒、生成物などの情報は記載されるものの、具体的な合成手順については、論文の内容を読む必要がありました。我々は、この詳細な手順を機械的に自動抽出するための基盤として、有機化学分野における信頼性の高い論文誌であるOrganic Syntheses 誌に掲載されている論文を用い、論文中の化学反応プロセスに関する詳細な手順の説明に対し、操作の内容や対象に関する情報を追加情報として記載したテキストであるコーパスOSPAR(意味役割付き有機化学合成手順 (Organic Synthesis Procedures with Argument Roles ))を作成しました。本コーパスでは、特に、化学反応の手順の説明に用いられる動詞と関係する名詞の意味役割分析を行った結果を整理することで、AにBを入れるのか、BにAを入れるのかを区別して表現できます。また、このコーパスを用いて深層学習による機械学習を行うことにより、機械学習の訓練で用いていない論文からも高い精度で詳細な手順に関する追加情報を抽出できることを確認しました。

この基盤技術を用いることにより、化学反応データベースでは、A+Bとしか表現できない手順ではなく、詳細な実験手順として表現されることになり、追実験や詳細な実験手順の検討の際に有用な情報を提供できるようになることが期待されます。

詳細は、町光二郎、秋山世治、長田裕也、吉岡真治らによる論文(DOI: 10.1021/acs.jcim.3c01449)に掲載されています。オープンアクセスですので誰でも閲覧することができます。