No.2196

ケモインフォマティクスにおける

データ収集の最適化と解析手法

～組成予測や化学構造の生成、合成経路探索や反応条件最適化、毒性評価～

■　執筆者（敬称略）

奈良先端科学技術大学院大学	宮尾知幸	筑波大学	五十嵐康彦
熊本大学	杉本学	(一財)ファインセラミックスセンター	森分博紀
(国研)産業技術総合研究所	安藤康伸	東京理科大学	秋津貴城
三井化学(株)	向田志保	東京理科大学	滝口裕司
(株)キャトルアイ・サイエンス	上島豊	東京理科大学	中根大輔
大阪大学	小野寛太	(国研)物質・材料研究機構	小原真司
摂南大学	河合健太郎	京都大学	小野寺陽平
北海道大学	岩佐豪	京都大学	永持仁
北海道大学	小林正人	(国研)物質・材料研究機構	岩崎悠真
北海道大学	武次徹也	(株)レゾナック	南拓也
大阪電気通信大学	森田成昭	(株)レゾナック	中陳巧勤
奈良先端科学技術大学院大学	金谷重彦	(国研)物質・材料研究機構	長田貴弘
滋賀大学	江崎剛史	慶應義塾大学	緒明佑哉
奈良先端科学技術大学院大学	船津公人	筑波大学	五十嵐康彦
名古屋大学大学院	松井孝太	(株)インシリコデータ	湯田浩太郎
豊橋技術科学大学	後藤仁志	日本たばこ産業(株)	植沢芳広
豊橋技術科学大学	五十幡康弘	明治薬科大学	黒﨑宏太
豊橋技術科学大学	加藤凱生	(一財)化学物質評価研究機構	赤堀有美
豊橋技術科学大学	立花尚登	(一財)化学物質評価研究機構	林多恵
奈良先端科学技術大学院大学	井上泰彰	(国研)産業技術総合研究所	竹下潤一
城西大学	寺前裕之	静岡県立大学	吉成浩一
ケモインフォ(株)	藤秀義	京都大学	掛谷秀昭
旭化成ファーマ(株)	下田嵩央	(株)理論創薬研究所	吉森篤史
旭化成ファーマ(株)	山口貴也	東北大学	梅津光央
(一財)高度情報科学技術研究機構	河東田道夫	(国研)産業技術総合研究所	齋藤裕
(国研)産業技術総合研究所	椿真史	(国研)産業技術総合研究所	亀田倫史
岡山県立大学	野田祐輔	東京大学	津田宏治
(株)メドインフォ	嵜山陽二郎	ヒューマン・メタボローム・テクノロジーズ(株)	山本博之
(国研)理化学研究所	佐藤朋広	東京情報大学	村上洋一
大阪大学	金鋼	大阪大学	長尾知生子
(株)Transition State Technology	山口徹	大阪大学	水口賢司
(株)Transition State Technology	堀憲次	(株)モルシス	東田欣也
北里大学	若杉昌輝	慶應義塾大学	池田和由
京都大学	林博之	慶應義塾大学	米澤朋起
(国研)産業技術総合研究所	矢田陽	国立遺伝学研究所	櫻井望
(国研)理化学研究所	山口滋	筑波大学	重田育照
京都大学	竹邊日和	筑波大学	高橋輝行
京都大学	松原誠二郎	大阪公立大学	満田祐樹
京都大学	竹邊日和	筑波大学	原田隆平
北海道大学	永木愛一郎	(公財)高輝度光科学研究センター	水牧仁一朗
北海道大学	岡本和紘	東京大学	溝口照康
静岡大学	間瀬暢之	東京大学	柴田基洋
(国研)物質・材料研究機構	大久保勇男	クロムソードジャパン(株)	鈴木政明
東京大学	Mikk Lippmaa	(国研)理化学研究所	菊地淳
東レ(株)	山本海	成蹊大学	青柳里果

■　目　　次

◇第１章　化学構造の表現・数値化と記述子の設計・活用◇

１節　説明変数選定と記述子の設計法
１．分子記述子選択のアプローチ
1.1 アプローチ１：実験科学者による記述子設計
1.2 アプローチ２：データ主導での記述子選択
1.3 3：１と２のハイブリッドアプローチ
1.3.1 データセット (Aqueous solubility)とモデリング手法
1.3.2 アプローチ２
1.3.3 アプローチ３
1.3.4 ケーススタディのまとめ

２節　分子記述子の種類と活用法
１．記述子と機械学習
２．ケモインフォマティクス研究の代表的なタスク
３．分子記述子の位置付け
４．現在の利用されている分子記述子の分類
4.1 記述対象による分類
4.2 次元による分類
4.3 局所性に基づく分類
５．記述子をどのように数値的に評価するか？
5.1 ソースコードの利用
5.2 データベースの利用
5.3　計算ソフトの利用
5.3.1　記述子計算ソフトウエアの利用
5.3.2　量子化学計算ソフトウエアの利用
６．電子状態インフォマティクス(ESI)記述子
７．記述子の活用法
7.1　標準化
7.2　記述子間の相関を調べる
7.3　次元削減

◇第２章　データ収集・データベース構築での留意点◇

１節　精度向上のためのデータ収集で考えなければいけないこと
１データ収集とは
1.1 データの生成と蓄積
1.2 研究データの構造
1.3. データ構造モデル
２．データ収集時に考えなければいけないこと
2.1 活用可能なデータ
2.2 データ取得コスト
2.3 説明変数の制御可能性
３．課題設定の重要性

２節　データ取得コストに留意したデータ収集での留意点
１．逆解析による分子設計
1.1 逆解析による分子設計・化学構造設計の流れ
1.2 入力用の化合物DBの作成
1.3 候補化合物DBの作成
1.4 化合物の類似度指標
1.5 適用領域（Applicability Domain）
２．AIを活用した分子設計
2.1 AIを用いた生成モデルタイプ
2.2 強化学習を用いた分子生成モデル
2.3 化合物の生成モデルの課題
３．合成に関わるDB
3.1 Molecular Transformationに関わるDB
3.2 合成研究に関わるDB
3.3 AIによる化合物生成モデルの研究で用いられる合成反応DB
3.4 合成反応DBのプラットフォーム整備
3.5 合成可能性の指標

３節　Ｒ＆Ｄ部門におけるデータ共有システムの構築とその活用方法
１．R＆D部門におけるデータ共有・利活用の実情
２．属人的なデータ共有、形骸化したデータ共有状況から生まれる問題点
３．属人的なデータ共有、形骸化したデータ共有状況が生み出される原因
４．属人的データ共有状況を脱するための事前準備の前に行うべきこと
５．R&D部門におけるデータベース、システムは、魔法の箱ではない！
６．データベース、システムの最大の利点とは！
７．属人的データ共有状況を脱するための事前準備（手順書作成編）
８．属人的データ共有状況を脱するための事前準備（システム化対象特定編）
９．属人的データ共有状況を脱するためのデータ共有システム導入に必要な要件
１０．データ共有システムにおける項目名の決定の方法と注意点
１１．データ共有システムを使ったデータ分析の方法と注意点
１２．データ共有システム導入時の落とし穴とそれを防ぐ方策
１３．データ共有システム運用後陥りがちな落とし穴とそれを防ぐ方策
１４．効果的なデータ共有・利活用手法と運用体制の作り方

４節　ハイスループット実験による効率的で生産性の高いデータ収集法
１．計測・分析実験の最適化
1.1 適応型実験計画法によるハイスループット実験の最適化
1.2 情報科学・統計技術を用いた高精度・高速・高効率計測
２．計測データ解析の自動化
2.1 計測実験データの定性解析
2.2 計測実験データの定量的解析

◇第３章　データセットの作成と各種解析手法の活用事例◇

１節　データ解析をスムーズに行うためのデータセット作成の留意点
１．データ解析の目的を明確にする
２．どのような実験データを採用するか
３．化学構造を含むデータセット作成の留意点
3.1 化学構造データの取り扱い
3.2 化学構造のデータ形式
3.3 化学構造データの前処理（クリーニング）
3.4 構造データに対するその他の前処理
４　測定値（活性値など）の収集における留意点
4.1 一般的な留意点
4.2公共のデータベースから活性値を収集する際の留意点
4.3 その他の留意点

２節　計算化学研究におけるスパースモデリングの応用
１．金属クラスターモデルを用いた一酸化窒素の解離反応触媒活性の解析
２．金属吸着分子の励起状態解析

３節　次元削減によるデータセットの可視化と主成分分析
１．ワインのデータセット
２．データの可視化
３．主成分分析(PCA)
４．独立成分分析(ICA)
５．非負値行列因子分解(NMF)
６．線形判別分析(LDA)
７．次元削減の応用

４節　データセットの構築法とデータの関係性の視覚化法
１．ケモインフォマティクスにおけるデータ解析の進め方
２．R言語
2.1 R言語とは
2.2 R言語でのデータ処理
2.3 Rプログラミングを学習するために
３．ケモインフォマティクスで活用できるR パッケージの例
3.1 説明変数と目的変数の行列作成 reshape; サンプル-変数名-値から正規化テーブルをつくる
3.2欠落値補完 mice; 多重代入法による欠損値補完
3.3説明変数行列によるサンプルおよび変数間の関係性 a散布図による変数間の関係性を視覚化する
3.4 多変量回帰モデルの構築
3.5予測精度の評価　
3.6 その他
４．説明変数と目的変数の行列作成
4.1正規化テーブルを作る
4.2複数の表をマージする
4.2.1 merge関数の活用
５．データの関係性の視覚化法
5.1散布図による変数間の関係性を視覚化する
5.2写像法
６．R言語の楽しみ方

５節　「線形回帰モデル」と「非線形回帰モデル」によるデータ解析での留意点
１．回帰分析
1.1　線形回帰モデル
1.2　非線形回帰モデル
２．データの前処理
2.1　観測値の前処理
2.2　記述子の前処理
３．変数の選択
3.1　回帰モデルの推定に基づいた変数選択
3.2　決定木に基づいた変数選択
3.3　遺伝的アルゴリズムに基づいた変数選択
４．モデルの評価

６節　非線形データ解析・モデリングと外挿性改善　
　　　～Random Forestに外挿性を付与する～
１．はじめに　～内挿と外挿～
２．ランダムフォレスト (RF)
３．提案手法
3.1 提案手法の概要
3.2 提案手法の詳細
3.3 パラメータ
４．人工データ
4.1 データセット
4.1.1 １次元データ
4.1.2 ２次元データ
4.2 検証内容
4.3 解析結果
4.3.1 １次元データ
4.3.2 ２次元データ

７節　ベイズ最適化による効率的実験計画とデータ解析
１．能動学習による実験計画
1.1 機械学習によるデータ駆動型アプローチ
1.2 ガウス過程によるブラックボックス関数の統計的モデリング
1.3 ガウス過程回帰に基づく能動学習
1.4 まとめ
２．ベイズ最適化
2.1 ベイズ最適化のアルゴリズム
2.2 獲得関数の設計
2.2.1 下側信頼限界に基づく探索
2.2.2 改善確率に基づく探索
2.2.3 期待改善度に基づく探索
2.3 まとめ
３．応用事例紹介：イオン伝導性物質の伝導度推定

８節　ハイパーパラメータの最適化の事例
１．ハイパーパラメータの最適化の概要
1.1 ハイパーパラメータの組み合わせの探索アルゴリズム
1.2 MLモデルの学習と評価
1.3 MLモデルの選択
1.4 ハイパーパラメータの種類
（1）MLモデル構造のハイパーパラメータ
（2）学習制御のハイパーパラメータ
（3）最適化技法のハイパーパラメータ
２．研究事例におけるハイパーパラメータの調整
2.1 分子活性予測
2.2 量子化学計算の運動エネルギー予測
３．ハイパーパラメータの自動最適化

９節　Ｒでのケモインフォマティクスの実践事例
１．活用するデータの説明
1.1 薄膜デバイス構造とポストトリートメント処理の数値表現法
1.2 デバイス構造とSMILES
２．dplyrパッケージ活用による有機薄膜太陽電池の構造と構築プロセスにおける４つのパフォーマンス比較
３．薄膜太陽電池データの欠損値の取り扱い
４．欠損値を含むデータ行列をいかに解析するべきか
５．回帰モデルの構築
６．まとめと今後の展望

◇第４章　機械学習の具体的活用とその事例◇

１節　ケモインフォマティクスにおける機械学習モデルの種類と具体的活用法
１．機械学習の計算方法
1.1 分子軌道計算
1.2 RとCaretパッケージ
1.3 計算モデル
２．Caretを用いた計算例
2.1 回帰法と説明変数の選択
2.2 過学習の問題
2.3 回帰法による違い

２節　Pythonのケモインフォマティクスでの活用
１．RDKitを用いたPythonでの化合物情報の扱い
1.1 RDKitのインストール
1.2 RDKitでの分子の扱い
２．分子フィンガープリント・分子記述子の生成
2.1 RDKitを用いた分子フィンガープリントの生成
2.2 Morganフィンガープリントの可視化
2.3 分子記述子計算ソフトウェアmordredを用いた特徴ベクトルの作成
３．PyCaretを用いたPythonでの機械学習の実践
3.1 機械学習用データセットの準備
3.2 PyCaretを用いた分類モデルの作成
3.3 機械学習結果の可視化

３節　KNIMEを活用したデータ処理・ケモインフォマティクスの事例紹介
１．KNIMEの導入方法
２．KNIMEを使ったデータ前処理
2.1 データの読み込み・結合
2.2 阻害率の計算
2.3 QCデータの計算と出力
2.4 阻害率データの出力，用量反応曲線の表示
３．KNIMEを用いたケモインフォマティクス事例
3.1 ドラッグライクフィルターの実装
3.2 クラスタリングの実行
3.3 次元削減によるケミカルスペースの可視化
3.4 類縁化合物の検索
3.4.1 類似性検索
3.4.2 部分構造検索
3.5 構造発生とフィルタリングのパイプライン

４節　量子コンピュータのケモインフォマティクスへの応用
１．量子計算とゲート方式量子コンピュータの研究開発動向
２．量子機械学習の研究開発動向
３．量子コンピュータのハードウェア・ソフトウェア・クラウドサービス
４．量子回路学習のアルゴリズムと実装例
５．量子機械学習のケモインフォマティクス実課題への応用例

５節　機械学習のためのデータの前処理での留意点
１．イシューからはじめよ
２．イシューを決めることとは、テストデータと学習データを適切に準備すること
３．記述子・特徴量への変換と前処理
４．共線性の分析と前処理
５．外挿データの分析と前処理

６節　過学習に留意した最適な機械学習モデルの構築
１．検証データに基づく機械学習モデルの検証方法
1.1 ホールドアウト法
1.2 交差検証
２．実データを用いた機械学習モデルの構築例
2.1 ELMモデル
2.2 データセット
2.3 ホールドアウト法を適用したELMモデルの精度検証
2.4 交差検証を適用したELMモデルの精度検証

７節　少ない実験回数で予測精度の高い機械学習モデルの開発
１．機械学習を活用した最適化手法
1.1 条件探索における機械学習の応用
1.2 薄膜試料作製における機械学習応用による最適化
1.3 ネオジム磁石の磁気特性の機械学習応用による向上
２．実験計画法の機械学習モデルへの応用
2.1 実験計画法による実験の効率化
2.2 パラメータチューニングにおける一部実施計画の適用
３．機械学習における効率の良いハイパーパラメータ探索
3.1 ハイパーパラメータ探索
3.2 ベイズ最適化

８節　転移学習を用いたデータ解析のポイント　　
１．転移学習とは
２．転移学習の種類
2.1 帰納転移学習（マルチタスク学習・ファインチューニング）
2.2 トランスダクティブ転移学習
2.3 自己教師あり学習
2.4 教師無し転移学習

９節　「説明可能なAI」による複雑分子系の状態間遷移における遷移状態の解明
１．手法
1.1 MDシミュレーション
1.2 線形回帰と深層学習
1.3 LIME?Local Interpretable Model-agnostic Explanation
1.4 SHAP?Shapley Additive exPlanations
２．結果
2.1 コミッターの学習と予測
2.2 予測に対する集団変数の寄与度

◇第５章　化学物質の合成経路探索・反応条件最適化への活用事例用 ◇

１節　反応条件最適化へのケモインフォマティクスの応用
１．反応機構の精査
２．溶媒効果
３．熱力学的制御と速度論的制御
４．反応器形状の概念的最適化

２節　機械学習や深層学習を用いた合成容易性予測モデルの開発動向
１．研究者の定義に基づいた合成容易性予測手法
1.1 化学構造の複雑さに基づいた手法
1.2 合成経路に基づいた手法
２．機械学習や深層学習を用いた最近の合成容易性予測手法
2.1 合成容易性の学習と検証の難しさ
2.2 合成容易性予測モデルの紹介
2.2.1 SYBA
2.2.2 SCScore
2.2.3 RAscore
３．新規な合成容易性予測モデルの構築に向けた研究の紹介
3.1 SAscoreを加えた４つの予測モデルの問題点
3.2 新規な合成容易性予測モデルの作成と検証
3.2.1 新規予測モデルの作成
3.2.2 検証セット
3.2.3 合成困難な化合物に対する予測結果
3.2.4 不安定な化合物に対する予測結果

３節　AIによる合成条件推薦システムの構築
１．並列合成実験と実験条件推薦システムを活用した合成条件の定量化
２．実験条件推薦システムによる新物質探索

４節　触媒選択へのケモインフォマティクスの応用
１．不均一系触媒反応における触媒選択・設計のためのインフォマティクス
２．均一系触媒反応における触媒選択・設計のためのインフォマティクス
３．ベイズ最適化を活用した触媒選択の効率化

５節　量子化学計算により収集した触媒活性を用いた機械学習
１．オレフィンメタセシス反応の解析
1.1 オレフィンメタセシスにおける計算機上で収集したデータを用いた構造物性相関
1.2 構造ジェネレータと進化的アルゴリズムを用いた構造最適化
２．Vaska錯体による水素開裂
３．Cr触媒によるエチレンオリゴメリゼーション反応の解析
４．不斉有機触媒
５．分子場解析に基づくデータ駆動型不斉触媒設計

６節　AIによる逆合成解析の経路探索の手法と活用　
１．CAOS(Computer Aided Organic Synthesis)のはじまり
２．Synthia??－Grzybowskiの示した解決策
３．逆合成から順合成へ
４．分子は作れるのか？
５．これから

７節　AIによるフロー合成の反応条件最適化
１．機械学習による反応条件最適化と変数制御
1.1 ２変数制御の組合せによる多変数制御
1.2 電解フロー反応における3変数制御系
1.3 電解フローにおける多変数制御
２．機械学習によるフロー反応条件最適化を用いたバッチでは困難な反応の制御
３．フロー反応の条件最適化による生産性向上
４．機械学習による反応最適化プロセスの自動化
4.1 インライン分析とデータ解析の自動化による多段階フロー反応のリアルタイムプロセス解析
4.2 フロー型モジュール有機合成装置のロボットによる自動化と，逆合成解析および実験計画，フロー反応を全自動化したシステムの開発

８節　フロー合成の反応条件最適化への機械学習の活用
１．反応条件最適化手法について
２．反応条件最適化におけるフロー合成法の利点
３．フロー合成法における連続型変数に対する反応条件最適化：定常状態9+4+1法
４．フロー合成法における連続型変数に対する反応条件最適化：擬定常状態グラジエント法
５．フロー合成法における離散型変数に対する反応条件最適化

９節　機械学習による意思決定とデータ解釈：物質合成パラメータの最適化とin situ測定結果の自動解析
１．機械学習による意思決定：物質合成パラメータ最適化プロセスでの機械学習の活用
２．データの解釈：in situ測定結果の機械学習による自動解析

◇第６章化学物質・材料設計への活用事例◇

１節　インフォマティクスによる材料組成の予測・最適化
１．材料インフォマティクスにおける組成設計の位置づけ
1.1 組成設計は材料インフォマティクスの「必修科目」
1.2 組成設計で学べる「勘所」
1.3 組成設計MIにおける注意点・心構え
２．樹脂組成物の設計事例
2.1 目標
2.2 物性予測モデルの構築方法
2.3 データ準備
2.4 スパースなデータへの対応
2.5 予測モデルの学習
2.6 逆設計
2.7 その他の逆設計手法
2.8 実試作結果
2.8 最後に

２節　マテリアルズインフォマティクスにおける
　　　　　スパースモデリングを用いた特徴量エンジニアリングの展開
１．マテリアルズインフォマティクスとスパースモデリング
２．スパースモデリングの基礎
３．スパースモデリングによる物質・材料設計への展開
４．少数データに対するスパースモデリングの展開

３節　社会実装を目指した強誘電体・誘電体材料のマテリアルズインフォマティクス
１．誘電体・強誘電体材料の第一原理計算の活用例
２．マテリアルズ・インフォマティクス適用対象の選択
３．常誘電体高誘電率材料
４．誘電率の第一原理計算
５．常誘電体高誘電率材料マテリアルズ・インフォマティクス
６．新規強誘電体材料マテリアルズ・インフォマティクス

４節　ケモインフォマティクスを用いた3次元的立体構造と電子的な特性
　　　～単分子磁石サレン希土類錯体の探索研究に取り組むまでに～
１．はじめに～SMM概略～
２．SMM研究における機械学習(モデル作成編)
３．SMM研究における機械学習(データセット作成編)
４．情報技術を扱う上で必要な知識
4.1 コンピュータの概論
4.2 機械学習
4.3 化学での機械学習

５節　材料の物性予測へむけた非晶質物質の量子ビーム構造解析
１．非晶質物質の回折の理論
２．典型的な酸化物ガラスの構造
３．非晶質物質の回折ピークの起源
４．特異な構造を持つ酸化物ガラス

６節　機械学習と離散最適化に基づく新規物質設計
１．機械学習による予測関数の構築法
1.1 機械学習
1.2 化合物の化学グラフによるモデル化
1.3 二層モデルに基づく特徴関数
1.4 構造仕様
２．所望の物性値・分子構造を算出する逆解析法
2.1 混合整数線形計画Mf,η,σの定式化
2.2 組み換え解の生成
2.3 近傍解の生成
３．提案法の計算実験結果
3.1 予測関数構築に対する実験結果
3.2 逆解析：化学グラフ構築の実験結果
3.3 組み換え解生成の実験結果
3.4 近傍解生成の実験結果

７節　自律材料探索ＡＩを用いた材料設計の事例
１．高飽和磁化合金
２．シミュレーション型の自律材料探索AI
３．提案された高飽和磁化合金の合成と計測
４．ハイスループット第一原理計算による考察

８節　ベイズ最適化によるポリマーの効率的設計
１．背景
1.1 企業におけるデータ科学の普及
1.2 データ科学による機能性材料が抱える課題
1.3 少数データにおける機械学習
２．ベイズ最適化を用いた熱可塑ポリマー設計
2.1 データセット構築
2.2 説明変数の生成
2.3 機械学習による回帰モデル構築
2.4 ベイズ最適化によるポリマーの繰返し単位の設計
３．まとめ

９節　実証実験でのコンビナトリアル手法の活用とハイスループット材料合成
１．コンビナトリアル薄膜合成手法
２．コンビナトリアル薄膜評価法
３．コンビナトリアル手法を用いた薄膜材料開発
４．コンビナトリアル手法とデータ蓄積

１０節ケモインフォマティクスを用いた層状物質のはく離挙動の制御　
１．はじめに
1.1 小規模データに対応可能な実験科学者によるＭＩの必要性
1.2 2次元材料としてのナノシートとＭＩによるプロセス制御
２．実験主導ＭＩによる収率予測モデル構築と検証17,19,22
2.1 小規模データセットの作成と学習
2.2 予測モデルを用いた未知な系の収率予測と実験的な最適化
３．実験主導ＭＩによるサイズおよびサイズ分布予測モデル構築と検証20,21
3.1 サイズ予測モデルの構築と検証
3.2 サイズ分布予測モデルの構築と検証

◇第７章化学物質の毒性評価手法とその事例◇

１節　ケモインフォマティクスを用いた化合物毒性予測での記述子設計とデータ解析
１．ケモメトリックス研究に用いる化合物の吟味
1.1 サンプル化合物及びサンプル母集団の吟味
1.2 サンプル母集団のクラスポピュレーションでの留意点
２．化合物より創出された記述子の調整と記述子選択
2.1 創出された記述子の吟味とウオッシング（洗浄）：簡易的な記述子選択
2.2 高度な記述子選択とノイズサンプル化合物の取り出し
2.3 最終選択記述子の種類と適用パターン
３．芳香族アミン化合物の発がん性に関する解析
3.1 ケモメトリックスによる解析に用いたサンプルデータと要因解析実施目的
3.2 記述子創出から記述子洗浄および簡易な記述子選択実施
3.3 ケモメトリックス解析に重要な役割を果たす記述子の選択
3.4 重要記述子選択の実施手順
3.5 重要記述子選択の実施結果
3.6 重要記述子による要因解析の実施
3.7 ニクラス分類／予測結果
４．まとめ
4.1 化学分野のデータサイエンスの（ケモメトリックス）適用時の留意点
4.2 毒性関連研究分野のメカニズム追及への展開
4.3 メカニズム解析におけるケモメトリックス研究の役割と留意点
4.4 今後から近未来への展開：データサイエンスの自動化から自律化への進歩

２節　安全性評価に活用できるオープンデータベースとその活用
１．医薬品・化学品の毒性評価に関するオープンデータベースとその活用
1.1　QSAR Toolbox
1.2　QSAT Toolboxの活用
２．医薬品の安全性評価に用いられるリアルワールドデータとその活用
2.1　国内外の有害事象自発報告データベース
2.2 有害事象自発報告データベースを活用したシグナルの検出

３節ＱＳＡＲ解析による毒性評価
１．規制目的のための(Q)SARモデル検証のOECD原則
1.1 原則1: a defined endpoint（定義されたエンドポイント）
1.2 原則2: an unambiguous algorithm（曖昧さのないアルゴリズム）
1.3 原則3: a defined domain of applicability（定義された適用範囲）
1.4 原則4: appropriate measures of goodness-of-fit, robustness and predictivity（適合度，頑健性及び予測性の適切な評価）
1.5 原則5: a mechanistic interpretation, if possible（可能な場合，メカニズムに関する説明）
1.6 QSAR Model Reporting Format（QMRF）
1.7 QSAR Prediction Reporting Format（QPRF）
２．ICH M7ガイドラインにおける(Q)SARを用いた変異原性評価

４節　インビボ毒性試験データベースを用いた反復投与毒性のインシリコ予測
１．準備・予備知識
1.1 反復投与毒性
1.2 インシリコ手法
1.3 HESSデータの概要
２．(Q)SARによる反復投与毒性予測
2.1 予測対象の反復投与毒性
2.2 予測モデルの説明変数
2.3 用いた統計的手法
2.4 内部検証の結果
３．リードアクロスによる反復投与毒性予測
3.1 予測対象の反復投与毒性
3.2 予測の説明変数
3.3 用いた統計的手法
3.4 内部検証と外部検証
４．まとめと考察
4.1 SMOTEアルゴリズムの利用
4.2 組合せ最適化理論の利用
4.3 予測モデルの適用領域
4.4 インシリコ予測研究における課題

５節　毒性発現機構を考慮した一般化学品の毒性予測システムの開発～AI-SHIPS～
１．AI -SHIPSプロジェクトの意義　～開発背景、設計思想、および今後の展開について～
1.1 AI-SHIPSプロジェクトスタートの背景
1.2 毒性予測の仕組み（３層モデル）
1.3 毒性予測システムの構成
1.4 データ駆動型化学の全体像の中での毒性予測システムの位置づけと今後への期待

◇第８章医薬品開発への活用事例◇

１節　創薬リード探索へのケモインフォマティクスの活用
１．医薬品の起源と疾病
２．抗体薬物複合体（ADC）開発における天然物のポテンシャル
３．希少放線菌Saccharothrix sp. A1506株が生産する新規抗がん剤シースsaccharothriolide類

２節　ケモインフォマティクスとAIによる化学構造の生成
１．Matched Molecular Pair解析
1.1 Matched Molecular Pair (MMP)
1.2 Matched Molecular Pairの検出法
1.3 Matched Molecular Pair解析による生物学的等価体の検索
1.4 Matched Molecular Series (MMS)
２．SAR Matrixによる新規化合物の生成と活性予測
2.1 SAR Matrixの構築方法
2.2 SAR Matrixにおける新規化合物の活性予測
2.3 SAR Matrixを用いたMatrix Metalloproteinase 1(MMP-1)阻害剤の設計
３．DeepSARMによるSAR Matrixの拡張
3.1 DeepSARMの概要
3.2 DeepSARMの学習手順
3.3 DeepSARMによるSARMの拡張

３節　少ない実験データとベイズ最適化による機能タンパク質の配列設計
１．変異体ライブラリーからの機能タンパク質探索の課題
２．配列空間の設計と探索課題
３．機械学習による配列空間探索
４．ベイズ最適化に基づく蛍光タンパク質の機能改変

４節　質量分析インフォマティクスとケモインフォマティクスによる代謝物構造推定
１．代謝物のアノテーション
1.1 ケモインフォマティクスを用いた保持時間予測
1.2 in-silicoフラグメンテーションによるMS/MSスペクトルの予測
1.3 リピドミクスにおける脂質のin-silicoフラグメンテーション
1.4 MS/MSスペクトルデータベース
２．ケモインフォマティクスを用いた構造推定法
2.1 代表的な構造推定法CSI:Finger ID
2.2 化合物クラスを予測する方法
2.3 MS/MSスペクトルネットワーク
2.4 酵素反応の情報を利用した構造推定法
３．代謝物アノテーションと構造推定の実例

５節　創薬研究に有用なデータベースとその活用のポイント
１．化合物を中心とするデータベース
1.1 世界最大級の化合物データベース：PubChem
1.2 手動でキュレーションされた生物活性を収録する化合物データベース：ChEMBL
1.3 その他，化合物を中心とする有用なデータベース
２．タンパク質を中心とするデータベース
2.1 タンパク質の配列データベース：UniProt
2.2 タンパク質の配列データベース：PDB, PDBbind
2.3 タンパク質の予測立体構造データベース：AlphaFold
３．遺伝子発現データベース
3.1 大規模な遺伝子発現データベース：GEO, Expression Atlas
3.2 毒性や疾患の理解のための遺伝子発現データベース構築プロジェクト：Open TG-GATEs, DrugMatrix, Tox21, CMap, L1000, GTEx
４．統合データベース
4.1 創薬ターゲットの発見を支援するデータベース：Open Targets, TargetMine
4.2 化合物の選択，最適化を支援するデータベース：Binding DB, CTD
５．文献データベース
5.1 生物医学分野の文献情報データベース：MEDLINE，PubMed
5.2 MeSH用語を用いた論文検索の実例
5.3 生命科学分野のプレプリントサーバー：bioRxiv，medRxiv

６節　医薬品安全性情報DBのインフォマティクスへの活用
１．Chemotargets CLARITY
1.1 CLARITYのデータベース
1.2 CLARITYによる毒性・安全性予測モデル
1.3 CLARITYによる毒性・安全性予測
２．CLARITY PV
2.1 CLARITY PVのデータベース
2.2 医薬品の安全性シグナルの検出
2.3 医薬品の安全性問題のトランスレーショナル解析
2.4 医薬品の安全性問題の比較解析

７節　化合物ライブラリーの情報検索におけるポイント
１．ライブラリーの検索における留意点
1.1　化合物ライブラリーの大きさ
1.2　化合物構造の正規化
２．ライブラリーの検索方法
2.1　文字列検索
2.2　類似性検索
2.3　ファーマコフォア検索
2.4　部分構造・骨格構造検索
2.5　創薬分野における応用（分子プロパティ・忌避構造検索）
2.6　大規模ライブラリーの高速検索技術
３．機械学習モデルを用いたライブラリー検索、事例紹介

８節　化合物同定のためのメタボロームデータベースの活用
１．LC-MSによるノンターゲット・メタボローム解析
２．LC-MSメタボローム解析で得られる基本情報
2.1 LCの保持時間
2.2 m/z値
2.3 マススペクトル
2.4 付加イオン（アダクトイオン）とインソースフラグメンテーション
３．同定までの流れとデータベース
3.1 LC-MS分析
3.2 多変量解析等による選抜
3.3 既知化合物データベースに対する検索
3.4 マススペクトルによる選抜
3.5 試料特異性データベースによる選抜
3.6 同定

９節　第一原理計算と分子動力学計算による膜透過性の評価・推定
１．水-オクタノール分配係数の第一原理計算とQSAR法の融合
1.1 電子状態計算に基づくLogPo/wの簡易予測法
1.2 計算の詳細
1.3 計算結果
２．バイアス型拡張サンプリング法による膜透過係数の算出法[10]
2.1 自由エネルギー反応経路探索法
2.2 計算対象と計算の詳細
2.3 計算結果
３．非バイアス型拡張サンプリング法による膜透過係数の算出法[11]
3.1 並列カスケード選択型分子動力学法
3.2 計算対象と計算の詳細
3.3 計算結果

◇第９章分析インフォマティクスとの連携・活用事例◇

１節　機械学習によるスペクトルデータ解析
１．X線分光スペクトル解析へのベイズ推定の導入の意義
1.1 X線吸収分光・X線光電子分光スペクトル解析
1.2 従来の解析法の問題点
２．ハミルトニアンパラメータのベイズ推定・ベイズ統合
2.1 ベイズ推定
2.2 交換モンテカルロ法
2.3 ベイズ統合
３．ベイズ統合のデータ解析結

２節　内殻電子励起スペクトル（ELNES/XANES）の理論計算と機械学習を用いた解析
１．ELNES/XANES理論計算の基礎と応用
1.1 ELNES/XANES理論計算の基礎
２．機械学習を利用したELNES/XANES予測と解析
2.1 機械学習を利用したELNES/XANESの予測
2.2 ELNES/XANESから動径分布関数（RDF）の予測
2.3 スペクトルからの物性予測
３．スペクトルデータベース

３節　ＡＩによるＨＰＬＣ分析メソッド開発の事例
１．HPLCメソッド開発を効率良く行うための手順
1.1 HPLCの分離度に関する関係式
1.2 HPLCのメソッド開発を効率良く行うためのスキーム
1.3 最適なカラム選択の為のソフトウェア（New　ColumnViewer）
1.4 AIを利用したHPLC用自動メソッド開発ソフトウェア（ChromSword　Auto5.1）
1.5 化学構造式からクロマトグラムをシミュレーションする
1.6 頑健性試験

４節　ＡＩによるＮＭＲ化学シフト予測の高精度化
１．はじめに：循環型社会とバイオプロセス評価
２．機械学習を併用した量子理論化学シフト・スピン結合定数の予測精度向上
３．高分子材料の物性・構造記述子と固体NMR因子の統合解析
４．ベイズ最適化を利用した高分子材料の分解予測モデルの構築
５．魚肉のNMR緩和学習による物性、NMR情報転移による組成評価の試み

５節　機械学習によるTOF-SIMS スペクトル解析
１．教師なし機械学習法の応用
1.1 非負値行列因子分解（non-negativity matrix factorization: NMF）
1.2 自己符号化器（autoencoder）
1.3 シャノンエントロピー
２．教師あり機械学習法の応用
2.1 ランダムフォレスト(Random Forest) によるスペクトル予測
2.2 人工ニューラルネットワーク（ANN）による定量分析