マテリアルズ・インフォマティクスのための
データの生成・蓄積・活用方法

■　講師

東京科学大学　総合研究院　化学生命科学研究所　准教授　博士(理学)　安藤康伸氏

■　開催要領

日　時	：	【アーカイブ（録画）配信】２０２６年８月１７日まで受付（視聴期間：８月１７日～８月２７日まで）　（※２０２６年８月４日（火） Live配信の録画配信です）
会　場	：	ZOOMを利用したLive配信またはアーカイブ配信　※会場での講義は行いませんセミナーの接続確認・受講手順は「こちら」をご確認下さい。
聴講料	：	1名につき５５，０００円（消費税込・資料付き）〔１社２名以上同時申込の場合１名につき４９，５００円（税込）〕〔大学、公的機関、医療機関の方には割引制度があります。詳しくは上部の「アカデミック価格」をご覧下さい〕

■　プログラム

【この講座で学べること】
・マテリアルズ・インフォマティクスの概要
・データ生成プロセスにおける実験自動化や計算シミュレーションの概要
・データ蓄積プロセスの考え方
・データ活用のための機械学習の例（予測/分類/低次元化/フィッティング）

【講座概要】
マテリアルズ・インフォマティクス（MI）や研究デジタルトランスフォーメーション（DX）は、情報科学・技術を駆使して材料研究・開発を刷新することが目的であり、今後の国際競争を勝ち抜くための必須テーマです。本講座では、MIの実践事例を通じて、研究活動で生じるデータの生成・蓄積・活用のサイクルについて知っていただき、データ生成の観点からベイズ最適化や物質・材料シミュレーションと結晶構造探索の基礎、データ蓄積の観点からのデータベース構築、そしてデータ活用の観点からのスパースモデリングやスペクトルモデリングについて、必要な考え方・基礎知識について学んでいただきます。

１．マテリアルズ・インフォマティクス概要
　1.1 情報科学の活用に至った経緯
　1.2 機械学習の概要
　1.3 データ駆動型材料研究について
　1.4 データ駆動型材料研究の要素：データ生成
　1.5 データ駆動型材料研究の要素：データ蓄積
　1.6 データ駆動型材料研究の要素：データ活用
　1.7 機械学習応用の流れと課題設定の重要性
　1.8 物質・材料データの特徴と注意点
　1.9 「分かりたい」のか「見つけたい」のか
　1.10 情報科学市民権

２．データ取得のためのベイズ最適化
　2.1 ベイズ最適化の背後にある数理
　2.2 自律実験装置とAIソフトウェア
　2.3 ロボット制御のための環境整備
　2.4 GPyOpt
　2.5 OPTUNA
　2.6 PHYSBO

３．材料シミュレーションによるデータ生成と結晶構造探索の基礎
　3.1 物質・材料シミュレーションとは
　3.2 密度汎関数法
　3.3 Schrodinger方程式を真面目に解く
　3.4 密度汎函数理論ベースの計算コード
　3.5 エネルギー地形とは
　3.6 Nudged Elastic Band法
　3.7 勾配法による構造最適化
　3.8 局所解の避け方
　3.9 遺伝的アルゴリズム
　3.10 遺伝的操作
　3.11 USPEX
　3.12 構造の結合メカニズム
　3.13 粒子群最適化(Particle Swarm Opt.)
　3.14 CALYPSO
　3.15 特徴空間と類似性
　3.16 グローバルPSOとローカルPSO
　3.17 CALYPSOの重要概念
　3.18 Interface CARYPSO
　3.19 ベイズ最適化による構造探索例
　3.20 CrySPY
　3.21 CrySPYの性能評価
　3.22 双対グラフと多面体に基づく結晶構造生成
　3.23 最密充填構造に基づいた探索
　3.24 ShotgunCSP
　3.25 Neural Structure Field (NeSF)
　3.26 Crystalformer
　3.27 MatterGen

４．材料データ蓄積を行う上で必要なこと
　4.1 データベース構築の３つの目的
　4.2 データベースの種類
　4.3 フラットファイルフォーマット
　4.4 ツリー構造を利用した実験データ蓄積
　4.5 電子ラボノートの事例

５．DB構築の出口戦略
　5.1 パーソナルDB
　5.2 DBを介した共同研究
　5.3 DBの共有・共用
　5.4 パブリックDB
　5.5 材料データと課題の多様性への対応

６．予測（回帰）：予測モデルとスパースモデリング
　6.1 予測・モデル選択の応用例
　6.2 「モデル」と「損失関数」
　6.3 線形回帰とカーネル法の違い
　6.4 損失関数の変更によるモデル選択
　6.5 交差検証によるモデル評価
　6.6モデル推定の種類（最尤法, MAP推定, ベイズ推定）
　6.7 スパース性とL0, L1正則化

７．分類：スペクトルデータの低次元化とクラスター解析
　7.1 高次元データとしてのスペクトルと低次元化の重要性
　7.2 分類：教師あり学習と教師なし学習
　7.3 特徴空間と類似性
　7.4 主成分解析によるスペクトルの低次元化
　7.5 k-means法によるスペクトルの分類
　7.6 階層的クラスタリングによるスペクトルの分類

８．データ解析：スペクトル解析のためのEMアルゴリズムによるピーク検知
　8.1 ピーク検知のための処理フロー
　8.2 非線形最小二乗法の困難
　8.3 EMアルゴリズムによる最尤推定
　8.4 スペクトル解析のための改良EMアルゴリズム
　8.5 解析事例

【質疑応答】

マテリアルズ・インフォマティクスのための データの生成・蓄積・活用方法

マテリアルズ・インフォマティクスのための
データの生成・蓄積・活用方法