机械学习により有望物质群とその设计指针を抽出
-所望の特性を持つ无机材料のパターンを自动検出する手法を开発-
要点
● 无机材料データから所望の光学特性を持つ物质群に共通な特徴を検知
● 机械学习予测モデルに基づいたクラスタリングにより物性を考虑した物质分类を実现
● マテリアルズインフォマティクスにより物质?材料科学的な知识を获得
概要
所望の材料机能の発现の键となる构成元素や原子配列の特徴を见出すことは、材料设计指针の构筑や机能発现机构の解明において重要です。本手法は、机械学习の物性予测モデルに基づいて物质の分类を行うことにより、物质群?物性の种类を问わず、任意の无机材料データから所望の物性に応じて有望な物质のパターンを抽出することを可能にしました。これにより、1,000种类以上の物质を含む无机材料データから各エネルギー领域のバンドギャップを持つ物质や、広いバンドギャップと大きい屈折率を両立する物质に共通な特徴を事前知识无しに自动的に検知することに成功しました。本手法によりマテリアルズインフォマティクス(用语1)を用いた物质?材料科学的な知识の获得が明确?容易になり、さまざまな无机材料の研究?开発や学理构筑が加速されることが期待されます。
本研究成果は8月5日付(现地时间)で「Advanced Intelligent Systems」誌に掲载されました。
背景
材料科学分野では、物质の构成元素や原子配列の特徴に着目し、一定の基準において物质をさまざまな物质群に分类することが频繁に行われてきました。例えば金属と酸素の化合物であるシリカ(厂颈翱2)やアルミナ(础濒2O3)は酸化物という物质群にまとめられ、窒化物や硫化物などと区别して取り扱われます。また価电子构造に基づいた滨滨-痴滨族半导体(颁诲罢别、窜苍厂别、窜苍翱など)、滨滨滨-痴族半导体(骋补础蝉、骋补笔、骋补狈、础濒狈など)といった分类や、结晶构造の観点で岩塩型构造やペロブスカイト型构造といった分类を用いながら、材料设计指针や机能発现机构についての议论が行われてきました。一般に材料设计指针や机能発现机构について考える际に、あらかじめ有望な物性を持つ物质群やその构成元素?原子配列の特徴を知ることができれば有益です。
ある机能を発现する键となる特徴や望ましい机能を持つ有望物质群は、想定している物性(例えば电気特性、光学特性、磁気特性、力学特性)や、材料の用途(电子材料、光学材料、磁性材料、构造材料など)に応じてさまざまです。したがって构成元素?结晶构造のどういった特徴?基準を用いるかについて无数の分类法が考案されており、所望の机能発现の键となる物质の构成元素?原子配列の特徴と、有望な物质群をその都度见出すことが必要となります。
一方で、近年は机械学习がさまざまな分野で爆発的に流行しており、材料科学分野も例外ではありません。最も典型的な応用の一つは、物质の化学式や结晶构造から物性を高速に予测することであり、ここ20年ほどで非常に多くの研究例があります。このような研究では多数の物质について物性値を算出した结果をまとめた第一原理计算(用语2)データベースがよく使われます。さらに最近では、机械学习によりデータを解釈?説明する手法も流行しており、大规模データから构成元素や结晶构造の特徴と物性の関连性を人间が理解できる知识として抽出するための手法も提案されています。例えば、クラスタリング(用语3)と呼ばれるデータ分类法を用いると、あらかじめ人间が选択した特徴量(用语4)について类似した物质群の分类が可能となります。しかし、通常のクラスタリング手法を适用した场合、あらかじめ构成元素?原子配列の特徴量を选択する必要があるため、上述したような用途に応じた物质分类を事前知识无しに行うことができないという问题があります。そこで本研究では、机械学习による物性?机能予测とクラスタリング手法を融合させることで、専门的な事前知识を必要とせずに、想定している物性と物质の构成元素?原子配列に基づいて合理的かつ自动的に物质群の分类を定义する手法を开発することとしました。
研究成果
通常、ランダムフォレストの予测モデルは多数の决定木(用語5)から構成されていますが、まずは本手法の概要を説明するために、1本の决定木で分類が行われる様子を図1に示します。决定木は特徴量を用いた不等式から構成されており、例えば、図1では原子番号や原子間距離に基づいて各物質に物性値パターンを割り当てています。ある物性に関するデータを学習した决定木における不等式で使われる特徴?基準は、その物性を予測する上で適切なものが自動的に選択されます。したがって、興味ある物性データを学習した决定木上で「同じ経路を辿った物質は類似度が高い」、「そうでないものは類似度が低い」と定義して物質の分類を行えば、対象とする物性に対して適切な基準で構成元素?原子配列の類似度を定義し、また類似度の高い物質をまとめて物質群を定義できるというのが本手法の骨子となるアイデアです。
本研究では電子系誘電率に基づいてクラスタリングを行い、取得した酸化物データを20種類に分割することで図3(a)のような結果が得られました。それぞれのクラスターで確かに電子系誘電率の値が類似した物質がまとまっている傾向が確認でき、そのうちの一つの物質群が比較的広いバンドギャップを持ちながら大きな電子系誘電率を持つことが分かります。さらにその物質群の特徴量の分布を全データと比較することで、有望物質群を特徴づける因子を特定しました。例えば図3(b)に示すように、八面体型配位構造が含まれるかどうかの指標に着目すると、全データの分布と比べて有望物質群が明らかに高い値を持つ傾向があることが分かります。このような解析から、この物質群の分類基準は解釈しやすいように簡略化して言えば「八面体配位した遷移金属元素が結晶構造に含まれること」であることが分かりました。実際、図3(c)で示すように、この物質群はペロブスカイト型構造やその類似構造を多く含んでおり、確かに「八面体配位した遷移金属元素」を有していることが分かります。さらにこうした物質の電子状態密度の第一原理计算データについて詳細な解析を行うことで、八面体配位したカチオンがバンドギャップの上端(伝導帯の下端)近傍の電子状態の起源となっており、広いバンドギャップと高い誘電率を両立するための鍵となる因子であることが裏付けられました。
社会的インパクト
今后の展开
研究费
用语説明
(2)第一原理计算:量子力学の基本原理に基づいた理论计算。物质の电子构造やエネルギーを计算することにより、电子?光学?磁気特性や安定性、力学特性など非常に多様な物性や分子?结晶などの构造を予测することができる。
(3)クラスタリング:机械学习の手法の一つで、类似した特徴を持つデータ点をグループ(クラスター)にまとめる方法。
(4)特徴量:機械学習モデルに入力するデータの特徴を表す属性。例えば、材料科学における物性予測では、電気陰性度や近接原子間距離などの原子および原子配列の基礎的な特徴を用いることが多い。决定木予測モデル構築のアルゴリズムでは、学習データから物性予測のために適切な特徴量が自動的に選択される。
(5)决定木:データの特徴に基づいて不等式を繰り返しながらそれぞれのデータに特性のパターンを割り当て、特性の予测を行う机械学习の手法。
(6)one-hot encoding:カテゴリー型データを数値データに変換する手法。各カテゴリー(本研究では决定木により割り当てられたパターン)を0と1の組み合わせで表現する。
(7)Materials Project データベース:材料科学分野の大規模オープンデータベース。第一原理计算により得られた物質の構造や特性に関するさまざまな情報を提供しており、2024年7月時点で15万種類以上の無機物質データを掲載している。()
(8)尘补迟尘颈苍别谤コード:材料データの取得、処理、机械学习用の特徴量抽出を行うための笔测迟丑辞苍ライブラリ。材料科学とデータ科学を桥渡しし、マテリアルズインフォマティクスの研究を支援するツール。()
论文情报
論文タイトル:Target Material Property-Dependent Cluster Analysis of Inorganic Compounds(対象物性に依存した無機化合物のクラスター分析)
著者:Nobuya Sato, Akira Takahashi, Shin Kiyohara, Kei Terayama, Ryo Tamura, Fumiyasu Oba(佐藤暢哉、高橋亮、清原慎、寺山慧、田村亮、大場史康)
顿翱滨:
お问い合わせ先
mail:koho@yokohama-cu.ac.jp
