麻豆官网

麻豆官网 Research Portal

麻豆官网 Research Portal

机械学习により有望物质群とその设计指针を抽出
-所望の特性を持つ无机材料のパターンを自动検出する手法を开発-

要点


● 无机材料データから所望の光学特性を持つ物质群に共通な特徴を検知

● 机械学习予测モデルに基づいたクラスタリングにより物性を考虑した物质分类を実现

● マテリアルズインフォマティクスにより物质?材料科学的な知识を获得

概要

東京工業大学 科学技術創成研究院 フロンティア材料研究所の佐藤暢哉研究員(研究当時)、高橋亮助教、清原慎JSPS特別研究員(研究当時。現:東北大学 助教)、大場史康教授は、横浜市立大学大学院生命医科学研究科の寺山慧准教授、物質?材料研究機構 マテリアル基盤研究センターの田村亮チームリーダーと共同で、無機材料の分類および設計指針抽出のための新たな機械学習手法を開発しました。

所望の材料机能の発现の键となる构成元素や原子配列の特徴を见出すことは、材料设计指针の构筑や机能発现机构の解明において重要です。本手法は、机械学习の物性予测モデルに基づいて物质の分类を行うことにより、物质群?物性の种类を问わず、任意の无机材料データから所望の物性に応じて有望な物质のパターンを抽出することを可能にしました。これにより、1,000种类以上の物质を含む无机材料データから各エネルギー领域のバンドギャップを持つ物质や、広いバンドギャップと大きい屈折率を両立する物质に共通な特徴を事前知识无しに自动的に検知することに成功しました。本手法によりマテリアルズインフォマティクス(用语1)を用いた物质?材料科学的な知识の获得が明确?容易になり、さまざまな无机材料の研究?开発や学理构筑が加速されることが期待されます。

本研究成果は8月5日付(现地时间)で「Advanced Intelligent Systems」誌に掲载されました。

背景

材料科学分野では、物质の构成元素や原子配列の特徴に着目し、一定の基準において物质をさまざまな物质群に分类することが频繁に行われてきました。例えば金属と酸素の化合物であるシリカ(厂颈翱2)やアルミナ(础濒2O3)は酸化物という物质群にまとめられ、窒化物や硫化物などと区别して取り扱われます。また価电子构造に基づいた滨滨-痴滨族半导体(颁诲罢别、窜苍厂别、窜苍翱など)、滨滨滨-痴族半导体(骋补础蝉、骋补笔、骋补狈、础濒狈など)といった分类や、结晶构造の観点で岩塩型构造やペロブスカイト型构造といった分类を用いながら、材料设计指针や机能発现机构についての议论が行われてきました。一般に材料设计指针や机能発现机构について考える际に、あらかじめ有望な物性を持つ物质群やその构成元素?原子配列の特徴を知ることができれば有益です。

ある机能を発现する键となる特徴や望ましい机能を持つ有望物质群は、想定している物性(例えば电気特性、光学特性、磁気特性、力学特性)や、材料の用途(电子材料、光学材料、磁性材料、构造材料など)に応じてさまざまです。したがって构成元素?结晶构造のどういった特徴?基準を用いるかについて无数の分类法が考案されており、所望の机能発现の键となる物质の构成元素?原子配列の特徴と、有望な物质群をその都度见出すことが必要となります。

一方で、近年は机械学习がさまざまな分野で爆発的に流行しており、材料科学分野も例外ではありません。最も典型的な応用の一つは、物质の化学式や结晶构造から物性を高速に予测することであり、ここ20年ほどで非常に多くの研究例があります。このような研究では多数の物质について物性値を算出した结果をまとめた第一原理计算(用语2)データベースがよく使われます。さらに最近では、机械学习によりデータを解釈?説明する手法も流行しており、大规模データから构成元素や结晶构造の特徴と物性の関连性を人间が理解できる知识として抽出するための手法も提案されています。例えば、クラスタリング(用语3)と呼ばれるデータ分类法を用いると、あらかじめ人间が选択した特徴量(用语4)について类似した物质群の分类が可能となります。しかし、通常のクラスタリング手法を适用した场合、あらかじめ构成元素?原子配列の特徴量を选択する必要があるため、上述したような用途に応じた物质分类を事前知识无しに行うことができないという问题があります。そこで本研究では、机械学习による物性?机能予测とクラスタリング手法を融合させることで、専门的な事前知识を必要とせずに、想定している物性と物质の构成元素?原子配列に基づいて合理的かつ自动的に物质群の分类を定义する手法を开発することとしました。

研究成果

本研究で用いたクラスタリング手法は、叠谤别颈尘补苍らの提案したランダムフォレスト分类器に基づいたクラスタリング手法を改変し、回帰モデルに适用できるようにしたものです。

通常、ランダムフォレストの予测モデルは多数の决定木(用語5)から構成されていますが、まずは本手法の概要を説明するために、1本の决定木で分類が行われる様子を図1に示します。决定木は特徴量を用いた不等式から構成されており、例えば、図1では原子番号や原子間距離に基づいて各物質に物性値パターンを割り当てています。ある物性に関するデータを学習した决定木における不等式で使われる特徴?基準は、その物性を予測する上で適切なものが自動的に選択されます。したがって、興味ある物性データを学習した决定木上で「同じ経路を辿った物質は類似度が高い」、「そうでないものは類似度が低い」と定義して物質の分類を行えば、対象とする物性に対して適切な基準で構成元素?原子配列の類似度を定義し、また類似度の高い物質をまとめて物質群を定義できるというのが本手法の骨子となるアイデアです。
図 1 决定木による物性予測モデルの概略図
これを踏まえて具体的な手法の概略図を図2に示します。図2(a)では物質の特徴量空間において、决定木のパターンがどのように表されるかを示しています。実用的にはランダムフォレストモデルは予測精度の向上のため、多数(数百?数千程度)の决定木を用います(図2(b))。したがって、その全ての决定木によるパターン分類を考慮した上で物質群の分類を行う必要があります。しかしながら、標準的なクラスタリング手法はこうした多数のパターンにより扱われる情報を直接適用できないため、各データ点(この場合は各物質に割り当てられたパターン)を表形式の数値データで表す必要があります。そのため、本手法では物質がそれぞれの决定木でたどり着いたパターンをone-hot encoding(用語6)で表現して、特徴量空間(x空間)から物性予測モデルに基づいた新しい空間(z空間)に変数変換します。すなわち、図2(c)のように、x空間上で長方形(実際は多次元上の超直方体)の重なりとして表現されていた多数のパターンを、z空間上で通常のベクトル値として表現することが可能となります。したがって、决定木の各パターンを表形式の数値データとして扱うことが可能となり、標準的なクラスタリング手法が適用可能となります。
図 2 本手法による物質分類手法の概略図。(a)决定木によるパターン分類の特徴空間での振る舞い、(b)ランダムフォレストモデルのone-hot encodingによるz空間への変数変換、(c)特徴空間(x空间)上でx, x', x''の特徴量で表される物质に対してT本の决定木によるパターン割当を行い、z空间上で物质の分类を行う様子。
上记の手法の応用例を示すため、Materials Projectデータベース(用语7)から约1,000种类以上の酸化物のデータを取得し、さらに尘补迟尘颈苍别谤コード(用语8)を用いて化学式や结晶构造に基づいた特徴量を约700个生成しました。そのデータについて生成エネルギー?バンドギャップ?电子系诱电率の机械学习予测モデルを构筑して、その予测モデルに基づいたクラスタリング、すなわち物质の分类を行いました。ここでは代表的な结果として电子系诱电率の観点での分类について解説します。电子系诱电率はその平方根を取ると光の屈折率となり、光学用途において重要な物性です。特にバンドギャップが広く电子系诱电率の大きい物质は光学コーティングなどの用途で重要ですが、バンドギャップと电子系诱电率は一般的にトレードオフの関係にあり、広いバンドギャップと大きな电子系诱电率を両立するような物质の设计は难しいです。

本研究では電子系誘電率に基づいてクラスタリングを行い、取得した酸化物データを20種類に分割することで図3(a)のような結果が得られました。それぞれのクラスターで確かに電子系誘電率の値が類似した物質がまとまっている傾向が確認でき、そのうちの一つの物質群が比較的広いバンドギャップを持ちながら大きな電子系誘電率を持つことが分かります。さらにその物質群の特徴量の分布を全データと比較することで、有望物質群を特徴づける因子を特定しました。例えば図3(b)に示すように、八面体型配位構造が含まれるかどうかの指標に着目すると、全データの分布と比べて有望物質群が明らかに高い値を持つ傾向があることが分かります。このような解析から、この物質群の分類基準は解釈しやすいように簡略化して言えば「八面体配位した遷移金属元素が結晶構造に含まれること」であることが分かりました。実際、図3(c)で示すように、この物質群はペロブスカイト型構造やその類似構造を多く含んでおり、確かに「八面体配位した遷移金属元素」を有していることが分かります。さらにこうした物質の電子状態密度の第一原理计算データについて詳細な解析を行うことで、八面体配位したカチオンがバンドギャップの上端(伝導帯の下端)近傍の電子状態の起源となっており、広いバンドギャップと高い誘電率を両立するための鍵となる因子であることが裏付けられました。
図 3 (a)電子系誘電率を基準として酸化物を物質群に分類した結果、(b)八面体型配位構造の指標の全データおよび有望物質群における分布、(c)有望物質群に分類された物質の例。

社会的インパクト

近年、材料科学のさまざまな分野でロボットやシミュレーション?プログラミング技术を用いることにより実験?计算データの生成効率が飞跃的に向上しており、大规模データベースが続々と构筑されています。本手法を用いて、その都度着目すべき物质群?分类基準が示されれば、人间が理解可能な形で材料设计指针や材料科学の学理构筑に寄与することが期待されます。さらに材料科学以外の分野でも「ある特性?机能を考虑した上で、データの入力情报?制御因子に着目してデータを分类したい、データ群を见出したい」というニーズも多分にあると见込まれるため、本手法はより広范な科学分野に応用できる可能性を秘めています。

今后の展开

本研究グループは、高精度な第一原理计算により約10万物質の電子?光学的な特性を評価した大規模な計算材料データベースを保有しており、このデータベースと本手法を用いて半導体材料や光学材料の設計のための指針を提案します。また本研究では単一の物性のみを考慮しましたが、今後は本手法を拡張して複数の物性を勘案してクラスタリングを行うことで、より実用的な知識抽出を行います。

研究费

本研究は科学技術振興機構 戦略的創造研究推進事業CREST(JPMJCR17J2)、日本学術振興会 科学研究费助成事業(JP20H00302、JP 21K14401)、文部科学省 データ創出?活用型マテリアル研究開発プロジェクト事業(JPMXP1122683430)、国際?产学连携インヴァースイノベーション材料創出プロジェクト拠点 DEJI2MA プロジェクト、KISTEC脱炭素化対策事業の助成を受けて行われました。

用语説明

(1)マテリアルズインフォマティクス:材料科学における実験および理论计算の结果に対して机械学习などのデータ科学手法を适用することで、膨大な种类の材料やその性质を扱うアプローチ。
(2)第一原理计算:量子力学の基本原理に基づいた理论计算。物质の电子构造やエネルギーを计算することにより、电子?光学?磁気特性や安定性、力学特性など非常に多様な物性や分子?结晶などの构造を予测することができる。
(3)クラスタリング:机械学习の手法の一つで、类似した特徴を持つデータ点をグループ(クラスター)にまとめる方法。
(4)特徴量:機械学習モデルに入力するデータの特徴を表す属性。例えば、材料科学における物性予測では、電気陰性度や近接原子間距離などの原子および原子配列の基礎的な特徴を用いることが多い。决定木予測モデル構築のアルゴリズムでは、学習データから物性予測のために適切な特徴量が自動的に選択される。
(5)决定木:データの特徴に基づいて不等式を繰り返しながらそれぞれのデータに特性のパターンを割り当て、特性の予测を行う机械学习の手法。
(6)one-hot encoding:カテゴリー型データを数値データに変換する手法。各カテゴリー(本研究では决定木により割り当てられたパターン)を0と1の組み合わせで表現する。
(7)Materials Project データベース:材料科学分野の大規模オープンデータベース。第一原理计算により得られた物質の構造や特性に関するさまざまな情報を提供しており、2024年7月時点で15万種類以上の無機物質データを掲載している。()
(8)尘补迟尘颈苍别谤コード:材料データの取得、処理、机械学习用の特徴量抽出を行うための笔测迟丑辞苍ライブラリ。材料科学とデータ科学を桥渡しし、マテリアルズインフォマティクスの研究を支援するツール。()

论文情报

掲载誌:Advanced Intelligent Systems
論文タイトル:Target Material Property-Dependent Cluster Analysis of Inorganic Compounds(対象物性に依存した無機化合物のクラスター分析)
著者:Nobuya Sato, Akira Takahashi, Shin Kiyohara, Kei Terayama, Ryo Tamura, Fumiyasu Oba(佐藤暢哉、高橋亮、清原慎、寺山慧、田村亮、大場史康)
顿翱滨:

お问い合わせ先

横浜市立大学 広报担当
mail:koho@yokohama-cu.ac.jp
  • 3 全ての人に健康と福祉を