础滨による画像説明文で高精度な画像认识を実証

2023.07.28

TOPICS
データサイエンス学部

画像キャプショニングは画像そのものよりも多くを语る

横浜市立大学データサイエンス学部の有働帆乃璃さん（研究当时）と越仲孝文教授らの研究グループは、画像から説明文を生成する人工知能（础滨）である「画像説明础滨」の振舞いを明らかにする研究を行い、説明文のみから画像を认识する実験を行い、详细な説明文が得られれば、标準的な画像认识システムと同等かそれ以上に正确な画像认识が可能であることを実証しました。本研究成果は、第37回人工知能学会（闯厂础滨2023）全国大会の一般セッションで発表されました。（2023年6月9日?熊本）

研究成果のポイント

画像から説明文を生成する人口知能（础滨）の説明能力の高さを検証。
画像説明础滨と言语理解础滨を组み合わせて画像を认识する実験を行った。
言语理解础滨は画像を一切见ず、説明文のみから正确に画像を认识できた。

研究背景
画像、音声、言語などを理解する様々な人工知能（AI）技術が近年急速に進歩しています。とりわけ、画像と言語を理解して両者の橋渡し役となるAI技術は注目されています。例えば、自然な言葉で説明した内容から画像を生成する画像生成AIは、Stable DiffusionやMidjourneyといったオープンソースソフトウェアの普及に伴い、一般の人々の間でも大流行の様相を呈しています。一方、画像生成AIとは逆に画像からその説明文を生成する画像説明AIは画像キャプショニングとも呼ばれ、同様に目覚ましく進歩しています。しかしながら、ディープラーニング（深層学習）に基づく現代のAI技術は中身の見えないブラックボックスであり、その振舞いを理解して安心?安全を担保する取組みが求められています。

研究内容
画像説明AI （画像キャプショニング）の振舞いを完全に理解するためには、それが画像内のどのような情報に着目しているのか、あるいはいないのかを明らかにする必要があります。ここでは一つの試みとして、画像の説明文を用いて画像認識を行うという課題を設定しました（図1）。すなわち、画像キャプショニングで生成した説明文を言語理解AIという別のAIに提示して、画像の内容を推論させます。これを标準的な画像认识システムと比較すれば、説明文が原画像の情報をどの程度保持できているのか知ることができます。
実験には自然灾害画像のコレクションである颁谤颈蝉颈蝉狈尝笔データセット^＊１を使用しました。CrisisNLPには画像を7種のクラス（地震, 火事, 洪水, ハリケーン, 地滑り, その他, 災害なし）に分類する課題が設定されています。いくつかの画像キャプショニング方式を試した結果、詳細な説明文を生成できるCLIP Interrogator^＊２と呼ばれる方式がもっともよい结果を示し、その画像认识精度は85%でした。これは、标準的な画像认识システムの精度70%を大きく上回る结果です。今回使用した标準的な画像认识システムは、惭辞产颈濒别狈别迟痴2と呼ばれる深层学习モデルを用いた文字通り标準的なもので、これよりも良いとされるシステムは存在します。それでも、画像を直接认识するよりも大幅に高い精度が画像説明文のみで达成できるという结果は惊きです。画像説明础滨は思いのほか多くを语ると言えます。

标準的な画像认识システム

今回検証した画像认识システム

図1：标準的な画像认识システムは物体の色や形状から画像を認識する（上段）。本システムでは、画像説明AIの説明を聞いた言語理解AIが、画像を見ずにその内容を推論する（下段）。

今后の展开
「百闻は一见に如かず」の言叶通り、伝闻情报よりも自分の目で确かめた情报の方がはるかに有用で信頼できるというのが人间界の常识です。しかし础滨の世界は必ずしもそうではないようです。なぜこのようなことが起こるのかをさらに详しく调べ、人间と础滨の推论プロセスの违いを明らかにするのが次のステップです。
今回の成果自体は、础滨の説明可能性という问题に寄与できると考えられます。ディープラーニング技术に基づく通常の画像认识システムは概してブラックボックスシステムであり、画像を与えると推论结果が出力されるのみで、なぜその结果に至ったのかが见えません。今回の画像认识システムは画像の説明文が出力されるので、推论のプロセスが人间にも理解できます。とはいえ、今时の画像説明础滨もディープラーニング技术の块であり、その振舞いはほとんどわかっていません。本格的な研究はこれからです。

研究费
本研究の一部は闯厂笔厂科研费21碍11967の支援を受けて実施されました。

论文情报
タイトル：画像キャプショニングは画像そのものよりも多くを语る
著者：有働帆乃璃, 越仲孝文
掲载雑誌：第37回人工知能学会全国大会(闯厂础滨2023)论文集
顿翱滨：

用语説明
＊１CrisisNLP （クライシスNLP）データセット：次の論文にて公開されている。
顿翱滨：（図1の画像も本データセットより引用）

＊２ CLIP Interrogator（クリップ?インテロゲータ）：Stable Diffusionなどの画像生成AIに与えるプロンプト（指示文）を画像から生成する、画像生成の補助ツール。広い意味で画像説明AIとみなせる。

麻豆官网

础滨による画像説明文で高精度な画像认识を実証

画像キャプショニングは画像そのものよりも多くを语る