令和5年11月30日にプレスリリースを行いました「心に描いた風景を脳信号から復元!~生成系AIと数理的手法を用いた新たな技術を開発~」につきまして、皆様より多くのお問合せ等を頂いておりますので、主な問合せとその回答につきまして以下のとおり公表いたします。
今回の成果に至るまでの背景を詳しく教えてください。
これまでにも「目で見ている画像の復元」に成功した研究はありました。しかし、「心の中のイメージの復元」はより困難な研究課題とされてきました。心の中の画像を復元したとする先行研究はいくつかあります。まずLee & Kuhl(2016)は、心の中に描いた顔画像を復元したという報告ですが、顔以外の画像は復元できませんでした。Senden et al. (2019)では、アルファベット文字の復元が行われましたが、文字以外は対象に含まれていませんでした。このような先行研究の中で、特筆すべきは京都大学・神谷之康教授の研究室から発表されたShen et al. (2019)の成果でした。この研究では、畳み込みニューラルネットワークによって得られる画像特徴を利用し、心に描いた様々な幾何学図形を復元することに成功しています。それまでの「心の像を復元する研究」の中で、最も先進的な実施例であったため、今回私たちが開発した手法も、その根幹部分でShen et al. (2019)の知見を踏まえた上で、新たな研究成果の発表となりました。
今回の手法で工夫した点は何ですか? 新たに出来るようになったことは何ですか?
本手法では、Shen et al.(2019)の先行手法をベースに、いくつかの工夫を加えました。一つは、生成モデルに最近の進展が目覚ましい生成系AI (今回はVQGAN (*1)) を用いた点です。これを用いたことで、より自然な画像を復元することができるようになりました。もう一つは、ベイズ推定といわれる手法を導入した点です。今回の心の像の復元では、画像に含まれる様々な特徴を手がかりに画像を復元しています。特に今回は、画像から視覚的な特徴のみならず、意味・概念的な特徴(*2) をも抽出し、復元に利用しています。ベイズ推定を導入することにより、様々な画像特徴を組み合わせて、復元の工程に取り入れることができるようになりました。これらの工夫により、今回は幾何学図形のみならず、ヒョウや飛行機といった多様な画像を心に描いた場合でも、その特徴を一定精度で捉えた像を復元することが新たにできるようになりました。
(*1) Esser et al. 2021。他の生成系AIを用いることも可能です。
(*2) 特徴抽出にはマルチモーダルモデルCLIP(Radford et al. 2021)を使用しています。
生成系AIは画像の採点表をもとに、どのように画像を復元していくのですか?
本研究では、画像が持つ様々な特徴についての「採点表」を用いて復元を行いました。まず脳信号から、イメージしている像がどのような画像特徴を持っているかを推定します。これは「脳から推定した採点表」であり、これを元に次のプロセスを経て画像を復元しました。まず採点表に頼らずに、生成系AIに適当な画像を作らせます。その生成された画像の採点表と、脳信号から推定した採点表との間で類似度を測ります。そして脳信号から得た採点表に近づくよう (類似度が高くなるよう) 画像生成と評価を繰り返し、最終的な復元画像とします。この採点表を介して画像を復元する方法は、Shen et al. (2019) でも用いられており、幾何学図形の想起については人が行った評価で83.2%の正解率が報告されています。本研究では、これに最近の生成系AI、ベイズ推定やランジュバン動力学法という数理的手法を導入し、新たな復元法を開発しました。
見た目そっくりな画像ではないのに、「復元できた」というのはどのような意味ですか?
残念ながら今回の成果は、イメージしている元画像にそっくりとはいえず、元画像の「特徴を捉えた」復元に成功した、というところまでしか言えません。本研究では、このことを復元画像の可視化と、AIによる評価に基づいて示しました。AIによる評価というのは、詳しくは「復元画像に対して元の画像を当てることができるか」という二択問題の正解率のことです。このAIによる評価方法は、この分野における類似の先行研究において複数用いられています。もちろん、これ以外の評価方法も色々提案されています。例えばAIを使わず、人による評価を採用した先行研究も存在します。どの評価方法が良いかは、研究者達の間でも様々な意見があるところです。今後、さらに良い評価手法が開発されていくことが期待されます。
イメージ力が強い人と弱い人で復元精度の出来上がりの違いがありますか?
本研究では直接の検証を行っておらず、わかりません。しかし、元画像に対して実験参加者さんが思い浮かべたイメージの正確さは復元精度に関係する可能性はあると考えています。現時点では、私たちは本研究の実験参加者さんが脳活動の計測時にどのようなイメージを持たれていたかを完璧に知るすべがありません。これをどのように客観的に評価するかは、今後の研究課題の一つです。
今回の研究成果に対する所感を教えてください。
今回の研究成果は、京都大学・神谷之康教授が10年以上にわたり培ってきた先行研究の上に達成されており、特にShen et al. (2019) で得られた知見なしには達成できなかったものと考えています。今後は、さらに技術の改良を積み重ね、より復元精度の高いイメージングを目指す所存です。