
ChatGPTなどの言語AI、LLMが機能向上して、多くの人が日々使えるようになった。莫大な計算機パワーを注ぎ込んでスケールアップしたことで性能が大幅に向上した。一方、そのおかげで、逆に何が言語AIにはできないか、少なくともできていないかが見えてきた。これはAI研究の歴史で過去何度も繰り返してきたことだ。これに対し、いまのAIに足りないのは、身体性、つまり体、ボディー、感覚器だ、という人がいる。そこでフィジカルAI、ロボットやその他のセンサー、マニピュレータを備えれば、次のステージに行ける、という主張がある。たしかに、いまのAIには、身体を通じた経験が欠けている。よって、物理世界との接続が増えれば、いまのAIにはできない多くのことができるようになるだろう。
ただし、身体性が意味しているのは単に物理世界に接続している、ということではない。例えば、椅子に腰掛けて、くつろぐ。この時、椅子から与えられるサポート、表面の布の質感、対応して足腰の筋肉の弛緩、腰骨に伝わる力、は物理的な計測で把握できるだろう。ただし、「くつろぐ」は、そこに含まれていない。くつろぎは気持ちの問題で、主として脳内で反応が起きていることを意味する。もちろん表情や心拍、血圧など計測可能になりつつある情報から、多少は推定できるだろうが、ほとんどはブラックボックスである。
実は、深層学習などAI技術が、思ったほど実務に導入できないのにも類似の問題が横たわっている。AIが何等かの機能を学習するには、何を目指すべきか、何が答えなのか、という情報が必要だ。機械振動の良し悪しを判定する場合は、良い振動と、悪い振動を区別したデータが必要となる。こういったデータは実はなかなか得るのが難しい。単に振動データは得られるが、その価値判断は人間が行っていて、データ化されていない場合が多いためだ。
ただし、機器振動のように単純な判断であれば、人間が一つ一つ、良い悪いという情報を付加すれば良いので、まだハードルは低い。または劣化や損傷といった具体的な障害データがあれば、そこから予兆を推定できる。しかし、多くの実務での判断はケースバイケースで、無限に近い組み合わせの中での判断が求められるため、適切な価値判断のデータを作るのはとても難しい。
さて、ここで本題に入る。AIはfを認識できるだろうか。現状は困難だが、特定の世界軌道をモデリングすることは、いずれ可能になるだろう。そして、そこからの差異も、そして、その差異が、ある信念構造からは正しく、別の信念構造からは間違いである、とも判断できるだろう。つまり仮想偏移を認識できるAIは既に射程にある、と私は考える。ただ、そこからが問題だ。まず、単なるナンセンスとfの違いに苦労するだろう。fは本人が信じたい、信じざるを得ないと感じる特定の事象にのみ生じる。これはナンセンス俳句をAIが作れても、良作を作るのが難しいのと似ている。
そして、おそらくAIは、f+とf-の区別をするのに苦労するだろう。ここにも価値判断が含まれている。それも実に不安定かつパーソナルな価値判断である。安定した価値判断のデータを作るのはとても難しい。何しろ、本人ですらfに遭遇してはじめて、感じ取れるような感覚だからだ。f+は、「そうであったらいいな」と信じたくなる感覚、f-は逆に「そんなことがなければいい」という恐れの感覚に基づく。
なお誤解しないでもらいたいのは、AIには感情が無いからダメだ、と言っているわけではないことだ。感情に相当するモデリングを行うことは、データさえあれば可能だ、と私は考える。特に、広く人類に共通する感情のモデリングは射程内だと思う。ドラマや小説などといったデータが豊富にあるからだ。どういうストーリーテリングなら「全米が泣く」かは、恐らくモデリングできる。fが難しいのは、そういった広く共通する情動と異なり、繊細かつパーソナル、また極めて状況依存だからだ。
もう一歩進めてみよう。私たちは何故fを見つけることができるのか。それには、fを見出したいという能動性が重要な役割を果たしている。現実は変わらない、と頑固に考えている人には、決してfは見いだせないだろう。物語は絵空事だ、自分の世界認識には影響しない、そう考えていると見えないだろう。世界は人間が理解できるような信念構造では説明できない豊かな内実を持つ。矛盾するように見える世界の相がある。きっと、あるはずだ、あってほしいと願う心が、fを現出させる。これは単にAIが世界軌道を構成できて、予測との差異を検知できるだけでは乗り越えられないエリアだと考える。
fの現れを望むAIは現れるだろうか。





