未来予想はできないけれど過去から学ぶことはできるという話

lindablog

5年前

[chat face=”man1″ name=”” align=”left” border=”gray” bg=”none” style=””]AIが未来を予想しようとしたという記事を読んだけど、やっぱり難しいんだね。[/chat]

プリンストン大学の研究チームが家族のデータを使って将来の子供の成績などを
予測するようなアルゴリズムを考えるよう研究者に依頼した実験がありました。
この研究成果は米国国立科学アカデミー紀要という著名な論文誌に掲載されています。

Salganik, Matthew J., et al. “Measuring the predictability of life outcomes with a scientific mass collaboration.” Proceedings of the National Academy of Sciences 117.15 (2020): 8398-8403.

研究自体は野心的だけれども・・・

[box03 title=”話題になっていた記事”]「AIを使った社会現象の予測は限界がある」　米大学が長期研究の結果を公開　https://forbesjapan.com/articles/detail/33777/1/1/1?s=ns[/box03]

過去のデータから未来を予測するというのはファイナンスでも良く行われています。
株式のデータというのは典型的な過去のデータで、そこから将来を予想しようという試みは
長年いろいろと研究されてきましたが現時点でずっと勝てるアルゴリズムはありません。

今回のように15才時点での子供の成績を9歳までのデータで予測してみようというのは、
統計的傾向としては見られそうですが、個別の学力を正確に予想するのは困難でした。

こうした研究は機械学習アルゴリズムの発達によって増えていますが、
現時点で驚くほどの新事実を発見しているかと言うと必ずしもそうでもありません。

データがあるからとりあえず機械学習させようみたいなものも多いことと、
社会科学においてはデータセットから結論を導くことは以下の理由で難しいからです。

AIを使ってもなぜ未来予想はできないのか？

現時点でAIと言われている物は機械学習アルゴリズムを用いた統計的推定の方法です。
コンピュータは分析対象となるデータに基づいて、傾向や相関関係を推測します。

そういうとコンピュータがいろいろ考えてるように聞こえますが、
人間から見て推測しているように見えるだけで作業的に関係性を抽出しているのです。

機械学習アルゴリズムが用いられやすいのは今回のような変数が多いデータに対して、
何らかの当てはまりを推測するために「とりあえず投げておけ」という研究も多いです。

今回も「機械学習を使って当てはまりを探してみてください」というもので、
こうした変数がたくさんあるようなデータをただ投げても面白い結果は出にくいです。

例えば、ボールを投げたときに何秒後にどのくらいの距離にあるかと言うのは、
初速度と角度が決まれば決定することができますよね。
もちろん、空気抵抗によって飛んだり飛ばなかったりするのが現実ですが、
その材料についての情報も持っていればほぼ間違いなく予測することができます。

一方で15歳での成績を予測するために必要な要素は何でしょうか？
テストの範囲を知っていれば対策できますよね。直前の成績データは推定に有効そうです。
親がお金持ちかどうかは影響するでしょうか。確かに影響しそうですが、
15歳時点でどう影響するかはお金より本人の学習態度や反抗期等に影響しそうです。

ものすごく勉強ができて、資産家の家の子供であっても、
テスト直前に彼女ができてそちらで忙しければ成績は落ちるかもしれません。

こうした、突発的な影響、運命的な出会いのような要素は検討されませんので、
AIを使ったとしても推測することはとても難しいのです。
ちなみに、運命の出会いをしたければ行動しないより、婚活パーティーに参加したり、
アプリを使ったり、街に出るほうが遥かにチャンスは増えるのは確かです。

「過去は変えられないが未来は変えられる」

これはどんなにコンピュータが進化したとしても変わらない事実です。

与えられたデータセットの影響を大きく受けるよ

AIが得意な分野はこれまでのコンピュータと同じく計数的な仕事です。
そのため、たくさんのデータを集計したり、相関関係を見つけるのは得意です。

しかし、データは自分で集めてくるわけではないので、結局人間の作為が反映されます。
証券データはたしかに事実ではありますが、将来の人間の心の動きはわかりません。

当たり前のことを言っていますが、人間のやることは必ずしも課題設定に対して、
非合理的なこともたくさんやっているのでその影響が排除できません。
片付けしたいのにゲームをしてしまったり、お金がないのに借金をしてしまったりします。

過去のデータが完全にその特定したい問題、仮説に対して、
完全なデータの集合を持っていたとしたらAIで予想することはできるかもしれませんが、
完全に人間のすべての行動データや心の動きをデータ化することはできません。

だから、このような研究では必ずデータセットがどういう条件で集められているのか、
というのを真剣に検討することが大切です。

たとえば、今回の論文では「未婚の両親によって形成された家族と、
これらの家族に生まれた子供の生活を理解すること」を目的に、
15歳になったときのイベントを予想して欲しいという趣旨で行われました。

どんなデータセットが与えられていたかはあまり深く読んでいないのでわかりませんが、
調査で行われるデータがどのように選択されているかに影響を受けることは確かです。

それでもこのAIを使った研究を評価できる理由

それでもなぜこの研究は野心的で評価できると思うのかというと、
人間である以上、社会をもっとよくしようという思いで、
その人の状況について理解を深めるということは行うべきだからです。

例えば、刑事司法や児童保護サービスが必要な状況にある人は多数いますよね。

ここでは過去の経験からどのように予測され、どう対処すればよいか、
経験のある刑務官や、カウンセラー、児童福祉司に頼ってきました。

しかし、行政のスリム化や効率化をすすめるにあたって政策を作る際、
処方箋を提示できるAIがあれば意思決定を支援することができるかもしれません。

当然倫理的・人間的な道徳を持った上で、困難に置かれる人々に対して、
どういったサービスを提供することによって、その人を価値ある人間として、
成長させることができるのかという課題にはより力を入れて取り組むべきなのです。

過去のデータからその人をラベル付けしすぎることは良くありません。
なぜなら予想できないその人の可能性を奪うことにも繋がりかねないからです。

そうではなく、データから社会的弱者や困難に置かれている人が自信を取り戻し、
社会生活を送れるよう支援し、最終的には納税者として労働するなど貢献するように、
私達は過去の教訓や歴史や経験から学び、それを有効活用しなければなりません。