10億円もの予算を投入した虐待判定AIが、導入直前で見送りになりました。その背景には何があったのでしょうか?

記事の説明
こども家庭庁が開発を進めていた虐待判定AIの導入が見送られることになった。
2021年度から約10億円をかけて開発されたこのシステムは、児童相談所の職員を補助する目的で、虐待の疑いがある子どもの一時保護の必要性をAIが判定するものだった。
しかし、過去の虐待事例100件をもとに試験運用した結果、判定ミスが6割に上るという深刻な問題が発覚。
これにより「実用化は困難」と判断され、開発の継続が見送られた。
システムは約5000件の虐待記録を学習し、91の評価項目をもとに虐待の可能性を0~100点でスコア化する仕組みだった。しかし、試作モデルを用いた検証では、明らかに深刻な虐待事例にもかかわらず低い点数がつくケースが相次いだ。例えば、「母親に床に頭を打ちつけられた」と訴える子どもがいたにもかかわらず、外傷がないために「2~3点」と判定されるなど、AIの判断精度に大きな疑義が生じた。
専門家によれば、虐待の態様は事例ごとに異なり、AIが高精度で判定するのは非常に難しいという。
また、AIの学習データが5000件と少なかった点や、重要な情報が入力項目に含まれていなかった点も課題として指摘されている。この結果を受け、こども家庭庁は「時期尚早」と判断し、導入を見送ることを決定した。
今後、AI技術の発展を見ながら再開の可能性を含めて検討するとしている。
高村の考え
記事の内容を見る限り、開発の見通しが甘かったと言わざるを得ません。
AIに10億円もの予算を投入したにもかかわらず、そもそもサンプルデータが5000件しかなく、虐待の複雑な態様を適切に判定できる設計になっていなかった。
特に、虐待の判断をする際に「外傷の有無」に大きく依存してしまっている点は、実際の児童相談所の現場感覚とズレがあったように思います。
例えば、心理的虐待やネグレクトのようなケースは、外傷がなくても深刻な影響を及ぼす可能性があり、これらを正しく評価できなければ意味がありません。
また、行政がAIを導入する際には、綿密な制度設計が不可欠ですが、今回のケースでは「とりあえずAIを使おう」という発想が先行してしまった印象があります。
AIは万能ではなく、特に人間の感情や状況を総合的に判断する必要がある分野では、単純なデータ分析だけでは不十分です。
行政のデジタル化が進む中、AIの活用は今後ますます重要になりますが、今回のような失敗を繰り返さないためには、まず現場の意見をしっかりと反映し、試験運用の段階で徹底的に検証するプロセスが求められます。
少なくとも「精度が低すぎる」と言われるレベルのまま開発を進めるのではなく、民間の技術者や専門家と連携しながら、より実用的なシステムを構築するべきでしょう。