Scale AI and the Center for AI Safety (CAIS) are proud to publish the results of Humanity’s Last Exam.

AIの進化が日々加速する中、その限界を測る「人類最後の試験」が登場しました。世界のAI技術は、わずか数年で正解率を10%から90%以上に引き上げる驚異的な進歩を見せています。この試験を通じて、人間とAIの知恵比べが始まります。
果たして、AIは人間を超える存在になれるのでしょうか?最新技術と未来の可能性を一緒に探ってみましょう。

「人類最後の試験」とは?

「人類最後の試験」は、AI企業Scale AIとAI研究組織Center for AI Safety(CAIS)が共同で開発した、AIの能力を評価するためのテストです。Scale AIはAIトレーニングデータの生成に特化し、多くの大企業と連携しています。
一方、CAISはAIの安全性を研究する最前線の組織であり、AI技術の倫理的な応用を推進しています。この試験には、数学や科学、人文科学など幅広い分野から3000問が含まれ、大学院レベルの難易度を誇ります。

試験の特徴
  • 問題の難しさ:専門知識が必要な質問が多数
    例:アマツバメ目のハチドリの尾羽下制筋の構造
  • 目的:AIの進化の現状と課題を明らかにすること
なぜこんな難しい試験を作ったの?

AIの進歩が非常に速いため、既存のテストではその能力を測りきれなくなってきました。例えば、2021年に開発された「MATH」試験では、初期のAIは正解率が10%未満でしたが、3年後には90%以上を記録するほどの進化を遂げました。

「人類最後の試験」は、こうした急速な進化に対応し、AIの現状と未来の方向性を見極めるために設計されたのです。

試験結果はどうだった?

「人類最後の試験」で最高得点を記録したのはOpenAIの「o1」というAIで、正解率は8.3%でした。他のAIはさらに低いスコアにとどまりました。この結果は、AIがまだ人間の知能には及ばないことを示していますが、同時に進化の余地が大きいことも示唆しています。

AIはこの試験に合格できるようになるの?

CAISの共同設立者ダン・ヘンドリクス氏は、1年以内に50%以上の正解率を達成するAIが出てくる可能性があると語っています。AIの進化は非常に速く、予測を超える成果をもたらすことが期待されています。

世界各国の企業がAI開発に力を入れています。
例えば、中国のAI企業DeepSeekは、高性能AIモデル「DeepSeek-R1-Lite-Preview」を公開しました。このモデルは、OpenAIの「o1」と肩を並べる性能を持ち、オープンソース化も計画されています。このような競争は、AI技術の急速な発展を促し、私たちの日常生活や産業全体に大きな影響を与える可能性があります。

AIがもたらす具体的な影響
  • 医療:診断を迅速化し、患者ケアを向上
  • 交通:渋滞削減や交通システムの効率化
  • 製造業:ロボットの活用で生産性の向上

グローバルな競争の中で、さらなる進化が見込まれます。

まとめ
  • AIの限界を測る「人類最後の試験」が開発されました。
  • 現時点での最高スコアは8.3%と、まだ人間には及びません。
  • AIの進化は急速で、1年後には大きな進展があるかもしれません。

AIは私たちの生活や経済に多大な影響を与える可能性があります。
例えば、AIは医療分野で診断を迅速化し、交通システムを効率化することで渋滞を減らす役割を果たせます。また、製造業ではロボットが作業を自動化し、生産性を大幅に向上させる可能性があります。これからの未来に向けて、技術の理解を深め、人間らしい創造性や批判的思考力を磨くことが重要です。皆さんは、AIと共存する未来にどのような世界を描きますか?

  • AIが得意なことと苦手なことは何だと思いますか?
  • AIの進化でどんな新しい仕事が生まれる可能性があるでしょうか?
  • AIと人間が協力してより良い社会を作るためには何が必要だと思いますか?

AIが私たちの未来を大きく変える可能性を秘めています。一緒にこの変化に向き合い、未来を考えてみましょう!