Google DeepMindが発表した、同社の「最もインテリジェントなAIモデル」。特に推論能力とコーディング能力が大幅に向上しています。
Gemini 2.5 Pro Experimentalと他の主要AIモデルとの性能比較 (一部抜粋、数値はGoogle DeepMind発表資料より)
ベンチマーク | Gemini 2.5 Pro (Exp.) | OpenAI 03-mini | OpenAI GPT-4.5 | Claude 3.7 Sonnet | Grok 3 Beta | DeepSeek R1 |
---|---|---|---|---|---|---|
Humanity's Last Exam (no tools) | 18.8% | 14.0%* | 6.4% | 8.9% | - | 8.6% |
Science GPQA diamond | 84.0% | 79.7% | 71.4% | 78.2% | 80.2% | 71.5% |
Mathematics AIME 2025 | 86.7% | 86.5% | - | 49.5% | 77.3% | 70.0% |
Mathematics AIME 2024 | 92.0% | 87.3% | 36.7% | 61.3% | 83.9% | 79.8% |
LiveCodeBench v5 | 70.4% | 74.1% | - | - | 70.6% | 64.3% |
Code editing Aider Polyglot | 74.0% / 68.6% | 60.4% | 44.9% | 64.9% | 79.4% (?) | 56.9% |
Agentic coding SWE-bench verified | 63.8% | 49.3% | 38.0% | 70.3% | - | 49.2% |
Factuality SimpleQA | 52.9% | 13.8% | 62.5% | - | 43.6% | 30.1% |
Visual reasoning MMMU | 81.7% | - | 74.4% | 75.0% | 76.0% | - |
Image understanding Vibe-Eval (Reka) | 69.4% | - | - | - | 78.0% | - |
Multilingual Global MMLU (Lite) | 89.8% | - | - | - | - | - |
*表内の "-" はデータが利用不可または非公開であることを示唆します。数値は発表時点のものであり、変動する可能性があります。一部ベンチマークで最高スコアを持つモデルを赤字で示しています。
料金体系: スケーリングされた本番環境向けの料金は、数週間以内に発表される見込みです。
情報元: ITmedia AI+ (2025年3月26日記事)