Google DeepMindは2025年3月25日(現地時間)、同社の最もインテリジェントなAIモデルである「Gemini 2.5」を発表しました。最初のリリースとなる「Gemini 2.5 Pro Experimental」は、特に高度な推論能力とコーディング能力に優れており、ベンチマーク「LMArena」では第1位を獲得しています。
Gemini 2.5の主な特徴
- 高度な推論能力: 応答する前に思考プロセスを経ることで、パフォーマンスと精度が向上。数学・科学分野のベンチマークで優れた成績を収めています。
- 大幅に向上したコーディング能力: Gemini 2.0からコーディング性能が大きく改善。視覚的に魅力的なWebアプリの作成、エージェント型のコードアプリケーション、コードの変換・編集能力が向上しました。単一プロンプトから実行可能なコードを生成しゲームを作成するデモも公開されています。
- マルチモーダル性能: Gemini 2.0からネイティブなマルチモーダル性能を引き継ぎ、テキスト、オーディオ、画像、動画、コードリポジトリなど多様な情報を理解・処理できます。
- 広大なコンテキストウィンドウ: 100万トークン(近日中に200万トークンへ拡張予定)のコンテキストウィンドウを持ち、膨大なデータセットの理解や複雑な問題への対応が可能です。
- 思考能力の統合: Gemini 2.0 Flash Thinkingから進化し、強化された基盤モデルとポストトレーニングにより、思考能力がモデルに直接組み込まれました。これにより、より複雑な問題や高性能なエージェントをサポートします。
ベンチマーク比較 (Gemini 2.5 Pro Experimental)
Gemini 2.5 Pro Experimentalは、多くのベンチマークで高いスコアを記録しています。
ベンチマーク | Gemini 2.5 Pro (Experimental) | OpenAI GPT-4.5 | Claude 3.7 Sonnet | Grok 3 Beta | DeepSeek R1 |
---|---|---|---|---|---|
Humanity’s Last Exam (no tools) | 18.8% | 6.4% | 8.9% | 不明 | 8.6% |
GPQA diamond (Science) | 84.0% | 71.4% | 78.2% | 80.2% | 71.5% |
AIME 2025 (Mathematics) | 86.7% | 不明 | 49.5% | 77.3% | 70.0% |
AIME 2024 (Mathematics) | 92.0% | 36.7% | 61.3% | 83.9% | 79.8% |
LiveCodeBench v5 | 70.4% | 不明 | 不明 | 70.6% | 64.3% |
Aider Polyglot (Code editing) | 74.0%/68.6% | 44.9% | 64.9% | 79.4% | 56.9% |
SWE-bench verified (Agentic coding) | 63.8% | 38.0% | 70.3% | 不明 | 49.2% |
SimpleQA (Factuality) | 52.9% | 62.5% | 不明 | 43.6% | 30.1% |
MMMU (Visual reasoning) | 81.7% | 74.4% | 75.0% | 76.0% | 不明(Art) |
Vibe-Eval (Reka) (Image understanding) | 69.4% | 不明 | 不明 | 78.0% | 不明 |
MRCR (Eng) | 91.5% | 48.8% | 不明 | 不明 | 不明 |
Global MMLU (Lite) (Multilingual) | 89.8% | 不明 | 不明 | 不明 | 不明 |
ベンチマーク比較 (一部モデルのスコアはPDF内で空欄または不明瞭)
注: 表内の数値は提供されたPDFの情報に基づいています。一部比較モデルのスコアが空欄または読み取れない箇所がありました。太字は比較対象内で最も高いスコアを示します(Grok 3 Beta、DeepSeek R1は一部ベンチマークで最高スコア)。
利用プランと提供時期
- 開発者向け: 「Google AI Studio」で既に公開されています。
- Gemini Advancedユーザー: デスクトップおよびモバイルアプリのモデル選択ドロップダウンから利用可能です。
- Vertex AI: 近日中に利用可能になる予定です。
- 料金体系: スケーリングされた本番環境向けの料金体系は、数週間以内に発表される見込みです。
Googleは今後、リリースする全てのAIモデルに推論機能を組み込む方針を示しており、Gemini 2.5はその第一歩となる重要なモデルと言えるでしょう。
コメント