Google、思考するAI「Gemini 2.5」を発表！推論・コーディング能力が大幅向上

Google DeepMindは2025年3月25日(現地時間)、同社の最もインテリジェントなAIモデルである「Gemini 2.5」を発表しました。最初のリリースとなる「Gemini 2.5 Pro Experimental」は、特に高度な推論能力とコーディング能力に優れており、ベンチマーク「LMArena」では第1位を獲得しています。

Google AIモデル「Gemini 2.5」概要

Gemini 2.5の主な特徴

高度な推論能力: 応答する前に思考プロセスを経ることで、パフォーマンスと精度が向上。数学・科学分野のベンチマークで優れた成績を収めています。
大幅に向上したコーディング能力: Gemini 2.0からコーディング性能が大きく改善。視覚的に魅力的なWebアプリの作成、エージェント型のコードアプリケーション、コードの変換・編集能力が向上しました。単一プロンプトから実行可能なコードを生成しゲームを作成するデモも公開されています。
マルチモーダル性能: Gemini 2.0からネイティブなマルチモーダル性能を引き継ぎ、テキスト、オーディオ、画像、動画、コードリポジトリなど多様な情報を理解・処理できます。
広大なコンテキストウィンドウ: 100万トークン（近日中に200万トークンへ拡張予定）のコンテキストウィンドウを持ち、膨大なデータセットの理解や複雑な問題への対応が可能です。
思考能力の統合: Gemini 2.0 Flash Thinkingから進化し、強化された基盤モデルとポストトレーニングにより、思考能力がモデルに直接組み込まれました。これにより、より複雑な問題や高性能なエージェントをサポートします。

ベンチマーク比較 (Gemini 2.5 Pro Experimental)

Gemini 2.5 Pro Experimentalは、多くのベンチマークで高いスコアを記録しています。

ベンチマーク	Gemini 2.5 Pro (Experimental)	OpenAI GPT-4.5	Claude 3.7 Sonnet	Grok 3 Beta	DeepSeek R1
Humanity’s Last Exam (no tools)	18.8%	6.4%	8.9%	不明	8.6%
GPQA diamond (Science)	84.0%	71.4%	78.2%	80.2%	71.5%
AIME 2025 (Mathematics)	86.7%	不明	49.5%	77.3%	70.0%
AIME 2024 (Mathematics)	92.0%	36.7%	61.3%	83.9%	79.8%
LiveCodeBench v5	70.4%	不明	不明	70.6%	64.3%
Aider Polyglot (Code editing)	74.0%/68.6%	44.9%	64.9%	79.4%	56.9%
SWE-bench verified (Agentic coding)	63.8%	38.0%	70.3%	不明	49.2%
SimpleQA (Factuality)	52.9%	62.5%	不明	43.6%	30.1%
MMMU (Visual reasoning)	81.7%	74.4%	75.0%	76.0%	不明(Art)
Vibe-Eval (Reka) (Image understanding)	69.4%	不明	不明	78.0%	不明
MRCR (Eng)	91.5%	48.8%	不明	不明	不明
Global MMLU (Lite) (Multilingual)	89.8%	不明	不明	不明	不明