Google AIモデル「Gemini 2.5」概要 (2025年3月発表時点)

Google DeepMindが発表した、同社の「最もインテリジェントなAIモデル」。特に推論能力とコーディング能力が大幅に向上しています。

主な特徴

高度な推論能力: 応答前に思考プロセスを経ることで、パフォーマンスと精度が向上。数学・科学分野のベンチマークで優れた成績。
強化されたコーディング能力: Gemini 2.0から大幅改善。Webアプリ作成、エージェント型コードアプリ、コード変換・編集に優れる。
マルチモーダル対応: テキスト、オーディオ、画像、動画、コードリポジトリなど多様な情報を理解・処理可能 (Gemini 2.0から継承)。
大規模コンテキストウィンドウ: 100万トークンに対応 (近日中に200万トークンへ拡張予定)。膨大なデータセットの理解、複雑な問題への対応が可能。
思考能力の統合: 今後リリースされるGoogleの全AIモデルに推論機能が組み込まれる予定。

Gemini 2.5 Pro Experimentalと他の主要AIモデルとの性能比較 (一部抜粋、数値はGoogle DeepMind発表資料より)

ベンチマーク	Gemini 2.5 Pro (Exp.)	OpenAI 03-mini	OpenAI GPT-4.5	Claude 3.7 Sonnet	Grok 3 Beta	DeepSeek R1
Humanity's Last Exam (no tools)	18.8%	14.0%*	6.4%	8.9%	-	8.6%
Science GPQA diamond	84.0%	79.7%	71.4%	78.2%	80.2%	71.5%
Mathematics AIME 2025	86.7%	86.5%	-	49.5%	77.3%	70.0%
Mathematics AIME 2024	92.0%	87.3%	36.7%	61.3%	83.9%	79.8%
LiveCodeBench v5	70.4%	74.1%	-	-	70.6%	64.3%
Code editing Aider Polyglot	74.0% / 68.6%	60.4%	44.9%	64.9%	79.4% (?)	56.9%
Agentic coding SWE-bench verified	63.8%	49.3%	38.0%	70.3%	-	49.2%
Factuality SimpleQA	52.9%	13.8%	62.5%	-	43.6%	30.1%
Visual reasoning MMMU	81.7%	-	74.4%	75.0%	76.0%	-
Image understanding Vibe-Eval (Reka)	69.4%	-	-	-	78.0%	-
Multilingual Global MMLU (Lite)	89.8%	-	-	-	-	-

*表内の "-" はデータが利用不可または非公開であることを示唆します。数値は発表時点のものであり、変動する可能性があります。一部ベンチマークで最高スコアを持つモデルを赤字で示しています。

料金体系: スケーリングされた本番環境向けの料金は、数週間以内に発表される見込みです。

情報元: ITmedia AI+ (2025年3月26日記事)