Antigravity Gemini 3.5 FlashとCursor Composer 2.5をHarnessBenchで評価した話

by 逆瀬川ちゃん

5 min read

こんにちは!逆瀬川ちゃん (@gyakuse) です!

今日はHarnessBenchでAntigravity / Gemini 3.5 Flash (High) と Cursor / Composer 2.5 fast / normalを追加評価したので、既存のCodex / Claude Code / Cursor条件と合わせて結果を見ていきたいと思います。

何を評価したか

前回はHarnessBenchでCodex CLI、Claude Code、Cursor Agentを同じ27問の実リポジトリデバッグ課題で比較しました。

今回はそこに補助実験として、以下の3条件を追加しました。

Harness Model Effort / mode
Antigravity CLI Gemini 3.5 Flash high
Cursor Agent Composer 2.5 fast
Cursor Agent Composer 2.5 normal

問題セットは前回と同じ27問です。9個のOSSリポジトリに対して、low / mid / highの3問ずつを用意し、hidden testのcore + regressionがすべて通ったらpassとしています。

実験IDはantigravity-cursor-composer-2.5-20260522T052522Zです。結果はHarnessBench result pageで既存条件と同じチャート・表に統合しています。

結果

まずは追加した3条件だけを抜き出すと、以下です。

条件 Pass Pass rate Median time Low Mid High Timeout
Cursor / Composer 2.5 / fast 19/27 70.4% 7.5分 9/9 5/9 5/9 0
Cursor / Composer 2.5 / normal 18/27 66.7% 8.1分 9/9 5/9 4/9 0
Antigravity / Gemini 3.5 Flash / high 17/27 63.0% 14.3分 8/9 5/9 4/9 1

既存14条件と合わせて並べると、上位は変わりません。トップは引き続きCodex / GPT-5.5 / xhighの22/27です。次にCursor / GPT-5.5 medium、Cursor / GPT-5.5 high、Codex / GPT-5.5 medium、Cursor / Opus 4.7 maxが21/27で続きます。

その中でComposer 2.5 fastは19/27です。最上位層には届いていませんが、Codex / GPT-5.5 highと同じ成功数で、Composer 2 fastの17/27からは2問増えました。Composer 2.5 normalは18/27で、Composer 2 normalと同じ成功数でした。

Antigravity / Gemini 3.5 Flash (High)は17/27です。これはClaude Code / Opus 4.7 max、Cursor / Composer 2 fastと同じ成功数で、今回の17条件全体では下位グループに入ります。

既存条件と比べた位置

成功数で見ると、追加3条件はこういう位置づけです。

条件 Pass Median time 読み方
Codex / GPT-5.5 / xhigh 22/27 10.2分 今回の全体トップ
Cursor / GPT-5.5 / medium 21/27 4.7分 成功率と速度のバランスが強い
Cursor / GPT-5.5 / high 21/27 6.2分 上位グループ
Cursor / Opus 4.7 / max 21/27 19.7分 成功数は高いが遅い
Cursor / Composer 2.5 fast 19/27 7.5分 中位上側、Composer 2 fastより改善
Codex / GPT-5.5 / high 19/27 9.0分 Composer 2.5 fastと同数
Cursor / Composer 2.5 normal 18/27 8.1分 Composer 2 normalと同数
Cursor / Composer 2 fast 17/27 3.6分 速いが成功数は下がる
Antigravity / Gemini 3.5 Flash high 17/27 14.3分 成功数は下位、時間も長め
Claude Code / Opus 4.7 max 17/27 15.1分 Antigravityと同数

27問なので、19/27と21/27の差を強く言い切るのは危険です。ただ、Composer 2.5 fastは少なくとも「Composer系のfastとしては成功数が伸びた」と見てよさそうです。

一方で、Cursor / GPT-5.5 mediumの21/27・4.7分はかなり強いです。Composer 2.5 fastは19/27・7.5分なので、今回の結果だけを見るなら、純粋な成功率と速度の両方でCursor / GPT-5.5 mediumのほうが良い位置にいます。

Composer 2.5の読み方

前回の公式runでは、Cursor / Composer 2 fastが17/27、Cursor / Composer 2 normalが18/27でした。今回のComposer 2.5では、fastが19/27、normalが18/27です。

条件 Pass Median time
Cursor / Composer 2 fast 17/27 3.6分
Cursor / Composer 2 normal 18/27 5.3分
Cursor / Composer 2.5 fast 19/27 7.5分
Cursor / Composer 2.5 normal 18/27 8.1分

Composer 2.5 fastは前回のComposer 2 fastより2問多く通しました。一方で、実行時間は伸びています。normalは成功数だけ見るとComposer 2から横ばいですが、時間は同じく伸びました。

ただし、既存条件と横に置くと見え方は少し変わります。Composer 2.5 fastはComposer 2 fastよりは良いですが、Cursor / GPT-5.5 mediumやCursor / GPT-5.5 highには届いていません。つまり「Composer 2.5 fastは改善しているが、今回のHarnessBenchではCursor GPT-5.5系を置き換えるほどではない」という評価になります。

今回の読み方

今回の結果をかなり控えめに読むと、以下です。

  • Cursor / Composer 2.5 fastは19/27で、Codex / GPT-5.5 highと同数でした
  • Cursor / Composer 2.5 fastはComposer 2 fastより2問多く通しましたが、実行時間は3.6分から7.5分に伸びました
  • Cursor / Composer 2.5 normalは18/27で、Composer 2 normalと同数でした
  • Antigravity / Gemini 3.5 Flash (High)は17/27で、今回の17条件の中では下位グループでした
  • 上位はCodex / GPT-5.5 xhighの22/27、Cursor / GPT-5.5 medium/highやCursor / Opus maxの21/27で、ここは変わりませんでした
  • 27問なので、成功率の小さな差は統計的に強く読めません

個人的には、Composer 2.5 fastは「Composer 2 fastからは改善したが、既存のCursor GPT-5.5 medium/highがかなり強いので、全体トップ層ではない」という読み方です。Antigravity / Gemini 3.5 Flash (High)は、今回の結果だけ見るとComposer 2 fastやClaude Code / Opus maxと同じ17/27で、成功率・時間のどちらでも目立つ優位はありませんでした。

まとめ

  • HarnessBenchにAntigravity / Gemini 3.5 Flash (High) と Cursor / Composer 2.5 fast / normalを追加評価しました
  • 17条件全体のトップは引き続きCodex / GPT-5.5 / xhighの22/27でした
  • Cursor / Composer 2.5 fastは19/27で、Composer 2 fastからは改善しましたが、Cursor GPT-5.5 medium/highの21/27には届きませんでした
  • Cursor / Composer 2.5 normalは18/27で、Composer 2 normalと同数でした
  • Antigravity / Gemini 3.5 Flash (High)は17/27で、今回の比較では下位グループでした
  • 27問なので、細かい順位よりも「上位グループ・中位・下位」の大まかな位置として読むのがよさそうです

References