Antigravity Gemini 3.5 FlashとCursor Composer 2.5をHarnessBenchで評価した話
by 逆瀬川ちゃん
5 min read
こんにちは!逆瀬川ちゃん (@gyakuse) です!
今日はHarnessBenchでAntigravity / Gemini 3.5 Flash (High) と Cursor / Composer 2.5 fast / normalを追加評価したので、既存のCodex / Claude Code / Cursor条件と合わせて結果を見ていきたいと思います。
何を評価したか
前回はHarnessBenchでCodex CLI、Claude Code、Cursor Agentを同じ27問の実リポジトリデバッグ課題で比較しました。
今回はそこに補助実験として、以下の3条件を追加しました。
| Harness | Model | Effort / mode |
|---|---|---|
| Antigravity CLI | Gemini 3.5 Flash | high |
| Cursor Agent | Composer 2.5 | fast |
| Cursor Agent | Composer 2.5 | normal |
問題セットは前回と同じ27問です。9個のOSSリポジトリに対して、low / mid / highの3問ずつを用意し、hidden testのcore + regressionがすべて通ったらpassとしています。
実験IDはantigravity-cursor-composer-2.5-20260522T052522Zです。結果はHarnessBench result pageで既存条件と同じチャート・表に統合しています。
結果
まずは追加した3条件だけを抜き出すと、以下です。
| 条件 | Pass | Pass rate | Median time | Low | Mid | High | Timeout |
|---|---|---|---|---|---|---|---|
| Cursor / Composer 2.5 / fast | 19/27 | 70.4% | 7.5分 | 9/9 | 5/9 | 5/9 | 0 |
| Cursor / Composer 2.5 / normal | 18/27 | 66.7% | 8.1分 | 9/9 | 5/9 | 4/9 | 0 |
| Antigravity / Gemini 3.5 Flash / high | 17/27 | 63.0% | 14.3分 | 8/9 | 5/9 | 4/9 | 1 |
既存14条件と合わせて並べると、上位は変わりません。トップは引き続きCodex / GPT-5.5 / xhighの22/27です。次にCursor / GPT-5.5 medium、Cursor / GPT-5.5 high、Codex / GPT-5.5 medium、Cursor / Opus 4.7 maxが21/27で続きます。
その中でComposer 2.5 fastは19/27です。最上位層には届いていませんが、Codex / GPT-5.5 highと同じ成功数で、Composer 2 fastの17/27からは2問増えました。Composer 2.5 normalは18/27で、Composer 2 normalと同じ成功数でした。
Antigravity / Gemini 3.5 Flash (High)は17/27です。これはClaude Code / Opus 4.7 max、Cursor / Composer 2 fastと同じ成功数で、今回の17条件全体では下位グループに入ります。
既存条件と比べた位置
成功数で見ると、追加3条件はこういう位置づけです。
| 条件 | Pass | Median time | 読み方 |
|---|---|---|---|
| Codex / GPT-5.5 / xhigh | 22/27 | 10.2分 | 今回の全体トップ |
| Cursor / GPT-5.5 / medium | 21/27 | 4.7分 | 成功率と速度のバランスが強い |
| Cursor / GPT-5.5 / high | 21/27 | 6.2分 | 上位グループ |
| Cursor / Opus 4.7 / max | 21/27 | 19.7分 | 成功数は高いが遅い |
| Cursor / Composer 2.5 fast | 19/27 | 7.5分 | 中位上側、Composer 2 fastより改善 |
| Codex / GPT-5.5 / high | 19/27 | 9.0分 | Composer 2.5 fastと同数 |
| Cursor / Composer 2.5 normal | 18/27 | 8.1分 | Composer 2 normalと同数 |
| Cursor / Composer 2 fast | 17/27 | 3.6分 | 速いが成功数は下がる |
| Antigravity / Gemini 3.5 Flash high | 17/27 | 14.3分 | 成功数は下位、時間も長め |
| Claude Code / Opus 4.7 max | 17/27 | 15.1分 | Antigravityと同数 |
27問なので、19/27と21/27の差を強く言い切るのは危険です。ただ、Composer 2.5 fastは少なくとも「Composer系のfastとしては成功数が伸びた」と見てよさそうです。
一方で、Cursor / GPT-5.5 mediumの21/27・4.7分はかなり強いです。Composer 2.5 fastは19/27・7.5分なので、今回の結果だけを見るなら、純粋な成功率と速度の両方でCursor / GPT-5.5 mediumのほうが良い位置にいます。
Composer 2.5の読み方
前回の公式runでは、Cursor / Composer 2 fastが17/27、Cursor / Composer 2 normalが18/27でした。今回のComposer 2.5では、fastが19/27、normalが18/27です。
| 条件 | Pass | Median time |
|---|---|---|
| Cursor / Composer 2 fast | 17/27 | 3.6分 |
| Cursor / Composer 2 normal | 18/27 | 5.3分 |
| Cursor / Composer 2.5 fast | 19/27 | 7.5分 |
| Cursor / Composer 2.5 normal | 18/27 | 8.1分 |
Composer 2.5 fastは前回のComposer 2 fastより2問多く通しました。一方で、実行時間は伸びています。normalは成功数だけ見るとComposer 2から横ばいですが、時間は同じく伸びました。
ただし、既存条件と横に置くと見え方は少し変わります。Composer 2.5 fastはComposer 2 fastよりは良いですが、Cursor / GPT-5.5 mediumやCursor / GPT-5.5 highには届いていません。つまり「Composer 2.5 fastは改善しているが、今回のHarnessBenchではCursor GPT-5.5系を置き換えるほどではない」という評価になります。
今回の読み方
今回の結果をかなり控えめに読むと、以下です。
- Cursor / Composer 2.5 fastは19/27で、Codex / GPT-5.5 highと同数でした
- Cursor / Composer 2.5 fastはComposer 2 fastより2問多く通しましたが、実行時間は3.6分から7.5分に伸びました
- Cursor / Composer 2.5 normalは18/27で、Composer 2 normalと同数でした
- Antigravity / Gemini 3.5 Flash (High)は17/27で、今回の17条件の中では下位グループでした
- 上位はCodex / GPT-5.5 xhighの22/27、Cursor / GPT-5.5 medium/highやCursor / Opus maxの21/27で、ここは変わりませんでした
- 27問なので、成功率の小さな差は統計的に強く読めません
個人的には、Composer 2.5 fastは「Composer 2 fastからは改善したが、既存のCursor GPT-5.5 medium/highがかなり強いので、全体トップ層ではない」という読み方です。Antigravity / Gemini 3.5 Flash (High)は、今回の結果だけ見るとComposer 2 fastやClaude Code / Opus maxと同じ17/27で、成功率・時間のどちらでも目立つ優位はありませんでした。
まとめ
- HarnessBenchにAntigravity / Gemini 3.5 Flash (High) と Cursor / Composer 2.5 fast / normalを追加評価しました
- 17条件全体のトップは引き続きCodex / GPT-5.5 / xhighの22/27でした
- Cursor / Composer 2.5 fastは19/27で、Composer 2 fastからは改善しましたが、Cursor GPT-5.5 medium/highの21/27には届きませんでした
- Cursor / Composer 2.5 normalは18/27で、Composer 2 normalと同数でした
- Antigravity / Gemini 3.5 Flash (High)は17/27で、今回の比較では下位グループでした
- 27問なので、細かい順位よりも「上位グループ・中位・下位」の大まかな位置として読むのがよさそうです