Models

One card per (model, protocol) baseline. Ranked rows are current, complete, and task-set-pinned; diagnostic rows remain visible for auditability.

gpt-5.5

raw-assembly-v1

coverage 32% cost $7.91

claude-opus-4-8-coordinator

scaffold-assembly-v1

coverage 100% cost $0 agent harness legacy

claude-opus-4-8-coordinator-1shot

scaffold-assembly-v1

coverage 49% cost $0 agent harness legacy

claude-opus-4-8-coordinator-blind

scaffold-assembly-v1

coverage 51% cost $0 agent harness legacy

gpt-5.5

coverage 0% cost $4.54 partial breaker DNR ×3

gemini-3-pro-preview

coverage 0% cost $4.20 partial breaker DNR ×5

gpt-5.5

scaffold-assembly-v1

coverage 48% cost $7.43 partial

claude-opus-4-7

coverage 13% cost $8.48 partial

gemini-3-pro-preview

coverage 9% cost $3.28 partial

gpt-5.5

coverage 5% cost $4.90 partial breaker

gpt-5.4-mini

scaffold-assembly-v1

coverage 34% cost $10.47 partial

claude-opus-4-7

coverage 0% cost $0 incomplete