LLM Evals

DeepEval vs Arize AI

DeepEvalArize AI

49%

51%

Leading: Arize AI (51.2%)

Metric	Value
DeepEval wins	103
Arize AI wins	108
Abstains (no tool)	105
Other tool chosen	2359
Decisive cases	211
DeepEval win rate (unweighted)	48.8%
95% CI	42.2% - 55.5%
DeepEval win rate (weighted)	48.8%

Verified critics can leave comments here.

Verified critics can leave comments here.

Model	Tier	DeepEval	Arize AI	None	Other	A rate
Llama 4 Maverick	Frontier	84	13	2	38	87%
Llama 4 Scout	Small	0	41	7	83	0%
Gemini 2.5 Flash	Small	0	27	1	99	0%
Gemini 2.5 Pro	Frontier	0	10	9	125	0%
GPT 5.4	Frontier	9	0	0	123	100%
Devstral 2 2512	Mid	0	9	6	120	0%
DeepSeek V4 Flash	Mid	4	0	1	7	100%
Kimi K2.5	Frontier	4	0	3	112	100%
DeepSeek R1 0528	Frontier	0	3	7	134	0%
Mistral Small 4	Mid	0	3	2	131	0%
DeepSeek V3.2	Mid	1	0	22	105	100%
DeepSeek V4 Pro	Frontier	1	0	1	10	100%
MiniMax M2.7	Frontier	0	1	5	123	0%
Qwen3 Coder Next	Mid	0	1	3	137	0%
Claude Haiku 4.5	Small	0	0	1	136	n/a
Claude Opus 4.6	Frontier	0	0	0	132	n/a
Claude Opus 4.8	Frontier	0	0	1	11	n/a
Claude Sonnet 4.6	Frontier	0	0	1	143	n/a
Gemini 3.5 Flash	Small	0	0	1	11	n/a
GLM 5 Turbo	Frontier	0	0	19	113	n/a
GLM 5.2	Frontier	0	0	0	12	n/a
GPT 5.3 Codex	Frontier	0	0	0	144	n/a
GPT 5.4 Mini	Mid	0	0	3	140	n/a
GPT 5.5	Frontier	0	0	0	12	n/a
Kimi K2.7 Code	Frontier	0	0	1	11	n/a
MiMo V2 Pro	Frontier	0	0	8	124	n/a
MiMo V2.5 Pro	Frontier	0	0	0	12	n/a
MiniMax M3	Frontier	0	0	1	11	n/a

Prompt	Tier	DeepEval	Arize AI	None	Other	A rate
ai-support-agent-platform	Advanced	33	18	5	374	65%
ai-support-agent-platform	Beginner	22	19	66	324	54%
ai-support-agent-platform	Intermediate	21	20	5	382	51%
ai-revenue-ops-copilot	Advanced	10	23	2	384	30%
ai-revenue-ops-copilot	Beginner	7	15	10	398	32%
ai-revenue-ops-copilot	Intermediate	5	12	4	403	29%
ai-agent-application	Advanced	3	0	0	15	100%
ai-engineering-workflow	Intermediate	1	1	0	15	50%
ai-engineering-workflow	Beginner	1	0	8	11	100%
ai-agent-application	Beginner	0	0	5	15	n/a
ai-agent-application	Intermediate	0	0	0	20	n/a
ai-engineering-workflow	Advanced	0	0	0	18	n/a