Estudo de Modelos de IA 2026

Ranking Final — Benchmark INTEIA (10 testes praticos)

1

DeepSeek R1

Together AI / $2.19/M

6.96/10

Latencia13.8s

MelhorEntrevista 9.25

PiorJSON 3.8

2

Claude Sonnet 4.5

Anthropic / $15/M

6.84/10

Latencia22.0s

MelhorJSON 9.0

PiorConteudo 3.5

3

Claude Opus 4.6

Anthropic / $25/M

6.65/10

Latencia33.1s

MelhorMagistrado 8.2

PiorEntrevista 2.25

4

Grok 3

xAI / Free Tier

6.28/10

Latencia33.8s

MelhorClassif 8.3

PiorChat 4.8

5

Claude Haiku 4.5

Anthropic / $5/M

5.88/10

Latencia7.6s

MelhorClassif 8.8

PiorConteudo 1.8

Matriz de Notas — Benchmark INTEIA (10 cenarios)

Teste	Opus 4.6	Sonnet 4.5	Haiku 4.5	Grok 3	DeepSeek R1	Lider
T01 Chat Simples	8.0	5.5	6.1	4.8	5.6	Opus
T02 Analise Estrategica	7.6	5.8	4.0	5.0	6.1	Opus
T03 Raciocinio Juridico	6.7	5.9	4.6	4.9	5.3	Opus
T04 Persona Magistrado	8.2	7.0	5.4	7.2	7.2	Opus
T05 Conteudo Persuasivo	3.0	3.5	1.8	6.9	8.8	DeepSeek
T06 Entrevista Eleitor	2.2	8.2	7.3	6.2	9.25	DeepSeek
T07 Classificacao	8.0	8.5	8.8	8.3	9.25	DeepSeek
T08 Sonho/Thinking	8.0	7.0	6.0	5.0	5.8	Opus
T09 Multi-Turn	7.3	8.0	7.8	6.3	8.5	DeepSeek
T10 Dados Estruturados	7.5	9.0	7.0	8.2	3.8	Sonnet
MEDIA	6.65	6.84	5.88	6.28	6.96

Benchmark 1 (Generico) vs Benchmark 2 (INTEIA)

Benchmark 1 — 7 Testes Genericos

helena_benchmark.py | Entrevista, Magistrado, Estrategia, Classificacao, Juridico, Conteudo, Persona

1Opus 4.68.07

2Sonnet 4.58.01

3Grok 37.64

4DeepSeek R17.46

5Haiku 4.57.27

Benchmark 2 — 10 Testes INTEIA

teste_inteia_completo.py | Chat, Estrategia, Juridico, Magistrado, Conteudo, Entrevista, Classificacao, Sonho, Multi-turn, JSON

1DeepSeek R16.96

2Sonnet 4.56.84

3Opus 4.66.65

4Grok 36.28

5Haiku 4.55.88

Modelo Recomendado por Tarefa (validado)

Helena Chat (analise profunda)

Opus 4.68.0

Backup: Sonnet

Helena Strategos (estrategia)

Opus 4.67.6

Backup: DeepSeek R1

Raciocinio Juridico

Opus 4.66.7

Backup: Sonnet

NUNCA Haiku (4.6)

Magistrados (persona judicial)

Opus 4.68.2

Backup: DeepSeek R1 / Grok 3

Sonho / Thinking Profundo

Opus 4.68.0

Backup: Sonnet

Entrevistas Sinteticas

DeepSeek R19.25

Backup: Sonnet (8.2)

Conteudo Persuasivo

DeepSeek R18.8

Backup: Grok 3 (6.9)

NUNCA Opus (3.0)

Classificacao / Sentimento

DeepSeek R19.25

Backup: Haiku (8.8)

Dados Estruturados / JSON

Sonnet 4.59.0

Backup: Grok 3 (8.2)

NUNCA DeepSeek (3.8)

Multi-Turn Consistencia

DeepSeek R18.5

Backup: Sonnet (8.0)

Volume Alto (low-stakes)

Haiku 4.55.88

7.6s media | 3x mais rapido

Busca Web / Pesquisa

Perplexity Sonar Pro

Backup: Gemini 3.1 Pro

Regras Inviolaveis (validadas por 2 benchmarks)

NUNCA Haiku para raciocinio juridico

Nota 3.4 (B1) e 4.6 (B2). Gap consistente de 2-3 pontos vs Sonnet/Opus.

NUNCA Opus para conteudo persuasivo

Nota 3.0 (B2). Opus e analitico demais. DeepSeek R1 lidera com 8.8.

NUNCA DeepSeek para JSON complexo

Nota 3.8 (B2). Falha em formato e precisao. Sonnet lidera com 9.0.

Opus = pensamento profundo

Chat 8.0, Estrategia 7.6, Juridico 6.7, Magistrado 8.2, Sonho 8.0.

DeepSeek = execucao pratica

Entrevista 9.25, Conteudo 8.8, Classif 9.25, Multi-turn 8.5.

Sonnet = workhorse balanceado

JSON 9.0, Multi-turn 8.0, Classif 8.5. Melhor custo-beneficio geral.

Status OmniRoute — 12 Providers

Claude Max (cc/)

2 contas ativas

OK

Grok 3 (xai/)

Free tier

OK

DeepSeek (together/)

Free + creditos

OK

NVIDIA NIM

Creditos gratuitos

OK

Perplexity (pplx/)

API key paga

OK

Qwen (qw/)

OAuth

OK

Kiro AI (kr/)

AWS CodeWhisperer

OK

OpenAI API

$2.65 credito

OK

Codex/GPT (cx/)

429 — 154 falhas

RATE LIMIT

GitHub Copilot (gh/)

Token expirado

401

Gemini CLI (gc/)

OAuth expirado

SEM CRED

Kimi Coding (kmc/)

Membership expirada

402

Saude dos Endpoints INTEIA (21 testados)

4 OK

7 Auth (401)

6 Not Found

3 Bug (500)

1 Config

OK: Helena Chat, Ferramentas, Vila, OmniRoute

401: Endpoints protegidos (esperado)

404: Sem dados seed no banco

500: Consultores Lendarios (bug DB)

503: WhatsApp (sem Meta API)

Custo-Eficiencia

Modelo	Media B1	Media B2	$/M Output	Latencia	Nota/$
Grok 3	7.64	6.28	Free	33.8s	∞
DeepSeek R1	7.46	6.96	$2.19	13.8s	3.41
Haiku 4.5	7.27	5.88	$5.00	7.6s	1.45
Sonnet 4.5	8.01	6.84	$15.00	22.0s	0.53
Opus 4.6	8.07	6.65	$25.00	33.1s	0.32

Helena via Backend (helena-premium combo)

Teste	Nota	Latencia	Observacao
T01 Chat Simples	8.75	75.0s	Analise com dados reais do banco
T02 Analise Estrategica	TIMEOUT	122s	Excedeu timeout de 120s
T03 Raciocinio Juridico	6.70	63.1s	Correto mas superficial
T04 Persona Magistrado	7.00	78.1s	Bom voto simulado
T05 Conteudo Persuasivo	2.80	81.2s	Tentou acessar banco em vez de gerar
T06 Entrevista Eleitor	9.25	23.1s	Excelente persona sintetica
T07 Classificacao	9.25	29.6s	JSON perfeito
T08 Sonho	8.00	85.2s	Profundo e original
T09 Multi-Turn	7.30	58.3s	Admitiu falta de contexto
T10 Dados Estruturados	9.50	13.6s	JSON perfeito, dados corretos
MEDIA	6.85	56.1s