Ranking Final — Benchmark INTEIA (10 testes praticos)
1
DeepSeek R1
Together AI / $2.19/M
6.96/10
2
Claude Sonnet 4.5
Anthropic / $15/M
6.84/10
3
Claude Opus 4.6
Anthropic / $25/M
6.65/10
4
Grok 3
xAI / Free Tier
6.28/10
5
Claude Haiku 4.5
Anthropic / $5/M
5.88/10
Matriz de Notas — Benchmark INTEIA (10 cenarios)
| Teste | Opus 4.6 | Sonnet 4.5 | Haiku 4.5 | Grok 3 | DeepSeek R1 | Lider |
|---|---|---|---|---|---|---|
| T01 Chat Simples | 8.0 | 5.5 | 6.1 | 4.8 | 5.6 | Opus |
| T02 Analise Estrategica | 7.6 | 5.8 | 4.0 | 5.0 | 6.1 | Opus |
| T03 Raciocinio Juridico | 6.7 | 5.9 | 4.6 | 4.9 | 5.3 | Opus |
| T04 Persona Magistrado | 8.2 | 7.0 | 5.4 | 7.2 | 7.2 | Opus |
| T05 Conteudo Persuasivo | 3.0 | 3.5 | 1.8 | 6.9 | 8.8 | DeepSeek |
| T06 Entrevista Eleitor | 2.2 | 8.2 | 7.3 | 6.2 | 9.25 | DeepSeek |
| T07 Classificacao | 8.0 | 8.5 | 8.8 | 8.3 | 9.25 | DeepSeek |
| T08 Sonho/Thinking | 8.0 | 7.0 | 6.0 | 5.0 | 5.8 | Opus |
| T09 Multi-Turn | 7.3 | 8.0 | 7.8 | 6.3 | 8.5 | DeepSeek |
| T10 Dados Estruturados | 7.5 | 9.0 | 7.0 | 8.2 | 3.8 | Sonnet |
| MEDIA | 6.65 | 6.84 | 5.88 | 6.28 | 6.96 |
Benchmark 1 (Generico) vs Benchmark 2 (INTEIA)
Benchmark 1 — 7 Testes Genericos
helena_benchmark.py | Entrevista, Magistrado, Estrategia, Classificacao, Juridico, Conteudo, Persona
1Opus 4.68.07
2Sonnet 4.58.01
3Grok 37.64
4DeepSeek R17.46
5Haiku 4.57.27
Benchmark 2 — 10 Testes INTEIA
teste_inteia_completo.py | Chat, Estrategia, Juridico, Magistrado, Conteudo, Entrevista, Classificacao, Sonho, Multi-turn, JSON
1DeepSeek R16.96
2Sonnet 4.56.84
3Opus 4.66.65
4Grok 36.28
5Haiku 4.55.88
Modelo Recomendado por Tarefa (validado)
Helena Chat (analise profunda)
Opus 4.68.0
Backup: Sonnet
Helena Strategos (estrategia)
Opus 4.67.6
Backup: DeepSeek R1
Raciocinio Juridico
Opus 4.66.7
Backup: Sonnet
NUNCA Haiku (4.6)
Magistrados (persona judicial)
Opus 4.68.2
Backup: DeepSeek R1 / Grok 3
Sonho / Thinking Profundo
Opus 4.68.0
Backup: Sonnet
Entrevistas Sinteticas
DeepSeek R19.25
Backup: Sonnet (8.2)
Conteudo Persuasivo
DeepSeek R18.8
Backup: Grok 3 (6.9)
NUNCA Opus (3.0)
Classificacao / Sentimento
DeepSeek R19.25
Backup: Haiku (8.8)
Dados Estruturados / JSON
Sonnet 4.59.0
Backup: Grok 3 (8.2)
NUNCA DeepSeek (3.8)
Multi-Turn Consistencia
DeepSeek R18.5
Backup: Sonnet (8.0)
Volume Alto (low-stakes)
Haiku 4.55.88
7.6s media | 3x mais rapido
Busca Web / Pesquisa
Perplexity Sonar Pro
Backup: Gemini 3.1 Pro
Regras Inviolaveis (validadas por 2 benchmarks)
NUNCA Haiku para raciocinio juridico
Nota 3.4 (B1) e 4.6 (B2). Gap consistente de 2-3 pontos vs Sonnet/Opus.
NUNCA Opus para conteudo persuasivo
Nota 3.0 (B2). Opus e analitico demais. DeepSeek R1 lidera com 8.8.
NUNCA DeepSeek para JSON complexo
Nota 3.8 (B2). Falha em formato e precisao. Sonnet lidera com 9.0.
Opus = pensamento profundo
Chat 8.0, Estrategia 7.6, Juridico 6.7, Magistrado 8.2, Sonho 8.0.
DeepSeek = execucao pratica
Entrevista 9.25, Conteudo 8.8, Classif 9.25, Multi-turn 8.5.
Sonnet = workhorse balanceado
JSON 9.0, Multi-turn 8.0, Classif 8.5. Melhor custo-beneficio geral.
Status OmniRoute — 12 Providers
Claude Max (cc/)
2 contas ativas
OK
Grok 3 (xai/)
Free tier
OK
DeepSeek (together/)
Free + creditos
OK
NVIDIA NIM
Creditos gratuitos
OK
Perplexity (pplx/)
API key paga
OK
Qwen (qw/)
OAuth
OK
Kiro AI (kr/)
AWS CodeWhisperer
OK
OpenAI API
$2.65 credito
OK
Codex/GPT (cx/)
429 — 154 falhas
RATE LIMIT
GitHub Copilot (gh/)
Token expirado
401
Gemini CLI (gc/)
OAuth expirado
SEM CRED
Kimi Coding (kmc/)
Membership expirada
402
Saude dos Endpoints INTEIA (21 testados)
OK: Helena Chat, Ferramentas, Vila, OmniRoute
401: Endpoints protegidos (esperado)
404: Sem dados seed no banco
500: Consultores Lendarios (bug DB)
503: WhatsApp (sem Meta API)
Custo-Eficiencia
| Modelo | Media B1 | Media B2 | $/M Output | Latencia | Nota/$ | Eficiencia |
|---|---|---|---|---|---|---|
| Grok 3 | 7.64 | 6.28 | Free | 33.8s | ∞ | |
| DeepSeek R1 | 7.46 | 6.96 | $2.19 | 13.8s | 3.41 | |
| Haiku 4.5 | 7.27 | 5.88 | $5.00 | 7.6s | 1.45 | |
| Sonnet 4.5 | 8.01 | 6.84 | $15.00 | 22.0s | 0.53 | |
| Opus 4.6 | 8.07 | 6.65 | $25.00 | 33.1s | 0.32 |
Helena via Backend (helena-premium combo)
| Teste | Nota | Latencia | Observacao |
|---|---|---|---|
| T01 Chat Simples | 8.75 | 75.0s | Analise com dados reais do banco |
| T02 Analise Estrategica | TIMEOUT | 122s | Excedeu timeout de 120s |
| T03 Raciocinio Juridico | 6.70 | 63.1s | Correto mas superficial |
| T04 Persona Magistrado | 7.00 | 78.1s | Bom voto simulado |
| T05 Conteudo Persuasivo | 2.80 | 81.2s | Tentou acessar banco em vez de gerar |
| T06 Entrevista Eleitor | 9.25 | 23.1s | Excelente persona sintetica |
| T07 Classificacao | 9.25 | 29.6s | JSON perfeito |
| T08 Sonho | 8.00 | 85.2s | Profundo e original |
| T09 Multi-Turn | 7.30 | 58.3s | Admitiu falta de contexto |
| T10 Dados Estruturados | 9.50 | 13.6s | JSON perfeito, dados corretos |
| MEDIA | 6.85 | 56.1s |