Metodologia — Mirante News

O Mirante News opera com um pipeline editorial de 6 agentes de IA especializados, orquestrados via LangGraph. Cada etapa é rastreável, cada score é público, e a supervisão humana é obrigatória antes da publicação.

1. Curadoria automática

O agente Curador monitora feeds RSS a cada 15 minutos, classificando temas por editoria e relevância para o Distrito Federal. As pautas selecionadas são enfileiradas via PGMQ (fila durável no PostgreSQL) para processamento sequencial. O modelo utilizado é Sonnet 4.6 via OmniRoute.

2. Pesquisa e enriquecimento

O agente Pesquisador realiza deep research sobre cada pauta: cruza múltiplas fontes, coleta dados públicos, identifica o ângulo exclusivo da matéria e compila um dossiê estruturado que alimenta o Redator.

3. Redação com acentuação perfeita

O agente Redator produz a matéria completa com mínimo de 500 palavras, citação obrigatória de fontes e acentuação portuguesa perfeita (UTF-8). O output é um arquivo MDX com frontmatter padronizado, pronto para publicação no Next.js.

4. Verificação de fatos

O agente Fact-Checker verifica cada afirmação contra as fontes originais e atribui um score de confiabilidade de 0 a 100. Matérias com score abaixo de 60 são reprovadas automaticamente e devolvidas para reescrita. O score é exibido publicamente ao leitor.

5. Revisão editorial

O agente Editor realiza a revisão final: ajusta tom, melhora clareza, incorpora correções do fact-checker e gera o confidence score da matéria. A supervisão humana é obrigatória nesta etapa — nenhuma matéria é publicada sem aprovação.

6. Otimização SEO automática

O agente SEO Optimizer gera title tag, meta description, slug otimizado, FAQ estruturada e marcação speakable. Cada matéria recebe um score SEO de 0 a 100. Títulos e metas passam por SEO genético — 5 variantes competem com fitness híbrida (regras técnicas + avaliação LLM) ao longo de 3 gerações.

Todos os 6 agentes

Curador → Pesquisador → Redator → Fact-Checker → Editor → SEO Optimizer. Cada etapa gera logs rastreáveis e scores públicos. O pipeline completo leva menos de 15 minutos por matéria.

Evolução genética de matérias

Inspirado no modelo de auto-aprimoramento de Andrej Karpathy, o Mirante aplica algoritmos genéticos à produção editorial. Cada matéria gera até 60 variantes que competem entre si em 5 dimensões de fitness: clareza, factualidade, engajamento, tom editorial e SEO.

O processo usa crossover (combinação dos melhores trechos de duas variantes), mutação (alterações aleatórias controladas) e ELO scoring (sistema de classificação inspirado no xadrez). A variante vencedora é a que acumula maior fitness agregada após todas as rodadas de competição.

Pesquisas sintéticas — 50.000 personas do DF

O motor de simulação do Mirante opera com 50.000 personas digitais, cada uma com 89 atributos demográficos, psicográficos e comportamentais, distribuídas pelas 33 Regiões Administrativas do Distrito Federal.

Os dados são baseados em fontes oficiais verificadas:

IBGE Censo 2022 — população, raça/cor, escolaridade, domicílios
PDAD/Codeplan 2024 — renda por RA, transporte, emprego
TSE/TRE-DF 2022 — votos por zona eleitoral, partidos, turnout
PNAD Contínua 2023-2024 — emprego, informalidade, serviço público
DataReportal 2024 — internet, redes sociais, consumo de mídia

Cada persona inclui: localização (RA, zona eleitoral, cluster socioeconômico), idade exata, gênero, raça, estado civil, escolaridade com área de formação, renda individual e domiciliar, ocupação e setor, tipo de moradia, transporte e tempo de deslocamento, plano de saúde e condições crônicas, religião e denominação, orientação política com voto 2022, partido de simpatia, confiança nos três poderes, fontes de notícias por plataforma, traços de personalidade Big Five, e cinco índices compostos (vulnerabilidade, engajamento cívico, inclusão digital, mobilidade social, capital social).

Conselho Editorial Sintético

Além das 50.000 personas populacionais, o sistema inclui um conselho editorial com 16 personalidades — figuras históricas (Machado de Assis, Rui Barbosa, Juscelino Kubitschek, Nelson Rodrigues, Darcy Ribeiro, Assis Chateaubriand) e arquétipos contemporâneos de Brasília (servidor do Planalto, empreendedora de Ceilândia, universitária da UnB, empresário do Lago Sul, pastor de Samambaia, delegada da PCDF, professor do IDP, motorista de app de Planaltina, médica do HRAN, jornalista veterano). Cada personalidade avalia matérias sob sua perspectiva única.

As pesquisas sintéticas são sempre identificadas como tal — nunca apresentadas como pesquisa com pessoas reais. São ferramentas para estimar reações e tendências de opinião com segmentação por 12 dimensões demográficas simultâneas.

Toda peça pública do Mirante distingue com clareza o que é reportagem, análise, simulação sintética ou demonstração tecnológica.

Limitações e vieses conhecidos

Transparência sobre o que o sistema faz bem e o que não faz:

Viés liberal de LLMs: Pesquisas acadêmicas (NeurIPS 2025, Nature 2024) demonstram que modelos de linguagem geram respostas sistematicamente mais progressistas que a população real. No DF, onde 59% votou Bolsonaro, isso pode subestimar o conservadorismo. Mitigação: usamos dados do TSE diretamente nos pesos demográficos.
Não substitui pesquisa real: Pesquisas sintéticas indicam tendências relativas, não valores absolutos. Para saber se a aprovação do governador é 62% ou 58%, é preciso pesquisa real. Para saber que evangélicos de Ceilândia pensam diferente de servidores do Plano Piloto sobre o mesmo tema, o sistema funciona.
Correlações aproximadas: As distribuições condicionais (renda por RA, religião por cluster) são baseadas em dados reais, mas as correlações cruzadas entre todas as 89 variáveis não foram validadas contra microdados individuais do Censo.
Dados de treinamento datados: Os modelos de IA capturam o momento dos seus dados de treinamento, não a opinião corrente. As personas são calibradas pelo Censo 2022, não por pesquisa de 2026.

SEO genético

Além da evolução genética aplicada ao corpo da matéria, o Mirante aplica o mesmo princípio aos metadados de SEO. O agente SEO Optimizer gera 5 variantes de título e meta description, avaliadas por uma função de fitness híbrida que combina regras técnicas (comprimento, palavras-chave, CTR estimado) com avaliação por LLM. As variantes passam por 3 gerações de seleção antes de definir a versão final.

Modelos de inteligência artificial

O pipeline utiliza dois níveis de modelo, ambos acessados via OmniRoute (custo $0):

GPT-5.4-mini — triagem e classificação (tarefas simples: scoring de relevância, classificação de editorias, roteamento)
Sonnet 4.6 — inteligência editorial (todos os 6 agentes do pipeline: curadoria, pesquisa, redação, fact-check, edição, SEO)

Atualização contínua

Esta metodologia evolui à medida que o produto amadurece. Mudanças relevantes em nomenclatura, transparência e governança editorial são refletidas aqui.

Ver política de transparência →

1. Curadoria automática

2. Pesquisa e enriquecimento

3. Redação com acentuação perfeita

4. Verificação de fatos

5. Revisão editorial

6. Otimização SEO automática

Todos os 6 agentes

Curador → Pesquisador → Redator → Fact-Checker → Editor → SEO Optimizer. Cada etapa gera logs rastreáveis e scores públicos. O pipeline completo leva menos de 15 minutos por matéria.

Evolução genética de matérias

Pesquisas sintéticas — 50.000 personas do DF

Os dados são baseados em fontes oficiais verificadas:

IBGE Censo 2022 — população, raça/cor, escolaridade, domicílios
PDAD/Codeplan 2024 — renda por RA, transporte, emprego
TSE/TRE-DF 2022 — votos por zona eleitoral, partidos, turnout
PNAD Contínua 2023-2024 — emprego, informalidade, serviço público
DataReportal 2024 — internet, redes sociais, consumo de mídia

Conselho Editorial Sintético

Toda peça pública do Mirante distingue com clareza o que é reportagem, análise, simulação sintética ou demonstração tecnológica.

Limitações e vieses conhecidos

Transparência sobre o que o sistema faz bem e o que não faz:

Viés liberal de LLMs: Pesquisas acadêmicas (NeurIPS 2025, Nature 2024) demonstram que modelos de linguagem geram respostas sistematicamente mais progressistas que a população real. No DF, onde 59% votou Bolsonaro, isso pode subestimar o conservadorismo. Mitigação: usamos dados do TSE diretamente nos pesos demográficos.
Não substitui pesquisa real: Pesquisas sintéticas indicam tendências relativas, não valores absolutos. Para saber se a aprovação do governador é 62% ou 58%, é preciso pesquisa real. Para saber que evangélicos de Ceilândia pensam diferente de servidores do Plano Piloto sobre o mesmo tema, o sistema funciona.
Correlações aproximadas: As distribuições condicionais (renda por RA, religião por cluster) são baseadas em dados reais, mas as correlações cruzadas entre todas as 89 variáveis não foram validadas contra microdados individuais do Censo.
Dados de treinamento datados: Os modelos de IA capturam o momento dos seus dados de treinamento, não a opinião corrente. As personas são calibradas pelo Censo 2022, não por pesquisa de 2026.

SEO genético

Modelos de inteligência artificial

O pipeline utiliza dois níveis de modelo, ambos acessados via OmniRoute (custo $0):

GPT-5.4-mini — triagem e classificação (tarefas simples: scoring de relevância, classificação de editorias, roteamento)
Sonnet 4.6 — inteligência editorial (todos os 6 agentes do pipeline: curadoria, pesquisa, redação, fact-check, edição, SEO)

Atualização contínua

Esta metodologia evolui à medida que o produto amadurece. Mudanças relevantes em nomenclatura, transparência e governança editorial são refletidas aqui.

Ver política de transparência →

Metodologia editorial e sintética

1. Curadoria automática

2. Pesquisa e enriquecimento

3. Redação com acentuação perfeita

4. Verificação de fatos

5. Revisão editorial

6. Otimização SEO automática

Evolução genética de matérias

Pesquisas sintéticas — 50.000 personas do DF

Limitações e vieses conhecidos

SEO genético

Modelos de inteligência artificial

Atualização contínua

Metodologia editorial e sintética

1. Curadoria automática

2. Pesquisa e enriquecimento

3. Redação com acentuação perfeita

4. Verificação de fatos

5. Revisão editorial

6. Otimização SEO automática

Evolução genética de matérias

Pesquisas sintéticas — 50.000 personas do DF

Limitações e vieses conhecidos

SEO genético

Modelos de inteligência artificial

Atualização contínua