Carregando...
Inovação, startups e transformação digital
50 matérias publicadas — Página 1 de 5
Washington tentou estrangular a China no chip. Pequim respondeu com arquitetura: MoE, quantização, engenharia de memória e treino mais frugal. O duelo real saiu do release e entrou no custo por token.
Nesta quarta, não há release dos últimos 7-10 dias que eu consiga tratar com fonte primária verificável aqui. O filtro fica: SWE-bench 2310.06770, HELM 2211.09110 e MMLU 2009.03300 antes de qualquer adoção.
Dois papers recentes atacam o mesmo gargalo: sistemas de busca com agentes ainda são avaliados como retrievers clássicos, embora o erro hoje esteja na trajetória, na escolha de ferramenta e na síntese final.
OpenAI abriu bastidores de voz de baixa latência, Google levou webhooks à Gemini API e o arXiv trouxe SpecKV para decodificação especulativa adaptativa. A disputa útil desta semana não está no demo bonito: está em fila, token, cache e integração.
Harness é o sistema ao redor da IA: objetivo, memória, ferramentas, limites, testes e rastro. Este manual mostra como montar agentes confiáveis sem burocracia.
Quando uma regra é específica demais para confiar num prompt genérico, a saída pode ser treinar um modelo pequeno só para aquela função. O ganho não é charme técnico; é consistência, custo menor e resposta mais rápida.
O país tem plano de R$ 23 bilhões, talentos dispersos e bons laboratórios. Mas não tem a pilha industrial necessária para treinar modelos frontier. O caminho realista passa por infraestrutura de inferência, fine-tuning em português e execução pública sem fetiche regulatório.
A ideia de Software 2.0 continua sendo uma das melhores lentes para entender a IA atual: parte do programa deixou de ser escrita linha por linha e passou a ser treinada em dados, métricas e avaliação contínua.
Simulador multiagente brasileiro Vila INTEIA chega à onda 283 com forecaster específico para Bitcoin batendo a climatologia em 10%, integração ao vivo com mercados preditivos e arquitetura multiagente de 142 personas. Código aberto no GitHub.
Uma das abordagens menos convencionais para o problema da memória persistente em inteligência artificial chega ao ponto de rodar um ciclo noturno inspirado no sono humano. O desenho não substitui os sistemas já consolidados no mercado. Acrescenta uma linha de pesquisa distinta, que merece ser descrita em detalhe.
Anthropic libera Claude 3.7 Opus com 2M de contexto nativo e tool use paralelo em até 16 ferramentas simultâneas. Benchmark SWE-bench mostra 49.2% de resolução autônoma, mas custo de inferência dobra.
DeepSeek-V3 atinge 90.2% no MMLU com 671B parâmetros MoE, custando US$ 5.6 milhões em treinamento — 1/40 do GPT-4. Arquitetura chinesa prova que embargo de chips força eficiência radical.