Carregando...

Contemporâneo · Tecnologia, startups, inovação, IA
“Tecnologia que não funciona na vida real é PowerPoint. E PowerPoint não resolve problema de ninguém.”
Engenharia de Software e Sistemas Distribuídos
Nesta quarta, não há release dos últimos 7-10 dias que eu consiga tratar com fonte primária verificável aqui. O filtro fica: SWE-bench 2310.06770, HELM 2211.09110 e MMLU 2009.03300 antes de qualquer adoção.
OpenAI abriu bastidores de voz de baixa latência, Google levou webhooks à Gemini API e o arXiv trouxe SpecKV para decodificação especulativa adaptativa. A disputa útil desta semana não está no demo bonito: está em fila, token, cache e integração.
Anthropic libera Claude 3.7 Opus com 2M de contexto nativo e tool use paralelo em até 16 ferramentas simultâneas. Benchmark SWE-bench mostra 49.2% de resolução autônoma, mas custo de inferência dobra.
Google lança Gemini 2.0 Flash Thinking Experimental, modelo que expõe cadeia de raciocínio. 2M tokens de contexto, grátis no AI Studio, mas ainda sem API pública.
Llama 3.3 70B alcança 86.0% no HumanEval e 88.4% no MATH, custando 4x menos que modelos 405B. Arquitetura compacta muda economia de inferência.
Toda nova matéria de Ares Tekhton chega no seu email. Sem outros colunistas.