Oi, sou eu de novo. Duas vezes na mesma semana? É.

Recebi um monte de feedback da última edição. Muita gente mandou mensagem dizendo que mudou o jeito de usar IA depois de ler aquilo sobre perguntas. Fico feliz, de verdade.

Mas essa semana aconteceu uma coisa que me fez querer escrever de novo. Eu tô implantando os squads de IA em alguns clientes e os agentes consomem tokens. Muitos tokens. E o Matheus, meu sócio na Método, veio me perguntar: Dante, como faz pra otimizar isso? Porque os agentes nunca param. Eles tão rodando 24 horas, consumindo token o tempo inteiro. 

Como é que a gente controla esse custo sem perder a qualidade do que tá sendo entregue?

E essa pergunta é boa demais pra ficar só entre a gente.

Então hoje eu quero te chamar pra tomar um cappuccino italiano comigo e abrir essa engrenagem. Junho tá chegando, daqui a pouco é festa junina, quentão, chá de amendoim. Mas por enquanto ainda dá tempo de um cappuccino.

Pega o teu e vem comigo.

A pergunta de hoje é simples: existe uma forma certa de usar IA?

Vamos pelo básico. Pra maioria das pessoas, usar IA em 2026 funciona assim: abre o ChatGPT ou o Claude, digita uma pergunta, recebe uma resposta. 

E tá tudo bem com isso. Se você usa IA pra tirar dúvida, pedir explicação, organizar uma ideia, você já tá na frente de muita gente que ainda não abriu nenhuma dessas ferramentas.

Só que quando eu converso com as pessoas sobre IA no dia a dia, percebo que a maioria parou aí. No chat. Na pergunta e resposta. E a ferramenta faz muito mais que isso.

Eu vejo o uso de IA em camadas.

A primeira é o chat. 

Pergunta e resposta. Abre, pergunta, recebe, fecha.

A segunda é quando você começa a dar contexto. 

Explica a situação, diz o que quer, o que não quer, mostra exemplo, itera. A qualidade do retorno muda completamente. Falei sobre isso na edição passada e o pessoal ficou impressionado com a diferença.

A terceira é quando a IA sai do chat e entra no sistema. 

Plugada no ERP, no CRM, na plataforma. Resolvendo demandas que antes precisavam de um profissional sênior olhando o dia inteiro. Conferir pedido, cruzar dado tributário, monitorar regra de frete, classificar ticket. 

É o nível dos squads que eu tô construindo nos clientes. Cada agente analisa um volume de informação que nenhum time humano consegue acompanhar na mesma velocidade. E faz isso 24 horas, em paralelo, sem supervisão. Quando o gestor abre o computador de manhã, tá tudo conferido.

Cada camada custa diferente. E o custo não é só dinheiro.

Na primeira, você paga $20 por mês no plano Pro e tá resolvido. 

Na segunda, o custo é tempo e prática. Você precisa aprender a fazer perguntas melhores. Precisa de repertório. Mas o retorno compensa cada hora investida.

Na terceira, o buraco é mais embaixo. Quando você coloca agentes de IA pra resolver gargalos dentro do seu negócio, você precisa de API, tokens, integração com sistema, monitoramento. 

O Claude Opus 4.6 custa $5 por milhão de tokens de input e $25 de output. Parece pouco até você colocar um squad inteiro pra rodar 24 horas conferindo pedido, cruzando dado e monitorando processo. O volume diário é alto. E a conta chega.

E tá acontecendo uma coisa no mercado que eu quero te contar.

A Anthropic lançou o Opus 4.7 em abril com o mesmo preço do 4.6. Só que o modelo novo tem um tokenizador que gera até 35% mais tokens pro mesmo texto. O preço por token ficou igual. Mas o número de tokens que você gasta pra fazer a mesma tarefa aumentou. Ficou mais caro e ninguém fez comunicado sobre isso.

O Claude Code tá consumindo cerca de 40% mais tokens nas versões recentes. Os devs perceberam. Correção pública até agora, nenhuma.

Faz parte de um cenário maior. As Big Techs vão gastar $700 bilhões em infraestrutura de IA esse ano. GPU, data center, energia elétrica. Rodar esses modelos custa uma fortuna e esse custo tá sendo repassado pra quem usa.

Agora, quem presta atenção nessa engrenagem também encontra onde economizar.

Prompt caching. Se você manda o mesmo contexto repetido várias vezes, dá pra cachear esse input e o custo cai 90%.

Batch API. Tarefa que não precisa de resposta imediata vai num lote assíncrono e paga metade.

Modelo certo pra tarefa certa. Haiku pra coisa simples: $1 por milhão de tokens. Opus pra coisa complexa: $5. Quem usa Opus pra tudo paga 5x mais em tarefa que não precisa.

Combinando caching com batch, a economia chega a 95%. Essa informação tá disponível pra qualquer pessoa mas quase ninguém vai atrás porque parece técnico demais.

Voltando pra pergunta do início.

Eu acho que a resposta é: existe consciência de como a ferramenta funciona. Saber de onde o custo vem, como extrair mais gastando menos e quando vale o modelo pesado.

A maioria tá usando IA como quem liga um carro sem olhar pro painel. Anda, funciona, leva de um ponto a outro. Mas não sabe quanto combustível tá gastando e se tem um caminho melhor pro mesmo destino.

Essa edição é um convite pra abrir o capô. Porque quando você entende o que tá rodando por baixo, o jeito que você usa muda. E aí a pergunta deixa de ser "eu tô usando certo?" e passa a ser "como eu uso melhor?"

Essa segunda pergunta é muito mais interessante.

Até a próxima. E fique longe dos perigosos de sexta à noite.

Dante Araújo

Reply

Avatar

or to participate

Continue lendo