Google tem lançado Um novo recurso em sua API de Gemini chamada “Cache implícita”, que a empresa afirma que pode reduzir os custos em 75% para desenvolvedores de terceiros usando seus mais recentes modelos de IA, Gemini 2.5 Pro e 2.5 Flash.
O recurso permite automaticamente a economia de custos quando uma solicitação de API Gemini para um modelo atinge um cache, eliminando a necessidade de configuração manual exigida pelo método de cache explícito anterior. De acordo com o Google, o cache implícito é acionado quando uma solicitação compartilha um prefixo comum com uma solicitação anterior, e a contagem mínima de token de prompt necessária é de 1.024 para 2,5 flash e 2.048 para 2,5 Pro.
Logan Kilpatrick, um membro da equipe de Gemini, anunciado O lançamento em 8 de maio de 2025, afirmando que o recurso pode proporcionar uma economia significativa de custos para os desenvolvedores. O Google recomenda que os desenvolvedores colocem o contexto repetitivo no início das solicitações e anexem a mudança de contexto no final para aumentar as chances de acertos de cache implícitos.
O cache é uma prática amplamente adotada no setor de IA que reutiliza dados frequentemente acessados ou pré-computados para reduzir os requisitos e custos de computação. O método de cache explícito anterior do Google exigia que os desenvolvedores definissem instruções de alta frequência manualmente, o que geralmente resultou em trabalho extra e às vezes surpreendentemente grandes contas de API para alguns usuários.
Alguns desenvolvedores haviam expressado insatisfação com a implementação explícita de cache do Gemini 2.5 Pro, levando a equipe de Gemini a pedir desculpas e se comprometer a fazer alterações. O novo recurso de cache implícito aborda essas preocupações, automatizando o processo de cache e transmitindo economia de custos aos desenvolvedores quando ocorre um acerto de cache.
Embora o Google afirme que o cache implícito pode proporcionar uma economia de custos de 75%, a empresa não forneceu verificação de terceiros da eficácia do recurso. Como tal, a economia de custos real pode variar dependendo de como os desenvolvedores usam o recurso.