O CEO do Google DeepMind, Demis Hassabis, revelou planos de fundir a AI da empresa com seu gerador de vídeo Veo, com o objetivo de ensinar a IA mais sobre o mundo físico, durante uma aparição recente no Possível podcast.
Hassabis explicou que a estratégia está alinhada com sua visão para um “assistente digital universal” capaz de ajudar os usuários em cenários do mundo real. “Sempre construímos Gemini, nosso modelo de fundação, para ser multimodal desde o início”, afirmou ele no podcast co-organizado por Reid Hoffman.
Esse movimento reflete uma mudança mais ampla da indústria em direção a modelos versáteis “Omni”. As mais recentes versões de gêmeos do Google já lidam criação de imagem no chatgpt e na Amazon pretende Para iniciar um modelo “qualquer qualquer coisa”.
O desenvolvimento desses modelos abrangentes exige vastos conjuntos de dados que abrangem vídeos, imagens, áudio e texto. Hassabis deu a entender que os dados de vídeo que alimentam o VEO se originam amplamente no YouTube, uma plataforma de propriedade do Google.
Ele elaborou que, ao processar um extenso conteúdo do YouTube, a Veo aprende sobre a física do mundo real. ““[Veo 2] Pode descobrir, você sabe, a física do mundo ”, comentou Hassabis sobre o modelo assistindo a“ muitos vídeos do YouTube ”.
Google reconheceu anteriormente TechCrunch Seus modelos “podem ser” treinados em “algum” conteúdo do YouTube, consistente com acordos com os criadores. Os relatórios sugerem que o Google atualizou seus Termos de Serviço no ano passado, potencialmente expandindo o acesso a dados para fins de treinamento de IA.