Google planeja unificar modelos de IA Gemini e Veo, aponta CEO da DeepMind

Visão de longo prazo mira em uma IA multimodal unificada capaz de processar texto, imagem, áudio e vídeo, revela Demis Hassabis

Google planeja unificar modelos de IA Gemini e Veo, aponta CEO da DeepMind
O objetivo seria desenvolver um único e robusto modelo de IA multimodal. Créditos: Reprodução/Gemini.

Para profissionais atentos às evoluções em Inteligência Artificial (IA), os modelos Gemini (multimodal, abrangendo texto, imagem, áudio e código) e Veo (especializado em geração de vídeo) do Google são referências importantes.

Agora, a gigante da tecnologia sinaliza um plano ambicioso: a eventual unificação desses modelos em uma única plataforma de IA.

A informação foi compartilhada por Demis Hassabis, CEO da Google DeepMind, durante sua participação na recente conferência TED, conforme reportado pelo TechCrunch.

Hassabis delineou a visão de longo prazo da empresa para convergir as capacidades distintas do Gemini e do Veo em um único e mais poderoso modelo de IA.

LEIA TAMBÉM: IA acessível: como a queda de preços impacta quem vive de SEO, tráfego e conteúdo online

Desafios Técnicos Atuais

A separação atual entre Gemini e Veo não é arbitrária. De acordo com Hassabis, a razão reside na complexidade técnica inerente.

Os modelos utilizam arquiteturas distintas e foram treinados com conjuntos de dados otimizados para suas respectivas especialidades.

Integrar a geração de vídeo (Veo) com as diversas modalidades do Gemini exige superar barreiras significativas no design e treinamento de algoritmos.

"Você pode pensar neles como sendo construídos sobre arquiteturas de modelos diferentes", explicou Hassabis. "Eventualmente, teremos modelos unificados."

LEIA TAMBÉM: IA vai acabar com o SEO? Google esclarece a polêmica

A Visão de um Modelo Multimodal Unificado

Apesar dos desafios, a meta estratégica do Google é clara: desenvolver um único e robusto modelo de IA multimodal.

Este modelo ideal seria capaz de compreender, processar e gerar conteúdo de forma integrada através de texto, imagens, áudio, vídeo e código – essencialmente, um sistema que espelha a forma como os humanos processam informações sensoriais diversas.

Hassabis traçou um paralelo com o cérebro humano, que integra naturalmente diferentes tipos de entrada sensorial.

O objetivo final é replicar essa fluidez e capacidade de conexão intermodal na IA do Google.

Implicações para o Ecossistema Digital e de IA

A eventual unificação desses modelos de IA tem o potencial de gerar impactos significativos em diversas áreas:

  • Criação de Conteúdo: Poderá simplificar e potencializar a produção de conteúdo rico e variado, combinando diferentes formatos de mídia de maneira mais fluida.
  • Experiência do Usuário: Pode levar a interações mais naturais e intuitivas em sites, aplicativos e interfaces digitais.
  • SEO e Descoberta de Conteúdo: A forma como os algoritmos (incluindo os de busca) interpretam e classificam conteúdo multimodal pode evoluir substancialmente.
  • Inovação em Aplicações: Abre caminho para novas categorias de ferramentas e serviços baseados em IA que aproveitem a sinergia entre diferentes modalidades.

Um Horizonte de Longo Prazo

Contudo, é crucial notar que Hassabis descreveu essa fusão como uma "visão de longo prazo".

A palavra "eventualmente" foi utilizada, indicando que o desenvolvimento e a integração dessas tecnologias complexas demandarão tempo e pesquisa contínua.

Não foi estabelecido um cronograma específico para essa unificação.

A fusão prospectiva do Gemini e do Veo, embora não iminente, representa um marco significativo na evolução da Inteligência Artificial e sinaliza futuras transformações na interação digital.

Para empresas e profissionais que dependem do ecossistema digital – incluindo otimização para motores de busca (SEO), desenvolvimento de sites e estratégias de monetização –, acompanhar essa evolução dos algoritmos e capacidades da IA é fundamental.