Um novo modelo de voz da AI definiu a internet agitada, com reações oscilando entre reverência e desconforto. Sesame AI’s Modelo de fala conversacional (CSM) não soa apenas humano – it sentimentos humano. Os usuários descrevem interações prolongadas e quase emocionais com as vozes geradas pela IA, que exibem sons de respiração, hesitações, correções e até risadas. Para alguns, é uma maravilha tecnológica. Para outros, é um vislumbre de um futuro que parece desconfortavelmente próximo.
Gergelim ai: uma voz que parece viva
A inovação central por trás do CSM da Sesame reside em sua capacidade de simular conversas naturais e dinâmicas. Ao contrário dos sistemas tradicionais de texto para fala que simplesmente lêem em voz alta, o CSM ativamente envolve. Ele tropeça em palavras, se corrige e modula o tom de uma maneira que imita a imprevisibilidade humana real.
Quando um testador conversou com o modelo por 28 minutos, eles observaram sua capacidade de debater tópicos morais, reagindo naturalmente a instruções como, “Como você decide o que é certo ou errado?” Outros se viram sem querer, formando anexos, com um Reddit Usuário admitindo, “Estou quase um pouco preocupado por começar a me sentir emocionalmente apegado a um assistente de voz com esse nível de som humano”.
Os assistentes de IA da Vila Sésamo, apelidados de “Miles” e “Maya”, são projetados não apenas para recuperação de informações, mas para conversas profundas e envolventes. A empresa descreve seu objetivo como alcançar “Presença de voz” – a qualidade mágica que faz as interações faladas se sentirem reais, compreendidas e valorizadas.
Esse realismo às vezes leva a peculiaridades estranhas humanas. Em uma demonstração viral, a IA mencionou casualmente desejando um Sanduíche de manteiga de amendoim e picles– Um comentário bizarramente específico que apenas aumentou a ilusão de personalidade.
A tecnologia por trás da voz
Então, como o CSM da Sesame obtém conversas tão estranhamente realistas?
- Uma abordagem multimodal: Diferentemente dos modelos convencionais de fala da IA que processam o texto e o áudio separadamente, o sistema da Vila Sésamo intercalados eles. Esse processamento de estágio único permite um discurso mais fluido e com reconhecimento de contexto.
- Treinamento de alto parâmetro: A maior versão do modelo é executada 8,3 bilhões de parâmetros e foi treinado um milhão de horas de diálogo falado.
- Influência de Meta: A arquitetura do modelo se baseia em meta Lhama Framework, integrando um modelo de backbone com um decodificador para geração de fala diferenciada.
Testes cegos revelaram que, em amostras de fala isoladas, os avaliadores humanos não podiam distinguir de forma confiável as vozes da AI da gergelim das reais. No entanto, quando colocado em contexto de conversação total, a fala humana ainda venceu – sugerir a IA ainda não dominou toda a complexidade do diálogo interativo.
Uma recepção mista
Nem todo mundo está emocionado com o quão humano essa IA soa.
O jornalista de tecnologia Mark Hachman descreveu sua experiência com o modelo de voz como “Profundamente inquietante.” Ele comparou a conversar com um velho amigo que ele não via há anos, observando que a voz da IA tinha uma semelhança estranha com alguém que ele namorou uma vez.
Outros compararam o modelo de gergelim ao OpenAi Modo de voz avançado para o chatgpt, com alguns preferindo o realismo e a vontade de gergel nervoso Cenários – algo que os modelos do Openai tendem a evitar.
Uma demonstração particularmente impressionante mostrou a IA discutindo com um “chefe” sobre um escândalo de peculato. A conversa foi tão dinâmica que os ouvintes lutavam para determinar qual falante era o humano e qual era a IA.
Os riscos de uma voz perfeita
Como em todos os avanços da IA, a síntese de voz hiper-realista traz tanto a promessa quanto o perigo.
- Fraude e golpes: Com as vozes da IA agora indistinguíveis da fala humana, os golpes de phishing de voz podem se tornar distante mais convincente. Os criminosos podem se passar por membros da família, executivos corporativos ou funcionários do governo com precisão quase perfeita.
- Engenharia Social: Diferentemente dos robocalls básicos, o engano movido a IA poderia adaptar em tempo realrespondendo naturalmente a perguntas e suspeitas.
- Impacto emocional não intencional: Alguns usuários relataram seus filhos formando anexos às vozes da IA. Um dos pais observou que o garoto de 4 anos chorou depois de ter sido negado uma conversa adicional com o modelo.
Enquanto o CSM da Vila Sesame faz não Clone Vozes reais, a possibilidade de projetos de código aberto semelhantes emergentes continuam sendo uma preocupação. O Openai já atrasou a liberação mais ampla de sua tecnologia de voz sobre os temores de uso indevido.
O que vem a seguir?
A IA da Sesame planeja os principais componentes de sua pesquisa sob a licença Apache 2.0, permitindo que os desenvolvedores desenvolvam seu trabalho. O roteiro da empresa inclui:
- Dimensionar o tamanho do modelo aumentar ainda mais o realismo.
- Expandindo para mais de 20 idiomasampliando seu alcance de conversação.
- Desenvolvendo modelos “totalmente duplex”permitindo conversas verdadeiras com capacidade para interrupções.
Por enquanto, a demonstração permanece disponível no gergelim site– Embora a demanda já tenha dominado seus servidores às vezes. Se você acha surpreendente ou perturbador, uma coisa é clara: os dias de vozes robóticas e monótonas de IA acabaram.
A partir daqui, você pode nunca ter certeza Com quem – ou o que – você está falando.
Crédito da imagem em destaque: Kerem Gülen/Imagen 3