Robô move lábios de modo realista
Quase metade da atenção de um ser humano durante uma conversa presencial se concentra no movimento dos lábios daqueles com que está conversando. Os robôs, no entanto, contam apenas com “caricaturas” de lábios e bocas, que não se movem de acordo com os sons que eles emitem por suas “cordas vocais” – alto-falantes, para ser mais preciso.
Yuhang Hu e colegas da Universidade de Colúmbia não estavam satisfeitos com isso, acreditando que a expressão facial é o “elo perdido” da robótica.
Para tentar fechar o elo, eles criaram um robô que, pela primeira vez, é capaz de aprender movimentos labiais faciais para tarefas como falar e cantar. As demonstrações são promissoras, com o robô usando suas habilidades para articular palavras em diversos idiomas e até mesmo cantar uma música de um álbum de estreia gerado por IA, intitulado Olá Mundo (hello world_).
O robô adquire sua habilidade por meio de aprendizado observacional, e não por meio de regras. Primeiro, ele aprendeu a usar seus 26 motores faciais observando seu próprio reflexo no espelho, antes de aprender a imitar o movimento dos lábios humanos assistindo a horas de vídeos do YouTube. Ou seja, como qualquer sistema de inteligência artificial, quanto mais ele treina, melhor se torna na tarefa.
“Quando a capacidade de sincronização labial é combinada com IA conversacional, como ChatGPT ou Gemini, o efeito adiciona uma nova profundidade à conexão que o robô forma com o humano,” disse Hu. “Quanto mais o robô observa humanos conversando, melhor ele fica em imitar as nuances das expressões faciais com as quais podemos nos conectar emocionalmente.”
Fala robótica
Conseguir movimentos labiais realistas em robôs é um desafio por dois motivos: Primeiro, isso exige hardware especializado contendo uma pele facial flexível acionada por inúmeros motores minúsculos, que precisam funcionar de forma coordenada, rápida e silenciosa; segundo, o padrão específico da dinâmica labial é uma função complexa ditada por sequências de sons vocais e fonemas.
O rosto humano conta com cerca de 30 músculos faciais e orais, localizados logo abaixo de uma pele macia, que se sincronizam naturalmente com as cordas vocais e os movimentos dos lábios – na verdade, são necessários de 70 a 100 músculos para produzirmos nossa fala completa. Os rostos robóticos, por sua vez, são tipicamente rígidos, contando com poucos graus de movimento, e seus movimentos labiais são coreografados de acordo com regras rígidas e predefinidas em sua programação. O resultado é um movimento artificial, forçado e estranho.
Hu superou esses desafios desenvolvendo um rosto flexível e muito articulado, equipado com 26 motores. Em seguida, o robô foi colocado em frente a um espelho, para aprender como seu próprio rosto se move em resposta à atividade muscular. Como uma criança fazendo caretas no espelho pela primeira vez, o robô fez milhares de expressões faciais e gestos labiais aleatórios. Com o tempo, ele aprendeu a mover seus motores para alcançar determinadas expressões faciais, uma abordagem chamada modelo de linguagem “visão-ação”.
Dotado desse aprendizado básico, o robô foi posto para assistir vídeos de pessoas falando e cantando, permitindo que a IA que controla o robô aprendesse exatamente como a boca das pessoas se move no contexto dos vários sons emitidos. Com esses dois modelos em mãos, a IA do robô tornou-se capaz de traduzir o áudio diretamente em movimentos labiais.
Os pesquisadores reconhecem que o movimento dos lábios robóticos está longe da perfeição. “Tivemos dificuldades específicas com sons fortes, como ‘B’, e com sons que envolvem franzir os lábios, como ‘W’. Mas essas habilidades provavelmente melhorarão com o tempo e a prática,” disse a professora Hod Lipson, coordenadora da equipe. “Esta será uma tecnologia poderosa. Precisamos avançar devagar e com cuidado para que possamos colher os benefícios e minimizar os riscos.”
Bibliografia:
Artigo: Learning realistic lip motions for humanoid face robots
Autores: Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen, Hod Lipson
Revista: Science Robotics
Vol.: 11, Issue 110
DOI: 10.1126/scirobotics.adx3017