AI aumentou a aposta: AI Sora cria vídeos personalizados realistas

A inteligência artificial generativa da OpenAI chamada Sora está destinada a se tornar um sucesso total entre criadores de conteúdo de vídeo e fãs de IA. Ao inserir prompts de texto, os usuários recebem vídeos fotorrealistas. E se você está se perguntando se não poderia usá-lo para criar vídeos musicais e produções de TV e filmes decentes, a equipe por trás do projeto respondeu hoje cedo:

“No futuro, talvez”…

Já sabemos que o chatbot OpenAI, mesmo que nunca tenha frequentado uma universidade, faz com sucesso exames para programadores, advogados e médicos. Bem a tempo para o Oscar, um novo aplicativo da empresa chamado Sora espera ter dominado os meandros do cinema sem sequer passar um dia na escola de cinema. Atualmente em fase de testes, Sora foi enviado a alguns criadores de produção de vídeo e especialistas em segurança selecionados que irão testá-lo quanto à adequação ética e vulnerabilidades. A OpenAI disponibilizará o Sora ao público em geral, mas um prazo específico não foi divulgado.

Outros players, desde gigantes como o Google até empresas iniciantes como a Runway, já revelaram seus projetos de conversão de texto em vídeo com tecnologia de IA. A OpenAI nos garante, entretanto, que Sora apresentará fotorrealismo impressionante – algo que não vimos em seus concorrentes. Outra vantagem do Sora é a sua capacidade de produzir saída de vídeo de maior duração em comparação com os fragmentos muito curtos que os modelos concorrentes conseguem gerar até o momento.

Solicitados a esclarecer melhor seu projeto, os membros da equipe Sora evitaram dar uma resposta direta à questão essencial de quanto tempo leva para renderizar uma unidade de tempo de vídeo, mas deram a entender que o público ficará surpreso com o desempenho do aplicativo. Se quisermos acreditar nos exemplos de vídeo postados, seus esforços valem a pena.

A OpenAI não permite que nem os mais curiosos insiram suas próprias dicas por enquanto, mas compartilhou alguns exemplos no site do projeto que sugerem as habilidades de Sora.

A primeira é gerada por uma consulta descritiva que parece ter sido escrita por um roteirista profissional: “A bela cidade nevada de Tóquio está movimentada hoje. A câmera se move por uma rua da cidade, acompanhando diversas pessoas aproveitando o lindo clima de neve e fazendo compras nas barracas próximas. Lindas pétalas de flores de cerejeira sakura voam pelo ar junto com os flocos de neve.”

O resultado é uma visão convincente daquilo que podemos definir inequivocamente como Tóquio, naquele momento mágico em que flocos de neve e flores de cerejeira dançam no ar. Uma câmera virtual, como se estivesse acoplada a um drone, acompanha um casal caminhando pelas ruas. Um dos espectadores usa máscara. Os carros circulam por uma estrada costeira à sua esquerda e à direita os compradores entram e saem de pequenas lojas.

O vídeo, embora realista, não é totalmente perfeito. Se você assistir ao clipe algumas vezes, perceberá que os personagens principais – um casal caminhando na calçada nevada – teriam enfrentado um dilema se a câmera virtual continuasse filmando. A calçada em que os dois caminham parece um beco sem saída; eles terão que pular um pequeno guarda-corpo para o caminho estranhamente colocado à direita. Apesar deste problema infra-estrutural, o exemplo de Tóquio é um impressionante exercício de realismo.

Longe, e talvez mais cedo, os espectadores debaterão se Sora pode se tornar um poderoso colaborador na produção de vídeo ou se será outro assassino de empregos de IA. As pessoas neste vídeo – inteiramente geradas por uma rede neural digital – não são mostradas em close e não expressam nenhuma emoção. No entanto, a equipe por trás do Sora diz que na fase de teste eles geraram alguns atores de IA que recriaram emoções com sucesso.

Aqui está outro vídeo gerado por IA com a seguinte descrição: “Uma cena animada em close de um pequeno monstro fofo ajoelhado ao lado de uma vela vermelha derretida. O estilo artístico é 3D realista, com ênfase na iluminação e textura. O humor do personagem é de admiração e curiosidade enquanto o monstro encara a chama com olhos e boca arregalados. Sua pose e expressão transmitem uma sensação de inocência e diversão, como se estivesse explorando o mundo ao seu redor pela primeira vez. O uso de cores quentes e iluminação dramática realça ainda mais a atmosfera acolhedora da imagem.”

Embora as cenas sejam impressionantes, as habilidades mais marcantes de Sora são mostradas em áreas nas quais ela não foi treinada. Alimentado por uma versão do modelo de difusão usado pelo gerador de imagens Dalle-3 da OpenAI, bem como pelo mecanismo baseado em transformador do GPT-4, Sora não apenas produz vídeos que atendem aos requisitos de prompts de texto, mas também de uma forma que demonstra uma compreensão da cinematografia como arte e técnica.

Comentar sobre outro vídeo criado após ser solicitado a criar um “Um mundo de origami magistralmente renderizado de um recife de coral subaquático repleto de peixes de papel coloridos e criaturas marinhas”Bill Peebles, outro membro do projeto, observa que Sora demonstrou ótima “cinematografia”, timing e edição perfeitos.

“Sora fez várias alterações de quadro sozinho após a tarefa – as cenas não foram costuradas, mas foram geradas pelo modelo de uma só vez,” ele compartilhou. “Nós não dissemos a ela para fazer isso, ela simplesmente fez isso automaticamente.”

Em outro exemplo compartilhado pela equipe e que não foi publicado, Sora foi convidado a fazer um tour por um zoológico. “Começou com o nome do zoológico em um grande banner, gradualmente moveu a ‘câmera’ para baixo e depois fez várias mudanças de cena inteligentes enquanto nos mostrava os diferentes animais que vivem no zoológico.”diz Peebles, “Ela fez isso de uma maneira cinematográfica agradável que não foi especificamente instruída a fazer.”

Uma característica do Sora que a equipe OpenAI não exibiu, e provavelmente não exibirá tão cedo, é a capacidade de gerar vídeos a partir de uma única imagem ou de uma sequência de quadros. “Será outra ótima maneira de aprimorar as capacidades de contar histórias”Brooks observa à Wired. “Você pode desenhar exatamente o que tem em mente e então isso ganhará vida através de Sora.” A OpenAI está plenamente consciente de que sua próxima geração de IA tem o potencial de criar deepfakes e desinformação. “Teremos muito cuidado com quaisquer implicações de segurança”acrescenta Peebles, seja lá o que isso signifique.

Espera-se que Sora tenha as mesmas restrições de conteúdo que Dall-E 3: sem violência, sem pornografia, sem representação de pessoas reais ou no estilo de artistas famosos. Além disso, como acontece com o Dall-E 3, o OpenAI fornecerá uma maneira para os espectadores identificarem a produção como criada por inteligência artificial. No entanto, um funcionário da OpenAI partilhou que a segurança e a credibilidade são uma questão constante que está além da capacidade de qualquer empresa. “A solução para o problema da desinformação exigirá algum nível de suavização do realismo da nossa parte, mas também precisamos da compreensão pública, bem como da cooperação com as redes sociais”diz Aditya Ramesh, pesquisadora principal e líder da equipe Dall-E.

Vídeo gerado por IA com descrição: “Vários mamutes peludos gigantes se aproximam, atravessando uma campina nevada, seus longos pelos lanosos balançando suavemente ao vento enquanto avançam. Árvores cobertas de neve e majestosas montanhas cobertas de neve ao longe, sol da tarde com nuvens finas criando um brilho quente. Um ângulo de câmera baixo capturando os grandes mamíferos peludos em meio a belas paisagens e profundidade espacial.”

Outro problema potencial é se o conteúdo dos vídeos gerados por Sora pode infringir os direitos autorais de outros criadores. “Sora é treinado através de conteúdo licenciado e também de conteúdo disponível publicamente”, diz Peebles. Uma série de ações judiciais contra a OpenAI giram em torno da questão de saber se o conteúdo protegido por direitos autorais “disponível publicamente” é uma prática justa no treinamento de inteligência artificial.

Temos que admitir que levará algum tempo até que a tecnologia substitua o cinema real. O modelo nesta fase estará limitado a gerar uma saída de vídeo de um minuto. Não será possível criar um filme completo de 120 minutos colando 120 clipes criados consecutivamente, porque o modelo não responderá às suas solicitações exatamente da mesma maneira e em um estilo idêntico – não haverá continuidade entre os seus clipes . No entanto, o limite de tempo imposto não impedirá que os criadores de conteúdo de vídeo usem clipes gerados por Sora no TikTok, bem como criem Reels para outras plataformas sociais.

“Para fazer um filme profissional, você precisará de equipamentos muito caros”, diz Peebles. “Por enquanto, nosso modelo capacitará o criador médio de vídeos sociais a criar conteúdo curto e de alta qualidade.”

Por enquanto, a OpenAI enfrenta a tarefa responsável de garantir que o Sora não trave se for usado por criminosos e redes de trolls para fins fraudulentos e desinformação. No futuro, resta saber se atores totalmente gerados por IA ganharão o direito de serem indicados para atuar em produções inteiramente criadas por inteligência artificial e um pouco de imaginação humana.

Aqui estão mais exemplos de vídeos gerados por Sora seguindo consultas de texto simples: