OpenAI e a sofisticação da inteligência digital na criação de fotos hiper-realistas

Novo sistema criado pela plataforma cria imagens só com base no que o usuário digitar. O resultado é intrigante

OpenAI é uma plataforma de inteligência artificial e o novo sistema DALL-E 2 criado pela empresa é fascinante. Em matéria recente na Fortune, detalhes da ferramenta foram apresentados. O usuário só precisa digitar o que quer e o DALL-E 2 cria a foto. Como no exemplo da imagem abaixo. Quem criou só precisou escrever “Corgi na praia”.

Uma imagem vintage de um cão corgi em uma praia criada com OpenAI's nova imagem renderização de imagem A.I. chamado DALL-E 2.

foto criada pela DALL-E 2

O fato é que a inteligência artificial é uma nova fronteira para o mercado seja nas câmeras, na edição de fotos e em sistemas como esse. Algo que vai levar a desafios quanto ao trabalho de bancos de imagens e outros recursos de fotografia profissional. OpenAI é de San Francisco na Califórnia e uma empresa afiliada a Microsoft. O sistema DALL-E 2 funciona de forma simples: basta o usuário digitar a cena e o programa faz o resto. Dá ainda para editar a foto com textos e outros ajustes. Não é necessário Photoshop ou conhecimento em edição para tanto.

A matéria da Fortune detalha mais:

“Esperamos que ferramentas como essa democratizem a capacidade das pessoas de criar o que quiserem”, disse Alex Nichol, um dos pesquisadores da OpenAI que trabalhou no projeto. Ele disse que a ferramenta pode ser útil para designers de produtos, designers de capas de revistas e artistas — seja para usar para inspiração e brainstorming. Ele também disse que as empresas de jogos de computador podem querer usá-lo para gerar cenas e personagens — embora o software atualmente gere imagens estáticas, não animações ou vídeos. Como o software também poderia ser usado para gerar mais facilmente memes racistas ou criar imagens falsas para serem usadas em propaganda ou desinformação, ou, nesse caso, para criar pornografia, a OpenAI diz que tomou medidas para limitar os recursos do software nesta área, primeiro tentando remover tais imagens dos dados de treinamento da I.A. mas também aplicando filtros baseados em regras e revisões de conteúdo humano nas imagens que a I.A. gera. A OpenAI também está tentando controlar cuidadosamente o lançamento do novo I.A., que descreve como atualmente apenas um projeto de pesquisa e não um produto comercial. Ele está compartilhando o software apenas com o que ele descreve como um grupo seleto e selecionado de testadores beta. Mas, no passado, os avanços da OpenAI com base no processamento de linguagem natural muitas vezes encontraram seu caminho em produtos comerciais em cerca de 18 meses. O software que o OpenAI criou se chama DALL-E 2, e é uma versão atualizada de um sistema que o OpenAI estreou no início de 2021, simplesmente chamado DALL-E. (A sigla é complicada, mas pretende-se evocar um mashup de WALL-E, o robô animado da fama do filme da Pixar, e uma peça de palavras para Dali, como em Salvador, o artista surrealista, que faz sentido dada a natureza surreal das imagens que o sistema pode gerar.) O DALL-E original poderia renderizar imagens apenas como um desenho, muitas vezes contra um fundo simples. O novo DALL-E 2 pode gerar imagens de alta resolução de qualidade fotográfica, completas com fundos complexos, efeitos de profundidade de campo, sombras realistas, sombreamento e reflexões. Embora essas renderizações realistas tenham sido possíveis com imagens renderizadas por computador anteriormente, criá-las exigia alguma habilidade artística séria. Aqui, tudo o que um usuário tem que fazer é digitar o comando, “um shiba inu vestindo uma boina e uma gola alta preta”, e então DALL-E 2 cria dezenas de variações fotorealistas sobre esse tema.

Shiba Inu cão em gola alta preta e boina

Esta imagem de um cão Shiba Inu foi criada pelo software de geração de imagens DALL-E 2

O DALL-E 2 também facilita a edição de uma imagem. Um usuário pode simplesmente colocar uma caixa ao redor da parte da imagem que deseja modificar e especificar a modificação que deseja fazer em instruções de linguagem natural. Você poderia, por exemplo, colocar uma caixa em torno da boina do Shiba Inu e digitar “faça a boina vermelha”, e a boina seria transformada sem alterar o resto da imagem. Além disso, o DALL-E 2 pode produzir a mesma imagem em uma ampla gama de estilos, que o usuário também pode especificar em texto simples.

Os algoritmos de legendagem e classificação de imagem que sustentam o DALL-E 2 são, de acordo com testes realizados pelo OpenAI, menos suscetíveis a tentativas de enganá-lo em que um objeto é rotulado com texto diferente do que o objeto realmente é. Por exemplo, algoritmos anteriores que foram treinados para associar texto e imagens, quando mostrados uma maçã com uma etiqueta impressa dizendo “pizza” anexada a ela, erroneamente rotularia a imagem como sendo uma pizza. O sistema que agora compõe parte do DALLE-2 não comete o mesmo erro. Ele ainda identifica a imagem como sendo de uma maçã.

Ilya Sutskever, cofundadora e cientista-chefe da OpenAI, disse que o DALL-E 2 foi um passo importante para o objetivo da OpenAI de tentar criar inteligência geral artificial (AGI), uma única peça de software de I.A. que pode alcançar o desempenho em nível humano ou melhor do que o de nível humano em uma ampla gama de tarefas diferentes. A AGI precisaria possuir uma compreensão conceitual “multimodal” — ser capaz de associar uma palavra a uma imagem ou conjunto de imagens e vice-versa, disse Sutskever. E o DALL-E 2 é uma tentativa de criar uma I.A. com esse tipo de entendimento, disse ele.

O DALL-E 2 está longe de ser perfeito. O sistema às vezes não pode renderizar detalhes em cenas complexas. Ele pode obter alguns dos efeitos de iluminação e sombra ligeiramente errado ou mesclar as bordas de dois objetos que devem ser distintos.


#fotografia #fotógrafo #marketingparafotógrafos #mercadofotográfico

0 comentário