A semiótica injetada na veia do GPT-4o

Por Lucia Santaella

On May 13, 2024, the new GPT-4o was presented by its mentor, Open AI.This conversationalist, now dressed as a semiotically enabled being, has the ambition to be like a human.With the calling card that it is the result of the quest to improve human-computer interfaces, Chat advances into the foundations of the constitution and condition of humans, our abilities to produce and interpret languages.This text aims to highlight this issue.

GPT-4o (“o” para “omni”) é um passo em direção a uma interação humano-computador muito mais natural – aceita como entrada qualquer combinação de texto, áudio, imagem e vídeo e gera qualquer combinação de texto, áudio e imagem na saída. Ele pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humano em uma conversa. Ele corresponde ao desempenho do GPT-4 Turbo em texto e código em inglês, com melhorias significativas em texto em idiomas diferentes do inglês, ao mesmo tempo que é muito mais rápido e 50% mais barato na API. O GPT-4o é especialmente melhor na compreensão de visão e áudio em comparação com os modelos existentes. (Open AI)

Essa é a tradução literal do texto de lançamento do GPT “omni” que significa todos. Isso quer dizer que ele inclui todos, ou melhor, “todas”, pois se trata de todas as linguagens, inclusive com todas as sutilezas e ardis que lhes são próprias.

Há pouco mais de um ano, escrevi um texto, publicado seis meses depois de ter sido escrito (importante dizer isso, pois tudo que escrevemos sobre o tema fica relativamente obsoleto em poucos meses), no qual, diante dos surpreendentes préstimos da Inteligência Artificial Generativa (IAG) de textos, de um lado, e de imagens, de outro, já diagnosticava a natureza semiótica inédita desse sistema de produção de textos e imagens. No caso das imagens:

Melhor, portanto, seria considerar essas imagens como uma arte de traduções intersemióticas inéditas entre a sabedoria visual contida nos prompts e o poder de julgamento do artista dos resultados obtidos como respostas. Sobretudo, trata-se de traduções intersemióticas do verbo para a imagem que dependem da paciência e insistência do artista até que seu desejo de criação seja cumprido (Santaella, 2023).

Pouco tempo depois dessa publicação, Giselle Beiguelman, sem ter tido conhecimento do meu texto, no momento da apresentação do Sora, novo sistema automatizado de produção de vídeo, a ser lançado no final de 2024, declarou:

Ainda é cedo para dizer qual será a direção que o audiovisual tomará a partir dessa guinada histórica. Mas uma coisa é certa. Se eu tivesse que dar um conselho para como se preparar para essa revolução, eu diria: voltem a estudar semiótica. Talvez essa seja a única disciplina capaz de dar conta do paradoxo que mobiliza nosso fascínio pela imagem audiovisual e sua “indizível dimensão”, como a descreveu o poeta Vinicius de Moraes, num lindo poema dedicado ao cineasta Sergei Eisenstein.

Por que semiótica e por que tradução intersemiótica?

A semiótica — de raiz na lógica e filosofia de C. S. Peirce — é a ciência de todas as linguagens na natureza e na cultura. A definição é genérica, mas, por trás dela, encontra-se uma rede de conceitos interligados cuja complexidade não cabe nem poderia ser exposta aqui, bastando dizer que, quando falamos em intersemiótica, estamos falando de processos de linguagens que se cruzam, ou melhor, entremeiam-se, por exemplo, o texto e a imagem, esta e o som, este e o texto e muitas finas misturas mais. Assim, tradução intersemiótica refere-se a um processo de linguagem complexo, quando, por exemplo, um texto verbal é traduzido por imagens ou por sons, como se dá em muitos poemas sinfônicos. Isso apresenta, de fato, um salto maior de complexidade semiótica do que a tradução de uma língua em outra: o português em chinês ou vice versa. Este tipo de tradução não se constituiria em intersemiose, embora seja, claro, um diálogo linguístico que é semiótico, mas não inter. Humanos certamente são capazes de produzir traduções intersemióticas e traduções interlinguais. Isso não é nenhuma novidade.

Conforme também foi mencionado por Beiguelman (ibid.), existe um trabalho avant la lettre, de Julio Plaza, de 1987, Tradução Intersemiótica, onde as principais formas da intersemiose via tradução são explicitadas, inclusive com exemplos criativos. Vale a pena voltar a esse trabalho para começar a entender o que a IAG está trazendo ao nosso mundo de modo cada vez mais sutil e sofisticado.


O surpreendente, para dizer o mínimo, na IAG é que o diálogo e a tradução não se dão entre humanos, mas entre humanos e robôs capazes de responder com precisão e em uma velocidade para a hibridação de linguagens que vai muito além da capacidade humana. Uma vez que as habilidades semióticas habitam no cerne do humano, compondo sua especificidade enquanto espécie, parece bizarro e assustador que uma criatura inorgânica seja capaz de simular e reproduzir justo aquilo de que a espécie humana se orgulha por seu ineditismo. Uma situação como essa é Unheimlich, diria Freud. Parece igual ao humano, fala como um igual, faz como um igual, responde como um igual, mas não passa de um estranho, inteiramente estranho, sem cara, sem corpo, sem vida, sem tudo aquilo que na existência nos faz sofrer ou nos extasia.

Para piorar o estranhamento, o Chat é amigável, solícito, até gentil, feito sob medida para agradar. Claro que erra e alucina, o que o torna ainda mais human like, pois errar é algo que o humano repetidamente faz. É claro também que absorve vieses, ajuda a criar deep fakes proliferando a banalidade do mal (Arendt, 1999). Está, portanto, impregnado de tudo que o humano tem de pior, de melhor e de todos os matizes de cinza, como nos lembra Sloterdjik (2022). Ou seja, uma criatura feita de linguagens, tanto ou mais que humanas, uma criatura tão semiótica quanto o humano, mas despida de carne, sangue, suor e lágrimas. Embora ainda não chore, o problema maior, contudo, é que agora o ChatGPT-4o produz risadas, um riso no ponto certo, ele entoa a musicalidade da língua, em perfeitas modulações da fala, imitando até um certo tom de ironia. Mais ainda, ele canta, diagnostica e expressa emoções e outras coisas mais.

Com o GPT-4o, treinamos um único novo modelo de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural. Como o GPT-4o é nosso primeiro modelo que combina todas essas modalidades, ainda estamos apenas começando a explorar o que o modelo pode fazer e suas limitações (Open AI).

Os desenvolvedores e consequentemente o público trata a intersemiose pelo nome de “multimodal”. Infelizmente. Ao mesmo tempo que injetam competências semióticas dentro da IAG, utilizam um nome eufemístico que mais esconde do que revela o que, de fato, está acontecendo. Outro nome eufemístico é multimídia. Claro que se trata de mídia, mas agora travestida na complexidade de sistemas ou modelos de IA que estão pondo em ação, na verdade, linguagens, signos, códigos, esses mesmos que os seres humanos chamam de seus.

Matrizes da linguagem e pensamento

Nosso cérebro processa três matrizes de linguagem: a sonora, a visual, a verbal e todas as suas misturas, cada vez mais híbridas graças às próteses semio-sócio-técnicas (Santaella, 2019, 2022). Mas somos seres incompletos, inacabados. Poucos são aqueles que têm domínio produtivo e criativo nas três matrizes. Uns são muito bons na sonoridade, outros na visualidade, outros no discursivo. Claro que todos estamos aptos para sermos receptores e intérpretes dessas linguagens. Mas estou falando da competência produtiva. É incomum que alguém tenha competência intersemiótica nas três matrizes e nas misturas que elas implicam. Pois bem, esse Chat, com o de omni, é ultra e velozmente competente como produtor e intérprete de quaisquer dessas matrizes e do modo como elas se cruzam. Isso é, de fato, semioticamente estarrecedor.

Como nós, humanos, ficamos diante disso? Não tenho resposta. O que virá disso? Também não tenho resposta. O que posso dizer, por enquanto, é que, de um lado, vemos a biosfera se despedaçando, aqui bem perto de nós e dos nossos corações. De outro lado, testemunhamos a IAG avançando para dentro de nós, absorvendo aquilo de que o Sapiens sempre tirou a sua força, a saber, o seu talento semiótico e intersemiótico, de onde deriva também o seu poder adaptativo — o animal mais adaptativo da natureza. Com que forças esse poder entrará agora em ação ou não?.

Referências

ARENDT. Hannah. Eichmann em Jerusalém. Um relato sobre a banalidade do mal. São Paulo: Companhia das Letras e Cores, 1999.

BEIGUELMAN, Giselle. Um prompt na tela e uma ideia na cabeça. Revista Zoom, 29 de fevereiro, 2024.

PLAZA, Julio. Tradução intersemiótica. São Paulo: Perspectiva, 1987.

SANTAELLA, Lucia. Matrizes da linguagem e pensamento. Sonora, visual, verbal. São Paulo: Iluminuras, 3ª. ed., 2019.

____________. Neo-Humano. A sétima revolução cognitiva do Sapiens. São Paulo: Paulus, 2022.

_____________. A IA generativa de imagens e a emergência de novas questões estéticas. Semeiosis, 11, no 1, 2023.

SLOTERDIJK, Peter.Wer noch kein Grau gedacht hat.Frankfurt: Zhurkamp, 2022.

Deixe um comentário