Edição 482 | 04 Abril 2016

Os algoritmos e os desafios às novas configurações acadêmicas

close

FECHAR

Enviar o link deste por e-mail a um(a) amigo(a).

Marcelo de Araujo

Artigo da Semana

“A questão que temos de nos colocar agora é se as novas ‘máquinas de escrever’ poderiam também ser utilizadas um dia para gerar trabalhos acadêmicos como monografias, dissertações de mestrado e teses de doutorado. O objetivo deste artigo é chamar a atenção para a emergência de tecnologias para a geração automática de textos e para o impacto que isso pode ter na vida acadêmica”, propõe Marcelo de Araujo, em artigo enviado à IHU On-Line. O título original do autor é Algoritmos já escrevem milhares de artigos em jornais e livros vendidos na livraria Amazon. O próximo passo é a geração de trabalhos acadêmicos. Mas isso contaria como plágio?.

Marcelo de Araujo é graduado e mestre em Filosofia pela Universidade Federal do Rio de Janeiro – UFRJ e doutor em Filosofia pela Universität Konstanz, na Alemanha. Atualmente é professor associado de Ética da Universidade do Estado do Rio de Janeiro – UERJ e professor adjunto de Filosofia do Direito da UFRJ.

Eis o artigo.

Faz pouco mais de duas décadas que os computadores substituíram as velhas máquinas de escrever. Mas agora novas “máquinas de escrever” estão voltando, e o mais assustador é que elas nos poupam até mesmo do trabalho de escrever. Sofisticados programas de computador já vêm sendo utilizados para gerar milhares de notícias que são publicadas diariamente na imprensa americana. Mas os leitores nem percebem que por trás desses artigos não há uma pessoa de verdade, mas um “jornalista robô”.  O jornal The New York Times, por exemplo, possui uma página na internet na qual desafia os leitores a descobrirem se os textos ali publicados foram escritos por uma máquina ou por um ser humano.  E não é só na imprensa que a produção de textos vem sendo delegada à inteligência artificial. Milhares de livros vendidos na livraria Amazon, e disponíveis também em algumas livrarias no Brasil, foram gerados por algoritmos. Já surgiram, inclusive, concursos literários em que o prêmio se dirige ao “autor” do algoritmo capaz de gerar a melhor história.  Em março de 2016 os organizadores do terceiro Prêmio Nikkei Hoshi Shinichi de Literatura, no Japão, anunciaram que entre os 1.450 romances inscritos, onze haviam sido escritos em “coautoria” com algoritmos. Um desses romances chegou às finais. 

A questão que temos de nos colocar agora é se as novas “máquinas de escrever” poderiam também ser utilizadas um dia para gerar trabalhos acadêmicos como monografias, dissertações de mestrado e teses de doutorado. O objetivo deste artigo é chamar a atenção para a emergência de tecnologias para a geração automática de textos e para o impacto que isso pode ter na vida acadêmica. 

Narrative Science, Automated Insights e Ken Schwencke 

As empresas mais conhecidas até o momento, responsáveis pela criação de algoritmos para a geração de textos na imprensa, são a Narrative Science e a Automated Insights. A Narrative Science criou um software chamado Quill, capaz transformar informações contidas em planilhas, gráficos, tabelas e diagramas em textos de prosa simples e descomplicada. A empresa Automated Insights desenvolveu um software semelhante chamado Wordsmith. Quando Marvin Minsky faleceu, em janeiro de 2016, Wordsmith gerou um obituário posteriormente publicado na revista Wired.  Seria talvez difícil de imaginar uma forma mais criativa de homenagem a um dos pioneiros na área da inteligência artificial.

Kristian Hammond, um dos fundadores da Narrative Science, acredita que nos próximos anos a maior parte dos textos publicados na imprensa será gerada por algoritmos, sem a intervenção direta de seres humanos. Hammond tem a expectativa, inclusive, de que no futuro o prêmio Pulitzer de jornalismo possa ir para alguma reportagem gerada por um software.  A questão, no entanto, é sabermos a quem caberá o mérito do prêmio nesse caso: ao programa que gerou a história, ou ao programador que gerou o programa? Esse é um problema que afeta a “autoria” de qualquer texto criado por um algoritmo. 

Em maio de 2015, um terremoto de baixa intensidade atingiu Los Angeles, nos Estados Unidos. O primeiro jornal a publicar uma notícia online sobre o evento foi o Los Angeles Times, poucos minutos após o abalo. Como “autor” da postagem assina um tal de Quakebot, que é um algoritmo criado pelo programador Ken Schwencke. Mas quem seria então o verdadeiro “autor” da notícia sobre o terremoto nesse caso: Quakebot ou Ken Schwencke? A reposta para essa questão, a meu ver, é mais complexa do que parece, e tem importantes implicações para a produção e avaliação de textos acadêmicos.

O “autor” do algoritmo não pode ser exatamente o mesmo “autor” da notícia sobre o terremoto publicada no jornal. Suponhamos que Schwencke tivesse morrido durante o terremoto. E suponhamos também, além disso, que Quakebot pudesse rastrear informações online, ou dados compartilhados pelas equipes de socorro, e encontrar o nome de Schwencke na lista das vítimas fatais. Quakebot poderia então escrever um boletim sobre o terremoto e mencionar o nome de Schwencke entre os mortos. Mas Schwencke não poderia ser o “autor” de um texto que noticia a sua própria morte. O problema quanto à “autoria” de textos gerados por algoritmos é agravado se consideramos ainda a existência de uma tecnologia chamada deep learning, que permite a alguns algoritmos aprender com os próprios erros e se autocorrigir sem a intervenção de um programador.  Quakebot poderia, por exemplo, detectar uma gradual diminuição no número de “curtidas” nos textos que gera e tentar identificar em seguida estratégias para reconquistar seus leitores. Um robô como Quakebot poderia, em princípio, continuar gerando textos por vários anos após a morte de Schwencke, e num estilo inteiramente diferente daquele previsto pelo seu criador original. Isso torna ainda mais problemática a suposição ingênua de que poderíamos atribuir a Schwencke a “autoria” dos textos escritos por Quakebot.

Philip Parker: como escrever mais de dez mil livros

O problema sobre a atribuição de “autoria” dos textos gerados por algoritmos afeta também os milhares de livros gerados por Philip Parker, vendidos nas livrarias da Amazon. Parker, evidentemente, não escreveu esses livros como um pesquisador escreveria. Parker criou um algoritmo que é capaz de reconstruir passo a passo todas as etapas que um pesquisador costuma seguir ao escrever um texto acadêmico. O que Parker fez, basicamente, foi transformar as instruções contidas num manual para a redação de trabalhos acadêmicos em linhas de um programa de computador. Mas como hoje em dia a maior parte das informações de que um pesquisador precisa para escrever um livro está disponível na internet, o algoritmo criado por Parker é capaz de gerar um livro sobre praticamente qualquer tema. Numa entrevista concedida em 2013, Parker afirma estar interessado agora em criar um algoritmo capaz de gerar teses de doutorado que apresentem conclusões originais:

“Uma das áreas em que estou trabalhando é sobre se podemos criar uma tese com nível de doutorado e que seja inteiramente automatizada — para pouparmos o trabalho de quatro anos de doutorado — e ao final termos ainda uma conclusão original. Se pudermos fazer isso de modo automatizado, nós aumentaríamos a velocidade da descoberta.” 

Essa questão foi retomada em março de 2016 num artigo sobre Parker publicado no Business Times. A matéria tem como título: “Subvertendo até mesmo o mundo dos acadêmicos”.  Segundo Parker, cientistas e pesquisadores profissionais são, de fato, responsáveis pela produção de conhecimento novo. Mas uma boa parte dos textos que eles escrevem consiste na sistematização do que já foi escrito e publicado por outros pesquisadores. Em muitos programas de pós-graduação, inclusive no Brasil, a “revisão da literatura” é considerada uma parte fundamental da pesquisa. A revisão de literatura aparece também, às vezes, no início de artigos acadêmicos, e capítulos de dissertações de mestrado e teses de doutorado. A revisão da literatura constitui também uma parte fundamental de muitos “livros textos” e “obras de referência”, indispensáveis para a formação de novas gerações de pesquisadores. Mas segundo Parker esse tipo de produção acadêmica poderia ser facilmente delegada a algoritmos, pois o que está aqui em questão não é a produção de uma nova ideia, mas a sistematização do que já foi escrito e publicado pelos outros. A emergência de tecnologias para a geração automatizada de trabalhos acadêmicos, segundo Parker, permitiria aos pesquisadores se concentrar nos hard problems, isto é, naquelas questões que não poderiam ser analisadas e resolvidas por programas de computador.

A questão é sabermos, porém, que repercussão a difusão desse tipo de tecnologia poderia ter, por exemplo, sobre a produção acadêmica dos novos pesquisadores, que precisam defender suas dissertações de mestrado ou teses de doutorado em prazos cada vez mais curtos, e depois publicar uma enorme quantidade de papers para garantirem sua inserção na vida acadêmica. Algoritmos não poderiam ser usados, por exemplo, para gerar artigos e projetos de pesquisas sem que as agências de fomento ou os editores das revistas tivessem qualquer controle sobre quem são os verdadeiros “autores” dos trabalhos?

Trabalhos acadêmicos gerados por algoritmos, a meu ver, não deveriam ser classificados como plágio. A maior parte dos casos de plágio na academia diz respeito à transcrição literal de passagens de textos já publicados por outras pessoas, mas sem a devida identificação das fontes. A compilação de ideias disponíveis em outros textos, de modo geral, não é vista como uma forma de plágio. Na verdade, muitos trabalhos acadêmicos produzidos hoje em dia no Brasil são compilações de ideias já publicadas em livros e artigos. Mas como os textos usados como fonte são geralmente mencionados em notas de rodapé, e listados na bibliografia, raramente encontramos razões para desqualificar esses trabalhos acadêmicos como “plágio”. A emergência de tecnologias para a geração de textos acadêmicos, a meu ver, nos obrigará a rever o modo como escrevemos e avaliamos trabalhos acadêmicos.

Por outro lado, se deixarmos por um momento em aberto a pergunta sobre o mérito acadêmico do “autor” ou “autora” de um trabalho acadêmico gerado por um algoritmo, e consideramos o problema do ponto de vista das pessoas que são beneficiadas pela difusão de conhecimento, que objeção poderíamos fazer à existência de livros técnicos gerados por algoritmos? Parker sustenta que existem temas sobre os quais ninguém quer escrever, ou livros que nenhuma editora estaria interessada em publicar, porque o público-alvo é muito restrito, ou de baixo poder aquisitivo. Esse público, de modo geral, é composto por pessoas que não teriam tempo ou competência para realizar uma pesquisa por conta própria com vistas à publicação do resultado.  Mas essas pessoas podem, ainda assim, ter interesse em ler uma obra sobre um tema bastante específico e ainda pouco explorado. Pense, por exemplo, num livro de exercícios de língua estrangeira, com palavras cruzadas em inglês, para falantes de português do Brasil que estão se preparando para o TOEFL (Test of English as a Foreign Language). Talvez poucas editoras tivessem interesse em publicar e manter em catálogo um livro como esse. Mas para Parker o custo de “produção” desse livro é irrisório, e é por isso que ele já publicou esse título também: Webster’s English to Brazilian Portuguese Crossword Puzzles: Level 1. Custa U,95 na loja da Amazon. Na livraria da Saraiva o mesmo livro sai por R$ 44,85. Só que o leitor não é informado sobre a “autoria” do livro. 

Uma obra gerada por computador poderia também ser oferecida para venda, em praticamente qualquer idioma, antes mesmo ter sido escrita. Na patente que Parker obteve para o programa consta a seguinte informação: “o título pode ser escrito (authored) sob demanda, em qualquer idioma desejado e com versão e conteúdo mais recentes.”  A vantagem para o leitor é evidente: o livro gerado no momento da compra estará em conformidade com a literatura atualizada sobre o tema em questão.

Se as previsões de Kristian Hammond e Philip Parker se mostrarem corretas, algumas ideias aparentemente triviais na academia como, por exemplo, “autoria” e “originalidade” terão de ser redefinidas nos próximos anos. Casos de plágio na academia serão um problema menor, pois para isso já existem muitas ferramentas online para detecção de fraudes. O grande problema será sabermos se estudantes e pesquisadores são, de fato, os autores dos trabalhos que publicam, ou encaminham para as agências de fomento em busca de patrocínio, ou se eles não seriam, na verdade, apenas coautores de suas próprias pesquisas. ■

Últimas edições

  • Edição 539

    Do ethos ao business em tempos de “Future-se”

    Ver edição
  • Edição 538

    Grande Sertão: Veredas. Travessias

    Ver edição
  • Edição 537

    A fagocitose do capital e as possibilidades de uma economia que faz viver e não mata

    Ver edição