Inteligência Artificial: Os Desafios Do Plágio E Autoria

Q: Como o scraping de dados facilita o trabalho da inteligência artificial?

O scraping de dados é o processo de recolher informações de websites de forma automatizada. Com as ferramentas de IA, este processo tornou-se extremadamente eficiente, permitindo que grandes modelos de linguagem acedam, recolham e parafraseiem grandes quantidades de dados em tempo recorde. Esta capacidade de reestruturar rapidamente o conteúdo permite que a IA gere novos textos que são tecnologicamente sofisticados, mas eticamente controversos, especialmente quando envolve material protegido por direitos autorais.

Quando penso na quantidade de conhecimento que anda a ser roubado pelo uso das inteligências artificiais, não posso deixar de me perguntar: estarás tu a ser enganado? As IA, como o ChatGPT, são como autores medíocres que reescrevem, de forma habilidosa mas insípida, o trabalho árduo de peritos humanos.

Estas ferramentas, através de um processo de web scraping acelerado, reformatam (o termo técnico é parafrasear) conteúdos de fontes de qualidade, transformando o teu esforço em meras palavras reorganizadas. O perigo aqui não é apenas o plágio dissimulado, mas sim a erosão do valor do teu trabalho e a potencial saturação de conteúdos vazios de significado real.

Fundamentos a Reter:

Plágio por Parafrasear: A utilização de modelos de linguagem como o ChatGPT funciona de modo semelhante ao plágio por parafrasear, onde textos são reformulados em palavras diferentes mas mantêm o núcleo de conhecimento.

Fontes de Treinamento: Estes modelos são treinados com grandes quantidades de conteúdo online, muitas vezes oriundos de materiais com direitos de autor como jornais, revistas e livros, sem oferecer compensação aos autores originais.

Debate sobre Propriedade Intelectual: A legalidade da utilização de conteúdos protegidos para treinar IA está actualmente em debate, semelhante a processos históricos onde novas tecnologias desafiaram leis de propriedade intelectual estabelecidas.

Facilidade do Scraping: A IA agilizou e facilitou o processo de web scraping – a extracção e parafraseamento de grandes quantidades de conteúdo sem o consentimento dos criadores originais.

Impacto na Propriedade Intelectual: A evolução da IA levanta questões significativas sobre os direitos de autores e criadores, que veem o seu trabalho ser utilizado sem reconhecimento ou compensação. Esta situação poderá originar grandes batalhas legais num futuro próximo.

Takeways sobre Inteligência Artificial, o webscraping e os Riscos de Plágio

O Paradoxo da IA

A Analogia da Reparação Automóvel

Uma vez, numa tarde de pesquisa, encontrei um canal no YouTube que apresentava tutoriais de culinária surpreendentemente similares às receitas exclusivas e muito antigas que tinhamos no nosso já muito antigo blog “Gastronomias.com”. O criador deste conteúdo estava nitidamente apenas a reescrever nossas instruções, passo a passo, sem demonstrar qualquer expertise culinário autêntico. Este cenário reflecte o estado actual da Inteligência Artificial (IA): plataformas como o GPT-4 simplesmente reorganizam e reescrevem artigos já existentes, juntando-lhes modificações superficiais, sem realmente compreenderem a essência do que estão a escrever.

🚀 Revolução Digital: IA e Propriedade Intelectual em 2 Minutos! 🧠💡

Watch this video on YouTube

🚀 Revolução Digital: IA e Propriedade Intelectual num Vídeo 2 Minutos! 🧠💡

Como Funcionam os Modelos de Linguagem Extensos

Os Modelos de Linguagem Extensos (LLMs, ou “Large Language Models“), como o ChatGPT, funcionam através da análise e decomposição de vastas quantidades de conteúdo da Internet. Estes sistemas constroem modelos complexos de como as palavras se relacionam e podem ser reformuladas para criar um texto coerente e sofisticado.

Quando pedes uma resposta a uma IA, ela não consulta directamente a Internet em busca de informações. Em vez disso, gera respostas baseadas em algoritmos que ditam a probabilidade de determinadas palavras surgirem em sequência. Este processo é semelhante a clonar um organismo usando o conhecimento do seu DNA, mas cria um exemplo genérico baseado em muitas fontes. Tal como o autor que parafraseava o nosso blog sobre gastronomia, a IA não entende verdadeiramente o tema; apenas segue padrões estatísticos extraídos de milhões de palavras e textos.

O uso disseminado de IA para ‘web scraping’ de conteúdos agiliza e facilita o parafraseamento de qualquer tipo de informação, muitas vezes sem a devida autorização ou crédito aos criadores originais. Este fenómeno levanta preocupações éticas e jurídicas sobre plágio e direitos autorais. Se não regulada, a inovação promissora da IA pode passar de um avanço tecnológico revolucionário a um mecanismo de apropriação indevida de conteúdos. Em última análise, temos de ponderar se a facilidade e conveniência que a IA oferece, justificam o preço do possível roubo intelectual e do desrespeito pelos criadores originais.

O Dilema do Plágio

A questão da autoria e da propriedade intelectual sempre acompanhou os avanços tecnológicos, e com a chegada da IA, tudo se tornou ainda mais complexo. Antes, se um escritor plagiava um artigo, a ilegalidade era nítida e facilmente identificada. Hoje, as ferramentas de inteligência artificial conseguem parafrasear conteúdos inteiros de forma a dificultar a distinção entre o original e a cópia. Estes desafios são semelhantes aos encontrados nas Armadilhas Digitais: A Ética no Design Web, onde práticas de design podem manipular o comportamento dos utilizadores.

O Estudo sobre Plágio no Ensino Superior Português

Um estudo publicado em 2022 sobre o plágio no ensino superior português esmiúça ainda mais esta questão. Os investigadores analisaram o que os alunos fazem, sabem e julgam saber sobre o plágio. Permanece a discussão sobre se as práticas identificadas configuram mero desconhecimento das normas académicas ou se representam, de facto, uma forma de desonestidade intelectual.

A Capacidade da IA de Absorver e Reformular Conhecimento

As grandes empresas de IA, como a Google, a Microsoft e a OpenAI, treinam os seus sistemas com grandes quantidades de conteúdo online, muito do qual é material protegido por direitos de autor. A capacidade destas IAs para absorver e reformatar o conhecimento é, ao mesmo tempo, impressionante e preocupante.

Como já vimos acima, estas IAs funcionam através de matrizes de “vectores de palavras”, que lhes permitem prever e gerar textos complexos sobre quase qualquer tema. Isto é feito sem uma verdadeira compreensão sobre o assunto, mas com uma destreza tal que mimetiza a escrita humana de uma maneira chocantemente sofisticada. Para um exemplo engraçado, podes ver este artigo jurídico foi criado (em partes) por uma uma inteligência artificial.

História da Propriedade Intelectual preambulo para a Inteligência Artificial

Uma Breve História da Propriedade Intelectual

É fundamental compreender a história da propriedade intelectual para percebermos os desafios contemporâneos que enfrentamos com o advento da inteligência artificial. Ao longo dos séculos, a protecção dos direitos dos criadores e inventores tem sido um campo de batalha constante entre o progresso e a preservação dos méritos individuais.

A Imprensa de Gutenberg

No século XV, a invenção da imprensa por Gutenberg revolucionou a disseminação do conhecimento, mas também trouxe dilemas sobre a cópia não autorizada de trabalhos literários. A facilidade com que se podiam reproduzir livros desencadeou disputas acérrimas sobre a propriedade intelectual, estabelecendo um cenário de confrontos que ressoariam através dos tempos.

A Revolução Industrial

Com a Revolução Industrial, emergiram novas invenções e, com elas, o risco da cópia ilegal. Inventores frequentemente viam os seus projectos serem copiados sem permissão, gerando enormes perdas económicas.

Nesta era, os inventores estavam numa corrida incessante não só contra o tempo, mas também contra os copiadores oportunistas. A rapidez com que uma invenção inovadora podia ser replicada levou à necessidade crescente de protecção legal robusta e precisa. Os tribunais ficaram sobrecarregados com casos de violação de patentes, destacando uma lacuna na legislação existente.

A Visão da Revolução Francesa

Os revolucionários franceses perceberam a importância de proteger os direitos dos criadores. Durante a Revolução Francesa, como descrito nas leis de 1791 e 1793, ficou estabelecido que os autores, compositores e artistas deveriam ter direitos exclusivos sobre as suas obras, promovendo assim o progresso artístico e científico.

Esta visão foi pioneira, pois reconheceu oficialmente a necessidade de incentivar a inovação através de recompensas legítimas aos criadores. A lei de 1793, influenciada pela Declaração dos Direitos do Génio, estabeleceu que as obras publicadas eram, por natureza, propriedade pública, mas com direitos de autor como excepção para compensar o criador. Foi um passo crucial para garantir que inventores e artistas pudessem colher os frutos do seu trabalho árduo sem o temor constante de que os seus esforços seriam apropriados indevidamente.

Acerca deste respeito, convido à leitura do artigo, intitulado “Une Nation et un Empire: The Making of French Copyright Law in the Revolutionary Period” (Uma Nação e um Império: A Criação da Lei de Direitos de Autor Francesa no Período Revolucionário), que é delicioso e oferece uma análise aprofundada do desenvolvimento das leis de direitos de autor em França durante o período revolucionário, incluindo as famosas leis de 1791 e 1793

Hoje, no entanto, enfrentamos novos e complexos problemas. O web scrape de conteúdo, sobretudo com as ferramentas de IA, permite uma adulteração e a apropriação dos conteúdos quase imediata.

A luta para acompanhar a tecnologia no contexto da Inteligência Artificial

A Luta para Acompanhar a Inovação Tecnológica

A cada novo salto na tecnologia, surgem sempre os inevitáveis debates sobre autoria e propriedade. A chegada da inteligência artificial não tem sido excepção. Para demonstrar, vou explorar como alguns saltos tecnológicos do passado enfrentaram desafios semelhantes e como, agora, nos deparamos com oo mesmo problema mas numa escala sem precedentes.

A Era do Fonógrafo e do Rádio em Portugal

Nas primeiras décadas do século XX, a introdução do fonógrafo e a popularização do rádio em Portugal trouxeram novos desafios para a indústria musical. Como discutido por Paula Abreu no seu artigo sobre a indústria fonográfica portuguesa, este período viu uma significativa transformação no mercado da música gravada. Embora as disputas jurídicas sobre direitos autorais não sejam tão bem documentadas em Portugal como noutros países, é evidente que este foi um período que exigiu adaptações na forma como a música era produzida, distribuída e consumida

O Caso Betamax nos EUA

Na década de 1970, a Sony introduziu o videocassete Betamax, permitindo que os utilizadores gravassem programas de televisão. Esta inovação originou o famoso “Caso Betamax“, onde empresas de entretenimento, como a Disney, argumentaram que as gravações caseiras violavam direitos autorais.

O Supremo Tribunal dos EUA decidiu em 1984 que, gravar programas de TV em casa constituía “uso justo”. O componente essencial do caso foi o reconhecimento de que a utilização pessoal não equivalia a roubo, reforçando a ideia de que a inovação deve ser balanceada com os direitos dos criadores.

Partilha de Música e Vídeo Online

Com o advento da partilha de ficheiros online, surgiram novas batalhas jurídicas. Nos anos 2000, plataformas como Napster desafiaram o status quo, permitindo aos utilizadores descarregar músicas e vídeos gratuitamente, o que levou a uma série de litígios sobre direitos autorais.

A facilidade com que os conteúdos podiam ser copiados e distribuídos sem compensação para os criadores gerou um acirrado debate sobre o valor do trabalho criativo na era digital. A indústria musical e cinematográfica realizou extensas campanhas para proteger os seus direitos, mas a rápida disseminação dos conteúdos foi um desafio contínuo.

Actualmente, a AI facilita de maneira incrível o “scraping” e a reformulação de conteúdo, o que é um problema sério. Podemos ver como a criadora do ChatGPT está a ser processada por roubo de dados, ilustrando assim como a realidade está a tentar apanhar a rapidez da inovação tecnológica na era da Inteligência Artificial.

Guerra Legal da IA e as leis dos direitos de autor

A Próxima Guerra Legal sobre IA e Leis de Copyright

O Alcance Extensivo da IA

A Inteligência Artificial (IA) não se restringe a um único meio de informações. Enquanto canais de conteúdo como rádio e serviços de streaming entregam músicas, filmes e artigos, os sistemas de IA extraem a essência de quase todas as formas de expressão humana, desde comentários online até fotografias, passando por código de computador.

A Natureza Invasiva da IA

O carácter invasivo da IA é alarmante. Estes sistemas não apenas recolhem dados passivamente; há fortes evidências de que estão a ser activos na recolha de material de conversas privadas, como aquelas que temos nas nossas cozinhas e quartos, através de dispositivos de colunas assistentes, tais como a Alexa ou o Google Nest Mini.

Esta nova incursão representa um problema significativo de privacidade e propriedade intelectual. O web scraping de dados, uma prática que já era problemática, tornou-se agora ainda mais ágil e fácil com as ferramentas de IA, que rapidamente conseguem parafrasear qualquer conteúdo. É imperativo que consideremos as implicações éticas de tais práticas, enquanto ponderamos como proteger os direitos dos criadores.

A Falta de Impressões Digitais

A IA deixa poucos rastros visíveis. Ao contrário das técnicas tradicionais de plágio, os modelos de linguagem não copiam exactamente o conteúdo em si; eles o reconstroem com base em códigos subjacentes abstratos, complicando a prova de plágio.

Como já vimos, os modelos de linguagem funcionam, em teoria, como uma forma de clonagem baseada em DNA, mas em vez de criarem um clone exacto, produzem um exemplo genérico da mesma espécie. Esta rota indirecta do material original para a cópia representa um desafio significativo para estabelecer e identificar violações de copyright.

É importante portanto considerar a vastidão e sofisticação dos sistemas de IA. Estamos à beira de uma era onde a justificação ética e legal destas acções de Web scraping e regeneração dos conteúdos deve ser cuidadosamente analisada. Que direitos têm os autores originais quando o trabalho deles é silenciosamente incorporado em sistemas de IA? Este é um debate que apenas começou e que promete moldar o futuro da propriedade intelectual.

Uso Justo ou Plágio?

O Debate na Ciência da IA

A ciência da IA encontra-se numa batalha acesa sobre até que ponto os modelos de linguagem (LLMs) “memorizam” grandes fragmentos de texto. Por vezes, essas imprecisões podem gerar confusões e acusar injustamente o uso de plágio. Cabe aos cientistas e especialistas elucidar esta questão crucial para o futuro da propriedade intelectual no domínio da inteligência artificial.

O Argumento a Favor do Uso Justo

Há quem defenda que os sistemas de IA estão a fazer essencialmente o que os humanos fazem quando absorvem conhecimento e depois criam algo semelhante. Se um escritor pode ler vários artigos sobre IA e depois criar o seu próprio artigo, por que não poderia um modelo de IA fazer o mesmo?

Os defensores desta linha de pensamento insistem que, tal como os humanos se inspiram em trabalhos já existentes, a IA deve ter a mesma margem de manobra. No entanto, a aplicação desta lógica à IA levanta profusamente questões éticas e legais. Não podemos ignorar que as máquinas não têm a capacidade de “entender” de forma orgânica, o que coloca uma camada extra de complexidade na questão do uso justo.

As Preocupações dos Detentores de Direitos Autorais

Os detentores de direitos de autor temem que os seus trabalhos sejam utilizados para treinar a IA sem qualquer tipo de compensação, resultando em clones quase idênticos do material original. Esta preocupação é amplificada pela crescente capacidade das ferramentas de IA em agilizar o ‘Web Scraping’ e o Parafraseio / Reescrita.

A falta de regulamentação clara pode levar a um ambiente onde os criadores de conteúdo se veem constantemente prejudicados pelas tecnologias que deveriam fomentar a inovação. Cabe, por isso, aos legisladores e às entidades reguladoras definir limites que protejam tanto a criatividade humana quanto o avanço tecnológico.

Foi Escrito por Inteligência Artificial ou Será que foi Roubado?

Ao chegarmos ao final deste artigo, somos confrontados com uma pergunta deveras inquietante: será que o conteúdo que consumimos diariamente é fruto de criação genuína, será produto de inteligência artificial, ou simplesmente, sem meias palavras, resultado de um roubo às claras? A linha entre estas possibilidades torna-se cada vez mais ténue.

A era da inteligência artificial trouxe consigo ferramentas poderosas de scraping e paráfrase, permitindo que grandes corporações tecnológicas se apropriem e reformatem o trabalho árduo de escritores e criadores de conteúdo, muitas vezes sem compensação adequada. Este cenário evoca os dilemas enfrentados pelos nossos antepassados com o advento da imprensa e da rádio, mas numa escala sem precedentes.

Estamos diante de um novo paradigma de criação e distribuição de conteúdo que desafia as nossas noções tradicionais de autoria e de propriedade intelectual.

A questão que agora se impõe não é se devemos habituar-nos a esta realidade, mas sim como podemos regulamentá-la de forma justa e ética, garantindo que a criatividade humana continue a ser valorizada e recompensada num mundo cada vez mais dominado pela inteligência artificial.

O futuro da criação de conteúdo está nas nossas mãos. Cabe a nós, como sociedade, definir os limites éticos e legais desta nova fronteira, assegurando que a inovação tecnológica não se torne um veículo para a exploração injusta do trabalho intelectual humano.

FAQ

P: O que é conteúdo gerado por Inteligência Artificial (IA) e como ele se diferencia do conteúdo humano?

R: Conteúdo gerado por IA refere-se a texto, música, arte ou qualquer outro tipo de material criado por modelos de linguagem grandes (LLMs) e outras ferramentas de IA. Estes modelos são treinados em vastas quantidades de material disponível na Internet, muitas vezes sem a devida autorização dos detentores dos direitos de autor. A principal diferença entre o conteúdo gerado por IA e o conteúdo humano é que a IA não possui conhecimento ou compreensão real do tópico, apenas combina palavras de forma a criar um texto coerente baseado em padrões estatísticos detectados nos dados de treino. Em contraste, os criadores humanos têm conhecimento e compreensão do tema sobre o qual estão a escrever ou criar.

P: Será que a inteligência artificial comete plágio ao gerar conteúdo?

R: A questão do plágio com a IA é complexa. Embora os modelos de linguagem grandes, como o ChatGPT, não copiem directamente o texto original, eles reconstituem o conteúdo baseado em padrões e estruturas de linguagem presentes nos dados de treino. Isso pode implicar que, indirectamente, estão a absorver e a reformular ideias e conhecimentos sem dar o devido crédito. Assim, enquanto tecnicamente a IA não faz plágio da forma tradicional, existe uma discussão ética e legal sobre se isso constitui uma forma de roubo intelectual.

P: Como o web scraping de dados facilita o trabalho da inteligência artificial?

R: O web scraping de dados é o processo de recolher informações de websites de forma automatizada. Com as ferramentas de IA, este processo tornou-se extremadamente eficiente, permitindo que grandes modelos de linguagem acedam, recolham e parafraseiem grandes quantidades de dados em tempo recorde. Esta capacidade de reestruturar rapidamente o conteúdo permite que a IA gere novos textos que são tecnologicamente sofisticados, mas eticamente controversos, especialmente quando envolve material protegido por direitos autorais.

P: Existe alguma regulamentação legal actual que proteja os direitos dos autores em relação ao uso de IA?

R: A legislação sobre direitos autorais e uso de IA ainda está a evoluir. Embora existam leis de direitos de autor que protejam a propriedade intelectual contra a cópia não autorizada, a aplicação dessas leis à ferramenta de IA é complicada. O uso de IA para treinar modelos com material protegido por direitos autorais sem permissão está actualmente a ser debatido nos tribunais, como evidenciado pelo processo do New York Times contra a OpenAI e Microsoft. Até agora, não há consenso claro sobre como essas leis deveriam ser adaptadas para enfrentar os desafios trazidos pela IA.

P: De que forma a utilização de IA pode impactar o trabalho dos criadores e produtores de conteúdo?

R: A utilização de IA pode ter impactos significativos no trabalho de criadores e produtores de conteúdo. Por um lado, a IA pode optimizar processos e produzir conteúdo rapidamente. Por outro lado, isso pode levar à desvalorização do trabalho humano, já que a AI pode produzir material similar em grande escala e sem compensar os autores originais. Artistas, escritores e outros criadores podem enfrentar uma diminuição da procura pelo seu trabalho, perda de audiência e, eventualmente, rendimentos reduzidos, caso não sejam implementadas protecções adequadas. Além disso, a utilização indiscriminada de IA pode levar à disseminação de informações reescritas, algumas falsas, ressaltando a necessidade de um controle rigoroso dos direitos de autor e da autenticidade do conteúdo.

Fontes Consultadas

O futuro é assustador, mas será o presente “maior roubo da História”?
https://www.contacto.lu/sociedade/o-futuro-e-assustador-mas-sera-o-presente-maior-roubo-da-historia/1456845.html

“A indústria fonográfica e o mercado da música gravada..” – Paula de Abreu – Universidade de Coimbra
https://www.researchgate.net/publication/269789947_A_industria_fonografica_e_o_mercado_da_musica_gravada_-_historias_de_um_longo_desentendimento

“A guerra dos VHS: quando as fitas quase foram proibidas nos EUA”
https://www.megacurioso.com.br/artes-cultura/121805-a-guerra-dos-vhs-quando-as-fitas-quase-foram-proibidas-nos-eua.htm

“Web Scraping e Web Crawling São Legais ou Ilegais?”
https://blog.dsacademy.com.br/web-scraping-e-web-crawling-sao-legais-ou-ilegais/