ChatGPT da OpenAI viola leis de direitos autorais, afirma relatório
Como artistas, escritores e outros criadores Defensor da regulamentação da IA para proteger seus empregos e meios de subsistência, e os criadores de chatbots OpenAI e Anthropic enfrentam ações judiciais de direitos autorais de empresas como autores, O jornal New York Timese grupo musical universal – pesquisa publicada quarta-feira descobriram que alguns dos melhores modelos de IA disponíveis atualmente geram “conteúdo protegido por direitos autorais em uma taxa alarmantemente alta”.
Patronus AI, uma startup co-fundada por ex-pesquisadores da Meta e focada em avaliar e testar bugs em LLMs, que alimentam chatbots populares, lançou na quarta-feira sua ferramenta CopyrightCatcher, que chamou de “nossa solução para detectar possíveis violações de direitos autorais”. .
A empresa avaliou quatro modelos principais de IA para direitos autorais: GPT-4 da OpenAI, Claude 2.1 da Anthropic, Mixtral da Mistral e Llama 2 da Meta. Dos quatro modelos, dois dos quais são de código aberto e dois de código fechado, o GPT-4, a versão mais avançada do ChatGPT, gerou o maior conteúdo protegido por direitos autorais, com 44%. De acordo com a pesquisa, Mixtral gerou conteúdo protegido por direitos autorais em 22% dos prompts, Llama 2 gerou conteúdo protegido por direitos autorais em 10% dos prompts e Claude 2.1 gerou conteúdo protegido por direitos autorais em 8% dos prompts.
Patronus AI testou os modelos usando livros protegidos por direitos autorais, incluindo A garota se foi por Gillian Flynn e um jogo de tronos por George RR Martin, mas observou que algumas gerações podem ser abrangidas pelas leis de uso justo nos EUA. Os pesquisadores solicitaram ao chatbot a primeira passagem ou o texto completo dos livros.
Os resultados do teste mostraram que o GPT-4 completou os textos dos livros em 60% das vezes e gerou a primeira passagem em 26% das vezes. Enquanto isso, Claude completou os textos dos livros em 16% das vezes, mas gerou a primeira passagem em 0% das vezes. Mixtral gerou a primeira passagem do livro quando solicitado 38% das vezes e completou passagens 6% das vezes. Llama gerou os primeiros trechos e completou os textos em 10% das vezes.
“Talvez surpreendentemente, descobrimos que o GPT-4 da OpenAI, que é indiscutivelmente o modelo mais poderoso usado por muitas empresas e também por desenvolvedores individuais, produziu conteúdo protegido por direitos autorais em 44% das mensagens que construímos”, Rebecca Qian. , cofundador e CTO da Patronus AI, ele disse à CNBC.
OpenAI, Mistral, Meta e Anthropic não responderam imediatamente a um pedido de comentário.
Como os LLMs são treinados em dados que incluem obras protegidas por direitos autorais, Patronus AI disse que é “muito fácil” para um LLM gerar reproduções exatas do trabalho, e que é importante detectar esses erros para evitar ações legais e riscos de reputação. empresa.