IA Sem Copyright: Pesquisadores Provam o Possível

Empresas de inteligência artificial frequentemente argumentam que o treinamento de seus modelos depende do uso de material protegido por direitos autorais. No entanto, uma pesquisa recente desafia essa noção, demonstrando que é possível criar modelos de IA utilizando apenas material de domínio público e licenças abertas.

Um estudo colaborativo entre 14 instituições, incluindo MIT, Carnegie Mellon e a Universidade de Toronto, resultou na criação de um dataset de 8 TB de dados eticamente obtidos. Este dataset incluiu 130.000 livros da Biblioteca do Congresso. Com base nesse material, os pesquisadores treinaram um modelo de linguagem grande (LLM) de sete bilhões de parâmetros. Surpreendentemente, o modelo alcançou um desempenho comparável ao Llama 2-7B da Meta, lançado em 2023. Embora não tenha superado os modelos mais avançados da atualidade, o estudo prova que a dependência de material protegido por direitos autorais pode não ser tão essencial quanto se alega.

O processo de criação do dataset e treinamento do modelo não foi isento de desafios. Grande parte dos dados precisou ser processada manualmente, exigindo um esforço considerável para garantir a conformidade com as licenças. Apesar das dificuldades, o resultado final serve como um contraponto importante para as alegações de que a IA generativa não poderia existir sem a utilização de obras protegidas. Este estudo poderá ter um impacto significativo em discussões legais e regulatórias sobre o uso de dados no desenvolvimento de inteligência artificial, incentivando a busca por alternativas mais éticas e transparentes.

Origem: Link

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima