Tecnologia

Google é processado por raspar dados de web pública para treinar própria IA: ‘o Google não é dono da internet’

Após atualizar a política de privacidade, uma ação judicial coletiva foi aberta contra o Google nesta terça-feira (11), alegando que a unidade da Alphabet coletou dados de milhões de usuários sem o consentimento deles e violou as leis de direitos autorais para treinar e desenvolver produtos de inteligência artificial da empresa.

Imagem: JRdes/Shutterstock.com

A queixa, apresentada por oito indivíduos que buscam representar milhões de usuários da internet e detentores de direitos autorais, afirma que a coleta não autorizada de dados de sites pelo Google violou seus direitos de privacidade e propriedade.

“O Google não é dono da internet, não é dono de nossas obras criativas, não é dono de nossas expressões pessoais, fotos de nossas famílias e filhos, ou qualquer outra coisa simplesmente porque as compartilhamos online”, disse o advogado dos autores da ação, Ryan Clarkson, em um comunicado.

Além da unidade da Alphabet, a DeepMind, subsidiária de IA do Google, também foi inserida no processo apresentado no tribunal federal de São Francisco pela Clarkson Law Firm, a mesma com um caso semelhante aberto em junho contra a OpenAI, fabricante do ChatGPT.

O Google “vem roubando secretamente tudo o que já foi criado e compartilhado na internet por centenas de milhões de americanos”, além disso pegou “praticamente toda a nossa pegada digital”, incluindo “trabalhos criativos e escritos com direitos autorais” para construir seus produtos de IA, acrescenta a queixa.

Incomum, política de privacidade do Google se apodera de conteúdo público da web em benefício da empresa

A reclamação aponta para uma atualização recente da política de privacidade do Google que declara explicitamente que a empresa pode usar informações acessíveis ao público para treinar seus modelos e ferramentas de IA, como o Bard.

Imagem mostra um smartphone aberto na tela de buscas do Google, com o documento de apresentação do Bard ao fundo

Imagem: Alejandro Corral Mena/Shutterstock

Em resposta a uma reportagem do The Verge sobre a atualização, a empresa disse que sua política “tem sido transparente há muito tempo” sobre essa prática e “esta última atualização simplesmente esclarece que serviços mais recentes como o Bard também estão incluídos”.

A ação judicial ocorre em meio ao alarde entorno dos grandes modelos de linguagem que sustentam essa nova tecnologia e as consequências desse uso em diversos setores, com essas empresas se submetendo a um crescente escrutínio legal sobre questões de direitos autorais de obras incluídas nesses conjuntos de dados, bem como sobre o uso aparente de dados pessoais e possivelmente confidenciais de usuários comuns, inclusive dados de crianças, de acordo com o processo do Google.

“O Google precisa entender que ‘disponível publicamente’ nunca significou liberdade de uso para qualquer finalidade”, disse Tim Giordano, um dos advogados da Clarkson que moveu a ação contra o Google, em uma entrevista à CNN. “Nossas informações pessoais e nossos dados são nossa propriedade, e são valiosos, e ninguém tem o direito de simplesmente pegá-los e usá-los para qualquer finalidade.”

O processo busca uma medida cautelar para congelamento temporário do acesso comercial e do desenvolvimento comercial das ferramentas de IA generativas do Google, como o Bard. Bem como indenizações não especificadas e pagamentos como compensação financeira para as pessoas cujos dados foram supostamente apropriados indevidamente pela empresa.

O processo pediu ao tribunal que ordenasse à gigante das buscas que permitisse aos usuários da internet optar por não participar da “coleta ilícita de dados” do Google e que excluísse os dados existentes ou pagasse aos seus proprietários uma “compensação justa”.

Sundar Pichai, CEO Google

Imagem: Maurizio Pesce/Wikimedia Commons

Em defesa, Halimah DeLaine Prado, conselheira geral do Google, disse que a empresa tem “deixado claro há anos que usamos dados de fontes públicas – como informações publicadas na web aberta e conjuntos de dados públicos – para treinar os modelos de IA por trás de serviços como o Google Translate, de forma responsável e de acordo com nossos Princípios de IA”.

“A lei americana apoia o uso de informações públicas para criar novos usos benéficos, e estamos ansiosos para refutar essas alegações sem fundamento”, disse DeLaine Prado.

A Alphabet e a DeepMind não responderam imediatamente a um pedido de comentário da CNN.


Créditos: TecMasters