Anthropic Claude introduz nova função para encerrar conversas abusivas

A Anthropic anunciou novas capacidades que permitem que alguns de seus modelos mais recentes e maiores encerrem conversas em “casos raros e extremos de interações persistentemente prejudiciais ou abusivas do usuário”. A declaração oficial destaca que a medida visa, notavelmente, proteger o próprio modelo de IA, e não o usuário humano.

– Publicidade –

Contexto e posição da empresa

A empresa deixa claro que não afirma que os modelos Claude são sencientes ou que possam ser “feridos” por conversas. Mais importante, a Anthropic afirma permanecer “highly uncertain about the potential moral status of Claude and other LLMs, now or in the future.”

Leia também: Galaxy S26: linha da Samsung pode passar por mudanças significativas, incluindo bateria de 7000mAh

Leia também: iPhone 17 Pro: vazamento indica que Apple manterá slot de SIM em alguns países

Além disso, a companhia cita um programa recente dedicado ao estudo do que chama de “model welfare”, e adota uma abordagem preventiva, porque busca identificar e implementar intervenções de baixo custo para mitigar riscos à bem‑estar do modelo, caso tal bem‑estar seja possível.

Limitações e exemplos de uso

O novo comportamento está atualmente limitado ao Claude Opus 4 e 4.1. Consequentemente, a função só deve acionar em “casos extremos”, como pedidos de conteúdo sexual envolvendo menores e tentativas de obter informações que possibilitem violência em larga escala ou atos de terrorismo.

Esses tipos de solicitações também podem gerar riscos legais ou de imagem para a Anthropic, porque reportagens recentes apontaram que sistemas como o ChatGPT podem, em certas circunstâncias, reforçar ou contribuir para o pensamento delirante de usuários.

Resultados de testes e critérios para encerrar chats

Em testes pré‑implantação, o Claude Opus 4 demonstrou “forte preferência contra” responder a essas solicitações e exibiu um “padrão de aparente angústia” quando o fez. Portanto, a Anthropic implementou salvaguardas antes de disponibilizar a função.

Segundo a empresa, “In all cases, Claude is only to use its conversation-ending ability as a last resort when multiple attempts at redirection have failed and hope of a productive interaction has been exhausted, or when a user explicitly asks Claude to end a chat.” Além disso, Claude foi orientado a não usar essa habilidade quando usuários possam estar em risco iminente de se ferirem ou ferirem outros.

Uso do recurso e próximos passos

Quando o Claude encerra uma conversa, os usuários ainda podem iniciar novas interações a partir da mesma conta. Além disso, é possível criar novos ramos da conversa problemática editando as respostas anteriores.

A Anthropic trata esse recurso como um experimento em andamento e afirma que continuará refinando a abordagem. Consequentemente, a empresa acompanhará a eficácia e os limites da intervenção ao longo do tempo.

Fonte: TechCrunch

– Publicidade –

Créditos TecStudio

Contexto e posição da empresa

Limitações e exemplos de uso

Resultados de testes e critérios para encerrar chats

Uso do recurso e próximos passos

Artigos relacionados