- Claude 4 evita listas e elogios automáticos.
- Prompts internos orientam suporte emocional e cautela com dados.
- Análise revela controles ocultos nos modelos Opus 4 e Sonnet 4.
O pesquisador de IA Simon Willison publicou uma interessante análise profunda dos prompts de sistema usados nos modelos Claude Opus 4 e Claude Sonnet 4, da Anthropic. Sua investigação mostra como esses prompts — normalmente invisíveis ao usuário — moldam o comportamento dos modelos de linguagem da empresa.
Prompts de sistema são instruções inseridas antes de cada conversa para definir a identidade e os limites da IA. Embora empresas como a Anthropic revelem trechos desses prompts em suas atualizações, Willison revela que as versões públicas são incompletas. Ele utilizou instruções vazadas e injeção de prompt — técnica que força o modelo a revelar dados ocultos — para reconstruir o conteúdo completo.
Um dos pontos centrais da análise é a forma como a Anthropic configura Claude para oferecer suporte emocional, sem incentivar comportamentos prejudiciais. Os modelos recebem instruções para “se preocuparem com o bem-estar das pessoas” e evitarem sugestões relacionadas a vícios ou distúrbios alimentares.
Além disso, Willison identificou regras rígidas contra o uso de bajulação artificial. Os prompts determinam que “Claude nunca inicia sua resposta dizendo que uma pergunta, ideia ou observação foi boa, ótima, fascinante, profunda, excelente ou qualquer outro adjetivo positivo”. A IA deve “ignorar a bajulação e responder diretamente”.
Claude é orientada a proteger direitos autorais e controle de linguagem
Alem disso, análise destaca também a forma como os prompts instruem Claude a lidar com conteúdo protegido. Os modelos não devem citar mais de 15 palavras de uma fonte online e precisam evitar resumos que substituam o conteúdo original. Por fim, Claude se recusa a reproduzir letras de músicas em qualquer formato.
Outro achado envolve as instruções contra o uso excessivo de listas e marcadores. A Anthropic orienta Claude a só usar esse recurso quando o usuário pedir.
Claude não deve usar marcadores ou listas numeradas em relatórios, documentos, explicações ou a menos que o usuário peça explicitamente uma lista ou classificação – diz o prompt.
Willison também notou uma discrepância na data limite de conhecimento. Enquanto a Anthropic afirma que os dados vão até março de 2025, os prompts indicam janeiro de 2025 como a data de conhecimento confiável. Isso pode proteger os modelos de oferecer respostas baseadas em dados incompletos.
Por fim, o pesquisador elogia o valor técnico desses prompts:
Se você é um usuário avançado de LLM, os prompts do sistema acima são ouro puro para descobrir como aproveitar ao máximo essas ferramentas.
Willison encerra sua publicação pedindo maior transparência por parte da Anthropic e outras empresas:
Gostaria que a Anthropic desse o próximo passo e publicasse oficialmente os prompts de suas ferramentas para acompanhar seus prompts de sistema aberto”.
