Migrar do Claude 3.5 Sonnet para Claude 4 Sonnet no Amazon Bedrock

TL;DR

Claude 4 Sonnet está disponível no Amazon Bedrock, com cronograma de descontinuação anunciado para Claude 3.5 Sonnet (v1 e v2).
A migração exige planejamento cuidadoso: escolha entre a API InvokeModel ou a API Converse unificada, e considere CRIS (Inferência entre regiões) para melhorar o desempenho.
Pensamento estendido e pensamento intercalado são opções disponíveis, mas implicam custos e latência; use-os de forma estratégica.
Valide o desempenho com um conjunto de regressão personalizado e implemente a implantação em fases (teste sombra, canário ou blue/green) para proteger a produção.
Revise o design de prompts, guardrails e pipelines de avaliação de CI/CD antes da adoção em produção.

Contexto e antecedentes

Este post, coautorado com Gareth Jones da Anthropic, observa que o Claude 4 Sonnet foi lançado no Amazon Bedrock, representando um avanço significativo nas capacidades dos modelos de base. O cronograma de descontinuação do Claude 3.5 Sonnet (v1 e v2) cria uma dupla necessidade para aplicações de IA em produção: explorar o desempenho aprimorado e migrar antes que o serviço seja descontinuado. A ideia central é tratar migrações de modelos como parte essencial da estratégia de inferência de IA, pois uma execução inadequada pode causar interrupções, regressões de desempenho e estouro de custos. O artigo oferece uma abordagem sistemática para migrar do Claude 3.5 Sonnet para o Claude 4 Sonnet no Bedrock, cobrindo diferenças entre modelos, considerações de migração e melhores práticas para transformar a migração em valor mensurável para organizações. Entender as mudanças entre as versões do modelo é o primeiro passo para planejar uma migração bem-sucedida. Claude 4 Sonnet apresenta mudanças de capacidade e de comportamento que podem ser aproveitadas na produção. Para uma comparação detalhada, consulte o Complete Model Comparison Guide mencionado no post. O sucesso da migração também depende de considerações técnicas e estratégicas para reduzir riscos e acelerar a produção. Antes de usar Claude 4 Sonnet no Bedrock, é necessário habilitar o acesso ao modelo na conta Bedrock, revisar e aceitar o EULA durante o pedido de acesso. A disponibilidade varia por região da AWS, portanto confirme o suporte na Região desejada com as guias de suporte a modelos do Bedrock e listas de suporte. O Cross-Region Inference (CRIS) pode ser usado para melhorar o throughput especificando um profile de inferência.

O que há de novo

A migração traz várias mudanças que você pode aproveitar:

Claude 4 Sonnet no Bedrock demonstra melhoria na seguida de instruções e na precisão de alinhamento com as melhores práticas do modelo. Prompts que funcionavam bem no Claude 3.5 podem exigir adaptação para o Claude 4, e os usuários devem consultar as diretrizes de engenharia de prompts do Claude 4.
Claude 4 Sonnet foi projetado para seguir instruções com mais precisão e pode ser menos verboso, a menos que explicitamente solicitado a elaborar. Isso pode afetar o estilo das respostas percebidas e exigir ajustes nos prompts de sistema e nas definições de persona.
Prompts costumam se beneficiar de uma estrutura semelhante a XML para separar claramente as seções de entrada, como recomendado pelas práticas de engenharia de prompts do Claude 4. Isso ajuda a manter resultados confiáveis sob uma aderência mais rígida às instruções.
Pensamento estendido é uma capacidade integrada do Claude 4 Sonnet. Você pode ativá-lo para raciocínio profundo em várias etapas incluindo a configuração de thinking na chamada de API. Tokens de raciocínio são faturados como tokens de saída, aumentando os custos totais.
Para habilitar o pensamento estendido, use a API Converse e ajuste additionalModelRequestFields com a configuração de pensamento, incluindo budget_tokens para o limite máximo de tokens de raciocínio. O valor maxTokens deve ser maior que budget_tokens para o raciocínio estendido.
Habilitar pensamento estendido pode impactar o tempo de resposta e o custo, já que os tokens de raciocínio são contados no faturamento.
Em muitos casos, uma prompts bem elaborado de cadeia de pensamento (CoT) ainda é a opção mais eficiente.
Para habilitar o pensamento estendido, inclua o parâmetro additionalModelRequestFields com thinking e budget_tokens na chamada Converse API.
Ativar o raciocínio entre chamadas de ferramenta (interleaved thinking) para chamadas de ferramentas envolve o uso do parâmetro de betaAnthropic com interleaved-thinking-2025-05-14 na configuração additionalModelRequestFields.

Por que isso importa (impacto para desenvolvedores/empresas)

Para desenvolvedores e empresas, migrar para Claude 4 Sonnet pode significar maior precisão, melhor alinhamento com instruções e raciocínio mais robusto com suporte a ferramentas. Contudo, há considerações de custo e latência associadas ao raciocínio estendido e a budgets maiores. As organizações devem adotar uma abordagem estruturada de migração para manter a continuidade da produção, realizar benchmarking precoce com datasets representativos de tarefas reais e garantir que os guardRails estejam alinhados com o novo comportamento do modelo. A migração é apresentada como um projeto de engenharia: planejar, testar e automatizar avaliações, integrando o conjunto de prompts em pipelines de CI/CD para acompanhar mudanças. Ferramentas de avaliação do Bedrock e frameworks de avaliação de código aberto (RAGAS, DeepEval) são citados como opções para suportar avaliações automatizadas.

Detalhes técnicos ou Implementação

Acesso e disponibilidade

Antes do uso, habilite o acesso ao Claude 4 Sonnet na sua conta do Amazon Bedrock. Revise e aceite o EULA durante o pedido de acesso.
Confirme se o Claude 4 Sonnet está disponível na Região AWS de destino, pois o suporte a modelos pode variar por região. Consulte a disponibilidade da Região e as listas de suporte de modelos do Bedrock.
O CRIS pode ser usado para melhorar o throughput entre regiões, especificando um profile de inferência em uma região de origem. APIs de migração
API InvokeModel: caminho de migração direto, onde você atualiza o modelId em seu código mantendo a estrutura da API Messages.
API Converse: caminho recomendado para padronizar o formato de solicitação/resposta entre modelos e provedores, facilitando migrações futuras. O CRIS pode ser utilizado com qualquer caminho para otimizar o throughput.
Ao usar CRIS, assegure-se de especificar o profile de inferência apropriado na região de origem para melhorar o throughput. Pensamento estendido e uso de ferramentas
Pensamento estendido permite raciocínio profundo de várias etapas. Ative-o passando a configuração de pensamento via additionalModelRequestFields e definindo budget_tokens para limitar tokens de raciocínio. O valor maxTokens deve ser maior que budget_tokens.
Pensamento estendido aumenta custos, pois tokens de raciocínio são faturados como tokens de saída, e pode impactar a latência de streaming.
Em tarefas que não requerem raciocínio intenso, desative o pensamento estendido para otimizar custo e latência.
A other alternativa é usar prompts de cadeia de pensamento bem estruturados (CoT) para eficiência.
Interleaved thinking para chamadas de ferramenta permite raciocínio intermediário entre resultados de ferramentas. Ative adicionando o parâmetro anthropic_beta com interleaved-thinking-2025-05-14 em additionalModelRequestFields na chamada Converse API. Design de prompts e avaliação
Não assume que prompts do Claude 3.5 funcionarão exatamente no Claude 4; siga as melhores práticas específicas do Claude 4 e considere prompts estruturados com seções explícitas e tags semelhantes a XML.
Construa um conjunto de prompts curados com saídas esperadas que representem seu tráfego de produção. Integre esse dataset ao CI/CD para regressões contínuas e utilize avaliações do Bedrock ou frameworks abertos (RAGAS, DeepEval) para medir desempenho e guardrails.
O perfil de segurança de um modelo muda com cada versão. Valide guardrails e configurações de segurança com a versão atualizada, mantendo a produção estável. Implantação e gestão de riscos
Adote uma estratégia de implantação em fases para minimizar riscos: teste em ambiente espelhado, seguido de testes A/B para medir impactos em KPIs de negócios.
Na implantação real, use canary ou blue/green para manter ambientes paralelos que permitam rollback rápido. Benchmarking e CI/CD
Crie um conjunto de benchmarks representativos de produção e integre-o ao seu pipeline de CI/CD para rastrear regressões com mudanças no modelo ou nos prompts. Notas sobre conteúdo e colaboração
A migração é orientada por Melanie Li, PhD, AWS Senior Generative AI Specialist Solutions Architect, e Deepak Dalakoti, PhD, AWS Deep Learning Architect, com contribuições da Anthropic.
Para mais detalhes, consulte o post da AWS: https://aws.amazon.com/blogs/machine-learning/migrate-from-anthropics-claude-3-5-sonnet-to-claude-4-sonnet-on-amazon-bedrock/.

Principais conclusões

Claude 4 Sonnet no Bedrock oferece capacidades novas, exigindo planejamento e benchmarking cuidadosos antes da migração.
A migração pode ocorrer via InvokeModel ou Converse API; o CRIS pode otimizar o throughput entre regiões.
Pensamento estendido e pensamento intercalado são úteis, porém dependem de custos e latência; use-os com critério.
Estruture prompts, guarde rails e integre testes de CI/CD com pipelines de avaliação automatizados.
Alinhe guardrails e configurações de segurança com o novo modelo para evitar regressões e manter a segurança.

FAQ

Qual é o objetivo principal deste guia de migração?

Fornecer uma abordagem sistemática para migrar do Claude 3.5 Sonnet para o Claude 4 Sonnet no Amazon Bedrock, cobrindo diferenças de modelo, acesso, APIs, raciocínio estendido, avaliação e implantação.
uais APIs posso usar para migração no Bedrock?

Você pode usar a API InvokeModel com atualização simples de modelId ou a API Converse, que oferece formato padronizado de solicitação/resposta. O CRIS pode ser usado com qualquer caminho para melhorar o throughput.
O que é pensamento estendido e como utilizá-lo?

Pensamento estendido permite raciocínio profundo em várias etapas, configurando thinking na chamada de API. Compromete custos adicionais, pois tokens de raciocínio são faturados como saída. Use quando for necessário para tarefas de análise complexa; caso contrário, desative.
Como realizar a implantação com segurança?

dote implantação em fases com teste sombra, canário ou blue/green, e realize A/B testing para medir KPIs. Verifique guardrails de segurança com o novo modelo.
Há orientações de prompts para Claude 4 Sonnet?

Sim; Claude 4 tende a seguir instruções com mais precisão e pode exigir prompts com estrutura clara, incluindo seções organizadas, potencialmente com tags no estilo XML.