CRO: como rodar testes A/B que realmente movem a conversão
Metodologia prática de CRO: como priorizar hipóteses, calcular tamanho de amostra e rodar testes A/B com significância estatística real.
Testar cor de botão virou piada no mundo de CRO por um motivo: a maioria dos testes A/B é mal planejada, roda pouco tempo e gera conclusões falsas. Otimização de conversão é uma disciplina rigorosa, mais perto de método científico do que de palpite criativo. Este artigo mostra como rodar testes que produzem aprendizado confiável e ganhos reais.
CRO começa antes do teste
Um teste A/B é apenas o passo final de um processo. Antes de criar variantes, você precisa de evidências sobre o que está atrapalhando a conversão. Essas evidências vêm de fontes quantitativas (funis do analytics, mapas de calor, gravações de sessão) e qualitativas (pesquisas, entrevistas, suporte). Quem pula essa fase testa no escuro e desperdiça tráfego.
Um teste A/B não responde "qual versão é melhor?". Ele responde "minha hipótese sobre o usuário estava certa?".
Como escrever uma hipótese que vale o teste
Uma boa hipótese conecta um problema observado, uma mudança proposta e um resultado esperado mensurável. Em vez de "acho que um botão maior converte mais", escreva: "Como vimos que 60% dos usuários abandonam na etapa de frete (dado do funil), acreditamos que exibir o valor do frete antes do checkout aumentará a taxa de conclusão de pedidos".
O formato importa porque torna o teste falseável. Se a métrica não se mover, você aprendeu algo sobre o comportamento do usuário, não apenas sobre o design.
Priorização: nem toda hipótese merece tráfego
Você terá mais ideias do que tráfego para testar. Use um framework de priorização para escolher o que entra na fila. Os mais usados são o PIE (Potencial, Importância, Facilidade) e o ICE (Impacto, Confiança, Esforço). Nenhum é perfeito — o valor está em forçar a conversa estruturada entre quem acha que tudo é urgente.
A matemática que decide se o teste é confiável
Tamanho de amostra e poder estatístico
O erro mais caro em CRO é parar o teste cedo demais. Antes de iniciar, calcule o tamanho de amostra necessário com base na taxa de conversão atual, no efeito mínimo detectável (MDE) que você quer captar e no poder estatístico (geralmente 80%). Sites com pouca conversão precisam de muito mais tráfego para detectar diferenças pequenas — às vezes o teste simplesmente não é viável, e é melhor saber disso antes.
Significância e o perigo do espiar
Significância estatística (p-valor) indica a probabilidade de o resultado ter ocorrido por acaso. O limite usual é 95%. O problema é o peeking: olhar o resultado todo dia e parar quando "deu significativo". Isso infla drasticamente a taxa de falsos positivos. Defina a duração e o tamanho de amostra antecipadamente, e só conclua quando ambos forem atingidos — ou use métodos sequenciais desenhados para olhares múltiplos.
Rode sempre por ciclos completos de negócio, normalmente semanas inteiras. O comportamento de uma terça-feira difere do de um domingo; encerrar no meio de uma semana mistura padrões e distorce a leitura.
Executando o teste sem se sabotar
Na execução, três cuidados técnicos evitam que um teste válido vire lixo. Primeiro, controle o flicker (o efeito de a página original piscar antes de carregar a variante), que enviesa a percepção. Segundo, garanta que a randomização seja consistente — o mesmo usuário deve ver sempre a mesma versão. Terceiro, segmente a análise: um teste pode empatar no agregado e vencer claramente em mobile, revelando onde o ganho está.
O que fazer com testes que perdem
Cerca de dois terços dos testes não produzem vencedor claro, e isso é normal. Um teste "perdedor" que confirma que sua hipótese estava errada economiza o custo de implementar algo inútil. O valor cumulativo do CRO vem do aprendizado composto: cada teste refina seu modelo mental sobre os usuários, tornando as próximas hipóteses mais certeiras. Equipes maduras medem sucesso pela velocidade de aprendizado, não pela taxa de vitória.
Cuidado também com a generalização indevida. Um ganho em uma página de produto não se transfere automaticamente para todas as outras; um padrão que funciona no desktop pode falhar no mobile. Antes de tratar um aprendizado como regra da casa, busque replicação em contextos vizinhos. E lembre que o efeito de novidade pode inflar resultados de curto prazo: uma mudança visualmente marcante às vezes ganha apenas porque chama atenção, efeito que se dissipa com o tempo.
Além do A/B: quando usar outras abordagens
Nem toda otimização cabe em um A/B clássico. Quando você quer testar várias mudanças combinadas, um teste multivariado revela interações entre elementos — mas exige muito mais tráfego e raramente vale a pena para sites menores. Para mudanças de alto risco, como um redesenho completo, um teste de redirecionamento (split URL) isola a nova experiência inteira. E quando o tráfego é insuficiente para qualquer significância, o caminho é pesquisa qualitativa e correção de problemas de usabilidade óbvios, sem fingir rigor estatístico que os números não sustentam.
O bom praticante de CRO sabe escolher a ferramenta certa para a pergunta. Insistir em A/B quando não há tráfego é teatro de dados; ignorar A/B quando ele é viável é desperdiçar a única forma confiável de estabelecer causa e efeito.
Conclusão
Testes A/B que movem a conversão não nascem de ideias geniais, mas de processo: pesquisa para encontrar problemas, hipóteses falseáveis, priorização honesta, matemática para garantir confiabilidade e disciplina para não parar cedo. Some a isso o cuidado de não generalizar demais e de escolher o método adequado a cada situação. Faça isso de forma consistente e o CRO deixa de ser uma aposta para se tornar um motor previsível de crescimento — daqueles que compõem ganhos pequenos e confiáveis até virarem vantagem competitiva.