Squads Agênticas, Squads Híbridas e Human in the Loop: Como Montar um Time que Realmente Funciona

Existe uma conversa que todo tech lead vai ter em 2026, se já não teve. O CTO aparece animado com os resultados de um PoC de agentes de IA. "Isso aqui fez em 4 horas o que nosso time levaria 3 dias." A pergunta que vem na sequência — invariavelmente — é: "e se a gente colocasse isso em produção do jeito que está?"

A resposta é: não vai funcionar como você espera.

Não porque agentes de IA sejam inúteis em produção. É o oposto — eles são absurdamente capazes. O problema é que a composição de um time de agentes para produção exige decisões de design que o PoC não força você a tomar. E quando essas decisões não são tomadas intencionalmente, você vai descobri-las de forma dolorosa.

Este post é sobre essas decisões. Sobre os três modelos de squad que existem, quando cada um faz sentido, e os padrões concretos que permitem que um time de humanos e agentes funcione em produção de forma confiável.

Os Três Modelos de Squad

Antes de qualquer padrão de implementação, é preciso entender o espaço de opções. Existem três modelos fundamentais, e a maioria dos times que está errando está usando o modelo errado para o contexto errado.

Modelo 1: Squad Agêntica Pura

Todos os passos do fluxo são executados por agentes. Sem intervenção humana no caminho. Um agente orquestra os demais, divide o trabalho, consolida resultados.

Quando funciona: tarefas repetitivas com critérios de sucesso claros e verificáveis, onde o impacto de um erro é baixo ou facilmente reversível. Geração de relatórios com dados estruturados. Processamento de documentos segundo regras definidas. Testes automatizados. Sumarização de conteúdo para consumo interno.

Onde quebra: em qualquer tarefa que envolva julgamento situacional, ambiguidade de negócio ou impacto irreversível. O problema clássico da squad agêntica pura é que ela erra com confiança. O agente não sabe o que não sabe. Ele vai entregar um resultado que parece completo e coerente, mesmo quando está fundamentalmente errado por razões que nenhum critério programático consegue verificar.

Modelo 2: Human-Gated em Cada Passo

O humano aprova cada etapa antes que a próxima comece. Nada avança sem sinal verde explícito.

Quando funciona: em fluxos críticos onde cada passo tem implicações legais ou financeiras, ou em fases iniciais de implementação quando você ainda está calibrando a confiança nos agentes.

Onde quebra: em velocidade e escala. Se você inseriu um humano em cada passo para garantir qualidade, você eliminou o principal benefício dos agentes: a capacidade de executar em paralelo e em alta velocidade. Você basicamente criou um fluxo manual com passos automáticos de baixo valor.

Modelo 3: Squad Híbrida com Autonomia Calibrada

Os agentes executam com autonomia dentro de domínios definidos. Humanos entram em pontos específicos de alto valor ou alto risco. O design define explicitamente quais eventos disparam a escalada para o humano.

Esse é o modelo que funciona em produção. Mas ele exige que você tome três decisões de design que a maioria das equipes ignora.

Comparativo dos três modelos de squad: Agêntica Pura, Human-Gated em cada passo, e Híbrida com autonomia calibrada — mostrando velocidade, confiabilidade e casos de uso de cada modelo

As Três Decisões de Design que Definem uma Squad Híbrida

Decisão 1: Onde o Humano Entra (e Por Quê)

A tentação é definir pontos de revisão humana de forma intuitiva. "Parece importante aqui" não é critério de design. Você precisa de uma taxonomia.

Existem três categorias de situação que justificam inserir um humano no loop:

Ações irreversíveis. Qualquer coisa que não pode ser desfeita facilmente: deploy em produção, envio de comunicação para clientes, modificação de dados financeiros, exclusão de registros. Independente de quão confiante o agente está, o humano aprova antes.

Alta ambiguidade de negócio. Quando o agente detecta que a tarefa tem múltiplas interpretações válidas e a escolha entre elas tem implicações de negócio. Um agente bem projetado sabe quando não sabe — e deve escalar nesses momentos em vez de assumir.

Baixa confiança no output. Quando o agente, por design, avalia a qualidade do próprio resultado e não atinge o threshold definido. Isso requer que o agente tenha um mecanismo explícito de auto-avaliação e que o sistema defina o que é "confiança baixa" de forma operacional.

Decisão 2: Como o Handoff Funciona

Quando o agente escala para o humano, como essa transição acontece? Essa parece uma questão de UX, mas é um problema de arquitetura.

O humano precisa de contexto suficiente para tomar uma boa decisão — mas não tanto contexto que a revisão vire um trabalho de horas. O agente deve entregar um briefing estruturado: o que estava fazendo, por que escalou, quais são as opções, qual é o impacto de cada opção, e qual seria a recomendação do próprio agente caso o humano não queira deliberar.

Isso muda completamente a experiência. Em vez de "o agente parou, não sei por quê, preciso entender tudo do zero", o humano recebe: "Encontrei ambiguidade no requisito X. Opção A segue a interpretação mais conservadora, Opção B entrega mais rápido mas pode conflitar com a política Y. Recomendo A. Você aprova?"

Decisão 3: O Que Fazer com o Feedback

Toda intervenção humana é uma oportunidade de aprendizado para o sistema. Se o humano aprova sem mudanças: o agente estava calibrado certo, reforça. Se o humano corrige: por quê? Essa informação precisa ser capturada, estruturada e incorporada — seja nos prompts do agente, seja nas specs do sistema.

Squads híbridas que não fecham esse loop ficam estáticas. Squads que fecham melhoram com o tempo e escalam a autonomia dos agentes gradualmente, à medida que a confiança é construída com dados reais.

Os Três Padrões de Implementação

Com as decisões de design tomadas, existem três padrões concretos para implementar a squad híbrida.

Padrão 1: Checkpoint Pattern

O fluxo tem marcos pré-definidos onde a execução pausa, o estado é serializado, e o humano recebe um resumo para revisão. Se aprovar, o fluxo continua do checkpoint. Se rejeitar, o agente pode receber instruções para revisão e retomar.

class AgentWorkflow:
    def __init__(self, checkpoints: list[str]):
        self.checkpoints = checkpoints  # etapas que requerem aprovação humana
        self.state = WorkflowState()

    async def run(self, task: Task):
        for step in task.steps:
            result = await self.execute_step(step)
            self.state.record(step, result)

            if step.name in self.checkpoints:
                briefing = self.generate_briefing(step, result)
                approval = await self.request_human_approval(briefing)

                if not approval.approved:
                    # Incorpora feedback e reexecuta
                    task = self.revise_with_feedback(task, approval.feedback)
                    return await self.run(task)

        return self.state.final_output()

O checkpoint pattern é ideal para fluxos longos onde o custo de descobrir um erro tarde é alto. Você não revisa cada linha, mas valida os outputs de cada fase antes de investir na próxima.

Padrão 2: Escalation Pattern

O agente executa com total autonomia, mas tem um mecanismo de detecção de situações fora do escopo definido. Quando detecta, pausa e escala — sem ter chegado a um ponto de checkpoint predefinido.

class AgentWithEscalation:
    def __init__(self, scope: AgentScope, escalation_handler):
        self.scope = scope
        self.escalation_handler = escalation_handler

    async def execute(self, action: Action) -> ActionResult:
        # Verifica se a ação está dentro do escopo autorizado
        scope_check = self.scope.validate(action)

        if scope_check.requires_escalation:
            return await self.escalation_handler.handle(
                action=action,
                reason=scope_check.escalation_reason,
                agent_recommendation=await self.generate_recommendation(action)
            )

        # Executa normalmente se dentro do escopo
        return await self.run_action(action)

Esse padrão funciona bem quando a variação do que o agente vai encontrar é alta e não dá para prever todos os checkpoints antecipadamente.

Diagrama do Escalation Pattern: fluxo de execução do agente com detecção de situações fora do escopo e handoff estruturado para o humano

Padrão 3: Review Pattern

O agente executa completamente e entrega um output final. O humano revisa o output e dá feedback. O agente refina com base no feedback. Esse ciclo se repete até aprovação.

async def review_loop(
    agent: Agent,
    task: Task,
    max_iterations: int = 3
) -> FinalOutput:
    for iteration in range(max_iterations):
        output = await agent.execute(task)

        # Apresenta para revisão humana com contexto
        review = await human_review(
            output=output,
            iteration=iteration,
            previous_feedback=task.feedback_history
        )

        if review.approved:
            return output

        # Enriquece a task com o feedback para a próxima iteração
        task = task.with_feedback(review.feedback)

    # Se esgotou iterações sem aprovação, escala para revisão manual completa
    raise MaxIterationsExceeded(task, output)

O review pattern é o mais familiar para devs porque é análogo ao processo de code review. Funciona muito bem para outputs criativos ou de alta variabilidade, como documentação, comunicações, análises estratégicas.

O Novo Papel do Tech Lead: Arquiteto de Squad

Implementar uma squad híbrida não é um problema de engenharia de software no sentido tradicional. É um problema de design organizacional com componentes técnicos.

O tech lead que constrói squads híbridas precisa responder perguntas que antes eram território de PM ou de gestão de times:

Quais são as competências únicas dos agentes neste domínio e quais são as lacunas?
Em que pontos do fluxo o julgamento humano agrega mais valor?
Como vamos medir a qualidade dos outputs dos agentes ao longo do tempo?
Qual é o critério para expandir a autonomia dos agentes conforme a confiança cresce?

O McKinsey, em relatório de março de 2026, chamou essa figura de "Agentic Architect" — o profissional técnico que projeta sistemas onde humanos e agentes colaboram de forma que cada um faça o que faz melhor.

É um papel novo. Mas para quem já tem a base técnica, a curva de aprendizado é principalmente conceitual: entender que você está projetando um time, não só um sistema.

Erros Comuns (e Como Evitá-los)

Erro 1: Inserir o humano nos pontos errados. Revisar outputs de baixo risco e liberar outputs de alto risco sem revisão. A solução é mapiar explicitamente o risco de reversibilidade de cada etapa antes de definir os checkpoints.

Erro 2: Não dar contexto suficiente no handoff. O humano recebe uma notificação genérica de "aguardando aprovação" sem entender o que está aprovando. Resultado: aprovação sem reflexão ou retrabalho de entendimento. O briefing estruturado é obrigatório.

Erro 3: Não capturar o feedback. Cada revisão humana vira um silo de decisão que não alimenta nenhum aprendizado. O sistema não melhora. A confiança nos agentes não cresce. Você fica preso num nível de autonomia mínimo para sempre.

Erro 4: Escalar tudo. Inserir pontos de revisão humana em excesso para "garantir qualidade" elimina a velocidade que justifica os agentes. Se você vai revisar tudo, por que construiu a squad?

Métricas Para Avaliar Sua Squad Híbrida

Uma squad híbrida bem projetada deve ser medida de forma diferente de um time puramente humano ou de um sistema puramente automatizado. As métricas tradicionais de engenharia capturam parcialmente o que importa, mas deixam pontos cegos críticos.

Taxa de escalação e resolução. Quantas vezes por ciclo o agente escala para humano, e qual percentual dessas escalações resulta em aprovação imediata versus retrabalho. Alta taxa de retrabalho indica que os limites de autonomia estão mal calibrados — o agente está escalando nos momentos errados ou com briefings insuficientes.

Tempo de resposta em escalações. Se escalações ficam na fila por mais de algumas horas, você tem um problema de design. Ou os briefings são ruins (humano não consegue responder sem fazer muito trabalho de contexto), ou o volume de escalações é alto demais para o número de humanos disponíveis. Ambos têm soluções de design.

Qualidade de output comparativa. Periodicamente, compare a qualidade de outputs totalmente agênticos com outputs que passaram por revisão humana. Se a diferença for pequena, você pode estar inserindo humanos em mais pontos do que necessário. Se a diferença for grande, os limites de autonomia são muito amplos.

Drift de comportamento. Agentes têm tendência a "driftar" — gradualmente ampliar seu escopo de ação além do que foi intencionado, especialmente em sistemas de longa duração. Auditorias periódicas do que o agente está fazendo versus o que foi especificado são necessárias para detectar drift antes que cause incidentes.

Velocidade de onboarding de novos domínios. Uma squad híbrida bem projetada deve conseguir incorporar novos domínios de tarefa com investimento controlado de calibração. Se cada novo tipo de tarefa requer semanas de ajuste intenso, a arquitetura de limites provavelmente está acoplada demais ao domínio específico.

Conclusão

A squad híbrida não é uma solução de compromisso entre autonomia total e controle total. É o design correto para a maioria dos casos de uso em produção — e esse design exige intencionalidade.

Os padrões de Checkpoint, Escalation e Review não são mutuamente exclusivos. A maioria das squads híbridas maduras usa os três em diferentes partes do fluxo, dependendo do tipo de risco de cada etapa.

O que torna uma squad híbrida funcionar bem não é a tecnologia dos agentes — essa parte está cada vez mais acessível. É o design de onde o humano entra, como o handoff acontece, e como o feedback é capturado e incorporado.

Squads que acertam esse design entregam mais rápido e com mais qualidade do que times puramente humanos ou sistemas puramente agênticos. É uma vantagem competitiva real — e ainda está disponível para quem montar antes que se torne a norma.

Squads Agênticas, Human in the Loop e Squads Híbridas: Como Montar um Time que Realmente Funciona

Receba os melhores artigos toda semana