SRE Practitioner refere-se a um profissional treinado na Engenharia de Confiabilidade de Site (Site Reliability Engineering), ou seja, um especialista em tornar sistemas de software confiáveis, resilientes e eficientes. A certificação SRE Practitioner indica que o profissional domina princípios e práticas para garantir o bom funcionamento dos serviços, automatizar tarefas e melhorar a escalabilidade e segurança.
O que faz um SRE Practitioner
- Monitora e resolve problemas: Acompanha o desempenho dos sistemas, identifica problemas e toma ações para corrigi-los.
- Automatiza processos: Cria e mantém ferramentas para automatizar tarefas repetitivas, otimizando o trabalho das equipes.
- Garante a escalabilidade e confiabilidade: Trabalha para garantir que os sistemas possam crescer e continuar funcionando de forma estável, mesmo sob grande tráfego.
- Garante a segurança: Assegura que os sistemas estejam protegidos contra ameaças e em conformidade com regulamentações de segurança e privacidade.
- Colabora com outras equipes: Trabalha em conjunto com desenvolvedores e outras áreas para garantir que as necessidades do negócio sejam atendidas.
Público-alvo
O público-alvo para um SRE Practitioner inclui profissionais de TI, como engenheiros de software, administradores de sistemas e profissionais de DevOps que buscam aprimorar a confiabilidade e a eficiência dos sistemas em produção. O perfil também abrange gestores de processo e serviços, pois o conhecimento em SRE melhora a capacidade de gerenciar incidentes, automação e métricas de desempenho.
Pré-requisito
Não existem pré-requisitos obrigatórios para a certificação SRE Practitioner, mas é altamente recomendado ter uma compreensão básica de SRE e DevOps e, idealmente, possuir a certificação SRE Foundation ou experiência de trabalho relacionada. O conhecimento em temas como automação, monitoramento, gerenciamento de incidentes, microsserviços, nuvem e segurança também é um diferencial.
Conteúdo programático
- Antipadrões (Anti-Patterns) em SRE: Identificação de práticas contraproducentes e como elas impactam a confiabilidade dos sistemas, oferecendo alternativas corretivas.
- SLO como Proxy para a Felicidade do Cliente: Definição de Indicadores de Nível de Serviço (SLIs) que medem a confiabilidade da perspectiva do usuário, gerenciamento de orçamentos de erro (Error Budgets) e como usá-los para tomar decisões baseadas em dados.
- Construção de Sistemas Seguros e Confiáveis: Tópicos avançados de design para tolerância a falhas, resiliência, escalabilidade e integração de segurança (DevSecOps).
- Observabilidade Full-Stack: Instrumentação, coleta de métricas, tracing distribuído, monitoramento sintético e desenvolvimento orientado por observabilidade.
- Engenharia de Plataforma e AIOps: Abordagens centradas em plataforma, automação e orquestração em SRE, e uso de inteligência operacional e aprendizado de máquina (AI/ML) para gerenciamento de incidentes.
- Gerenciamento de Incidentes e Resposta: Definição de papéis e responsabilidades na resposta a incidentes, aplicação de frameworks (como OODA) e remediação automatizada.
- Chaos Engineering (Engenharia do Caos): Princípios e estratégias para testes de resiliência, planejamento e execução de exercícios controlados ("game days") e aprendizado com falhas controladas.
- SRE como a Forma Mais Pura de DevOps: Integração profunda das práticas de SRE nos fluxos de trabalho de DevOps, enfatizando a automação consistente de processos para resiliência.
Objetivos principais:
- Melhorar a confiabilidade e resiliência dos sistemas: Projetar e operar sistemas que sejam resistentes a falhas, com arquiteturas escaláveis e eficientes.
- Reduzir o toil (trabalho manual e repetitivo): Automatizar tarefas operacionais, liberando tempo para focar em projetos de engenharia de software e melhoria contínua.
- Garantir a disponibilidade e o desempenho: Monitorar métricas chave e garantir que os serviços atendam aos Objetivos de Nível de Serviço (SLOs) e aos Indicadores de Nível de Serviço (SLIs) definidos.
- Promover a colaboração e a automação: Trabalhar em conjunto com outras equipes, aplicando princípios de engenharia de software e automação para quebrar silos entre desenvolvimento e operações.
- Implementar práticas de engenharia e automação: Utilizar automação em tarefas como lançamentos (engenharia de lançamentos), monitoramento, remediação de problemas e testes de construção.
Ações e Foco do Trabalho
- Equilibrar o trabalho: Dedicar aproximadamente metade do tempo a tarefas operacionais (como resposta a incidentes e manutenção) e a outra metade a projetos de engenharia (como desenvolvimento de automações e melhorias de escalabilidade).
- Gerenciar riscos: Incorporar a gestão de riscos na tomada de decisões e usar políticas como o "orçamento de erro" para equilibrar a inovação com a estabilidade.
- Responder a incidentes: Implementar processos eficientes para a resposta a incidentes, incluindo a análise pós-incidente para evitar futuras recorrências.
- Planejar a capacidade: Realizar planejamento de capacidade para garantir que os sistemas possam escalar de acordo com as necessidades futuras.
EXAME

40 questões
Tempo: 90 min
Múltipla escolha
Aprovação 65%
Livro aberto (com consulta ao material autorizado)