E
LinkedIn

Lead Site Reliability Engineer

EPAM Systems Brazil 25 candidaturas 13 dias atrás

Salário estimado

R$ 11k - 17k/mês

Sênior CLT
29%

Score de curadoria

Indicador interno 0 a 100: transparência salarial, stack, descrição útil e sinais de qualidade do anúncio. Não é match com o seu CV.

Descrição da vaga

Texto agregado para leitura rápida. Confira sempre a fonte original ao enviar a candidatura.

We are seeking a Lead Site Reliability Engineer with substantial expertise in enhancing the reliability, availability, performance and scalability of production environments. The right candidate will bring a strong software engineering mindset paired with deep operational knowledge, cloud expertise, automation capabilities and practical incident management experience.

This position centers on engineering dependable systems, minimizing operational toil, strengthening observability and supporting engineering teams in delivering services that align with established reliability targets.

 

Responsibilities

  • Architect and deliver solutions that enhance system reliability, availability and performance
  • Establish and track SLIs, SLOs and error budgets
  • Develop automation that eliminates manual operational effort and recurring tasks
  • Enhance monitoring, logging, tracing and alerting capabilities
  • Engage in incident response, root cause investigation and postmortems
  • Partner with development teams to strengthen service resilience and operability
  • Maintain production systems and assist in resolving complex technical problems
  • Contribute to capacity planning, performance tuning and disaster recovery efforts
  • Advocate reliability engineering practices across teams

Requirements

  • 5+ years of experience in SRE, DevOps, Platform Engineering or Production Engineering roles
  • At least 1 year of relevant leadership experience
  • Practical experience operating production systems at scale
  • Familiarity with cloud platforms including AWS, Azure or GCP
  • Deep knowledge of observability tooling covering monitoring, logging, tracing and alerting
  • Proven experience with incident management, postmortems and root cause analysis
  • Solid scripting or programming abilities in Python, Go, Bash or comparable languages
  • Working experience with Linux systems, networking and distributed systems fundamentals
  • Familiarity with containers and orchestration platforms including Docker and Kubernetes
  • Sound understanding of CI/CD, automation and Infrastructure as Code
  • Excellent problem-solving abilities and capacity to perform under pressure
  • Proficient communication skills in English (B2 level or higher)

Nice to have

  • Background in defining SLIs, SLOs and error budgets
  • Hands-on experience with Prometheus, Grafana, Datadog, New Relic, Splunk, ELK or comparable tools
  • Familiarity with Terraform or other IaC technologies
  • Exposure to chaos engineering or resilience testing
  • Experience with high-availability systems and disaster recovery planning
  • Certifications in cloud or Kubernetes

Vagas relacionadas

Seleção por stack em comum com esta oportunidade

I
LinkedIn
Match35%

FUTUROS IBLUERS 💙🚀

iblue Rio de Janeiro 88 candidaturas Hoje

Salário estimado

R$ 4k - 7k/mês

Júnior CLT

Sabe aquele game que a gente comprava antigamente e ficava empoeirado na estante enquanto a gente ia jogando sempre os mesmos jogos? Acho que é assim que a maioria vê a página de Banco de Talentos 🤣Mas caaalma! Temos orgulho em dizer que a iblue é Digital + Ágil, então as coisas por aqui são bem ma...

Ver Detalhes
U
LinkedIn
Match50%

Pessoa Desenvolvedora Python

UEX Tecnologia Curitiba, Paraná, Brazil 25 candidaturas Hoje

Salário estimado

R$ 12k - 17k/mês

Sênior CLT

Sobre a UEX 🖤🐉Somos Nerds e Empreendedores!A UEX é um estúdio de tecnologia, que opera no modelo de Startup Studio. Uma empresa de tecnologia, especialista em desenvolvimento, lançamento e operação de produtos e plataformas digitais.🐉 COMO VOCÊ VAI CRIAR DRAGÕES? Como Pessoa Desenvolvedora aqui n...

Ver Detalhes
G
LinkedIn
Match35%

Programa de Estágio em IA

Grupo Vilarejo Rio de Janeiro 25 candidaturas Hoje

Salário estimado

R$ 9k - 13k/mês

Pleno CLT

Missão do CargoAtuar no desenvolvimento de soluções de Inteligência Artificial que gerem valor direto ao negócio, otimizando processos, personalizando a experiência dos clientes e automatizando rotinas administrativas, com foco em entregas práticas e aplicáveis à realidade do Grupo Vilarejo.Conhecim...

Ver Detalhes