Texto agregado para leitura rápida. Confira sempre a fonte original ao enviar a candidatura.
Descrição da vaga
No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.
Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.
A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:
- Benefícios que fazem a diferença
- Opções de desenvolvimento
- Um ambiente que inspira
Buscamos um(a) SRE Pleno com foco em operação de ambientes híbridos (cloud multicloud e on-premises) para atuar como ponto de referência no acompanhamento contínuo de alertas de infraestrutura e requisições. O profissional será responsável por garantir a saúde operacional dos ambientes, atuando proativamente na resolução de ocorrências. Terá visão ampla do ambiente, operando com AWS, Azure, GCP, infraestrutura on-premises com VMware, Kubernetes, Linux, Windows Server e ferramentas de observabilidade.
Responsabilidades e atribuições
Responsabilidades Principais
Gestão de Incidentes
- Atuar como ponto de primeira resposta (N1/N2) no atendimento de incidentes em ambientes cloud (AWS, Azure, GCP) e on-premises, realizando triagem, classificação por severidade e registro formal seguindo ITIL.
- Executar diagnostico inicial de incidentes, investigando causa-raiz com base em logs, métricas e eventos de observabilidade (Zabbix, Grafana, CloudWatch e Dynatrace).
- Acionar e escalar corretamente para N2/N3 quando o incidente ultrapassar o escopo de atuação do nível, garantindo repasse preciso de informações e contexto.
- Documentar todos os incidentes com fidelidade: sintomas, ações tomadas, resolução, tempo de recuperação e lições aprendidas, alimentando a base de conhecimento da equipe.
- Participar da escala de plantão (on-call), garantindo cobertura e tempo de resposta dentro dos SLAs estabelecidos.
Monitoramento e Acompanhamento de Alertas
- Realizar o acompanhamento contínuo dos dashboards e alertas de infraestrutura, agindo proativamente antes que degradações se tornem incidentes críticos.
- Investigar alertas de capacidade, performance, disponibilidade e storage em ambientes cloud (AWS, Azure, GCP) e on-premises, tomando as ações corretivas necessárias ou escalando com contexto completo.
- Configurar e ajustar thresholds de alertas em Zabbix, Grafana e CloudWatch para reduzir falsos positivos e aumentar precisão do monitoramento.
- Manter visibilidade sobre a saúde dos clusters Kubernetes (EKS, AKS), pods, nodes e serviços, identificando e tratando instabilidades antes do impacto.
Gestão de Requisições
- Atender requisições de infraestrutura (provisionamento, ajuste de recursos, criação de acessos, configurações) dentro dos prazos e padrões estabelecidos.
- Executar tarefas operacionais de rotina: patches, backups, verificação de capacidade, limpeza de recursos obsoletos e atualização de inventario.
- Documentar todas as requisições e ações executadas no sistema ITSM, garantindo rastreabilidade completa.
Execução de GMUD — Gestão de Mudanças (ITIL)
- Planejar, documentar e executar GMUDs (Gestão de Mudanças) em ambientes de produção, seguindo o processo de Change Management do framework ITIL.
- Elaborar planos de mudança completos: escopo, janela de manutenção, plano de rollback, lista de impactos e critérios de sucesso.
- Apresentar e defender mudanças no CAB (Change Advisory Board) quando aplicável, com clareza sobre riscos e mitigações.
- Executar mudanças em janelas programadas, comunicando status em tempo real aos stakeholders e realizando verificação pós-mudança de saúde do ambiente.
Operação de Infraestrutura Cloud e On-Premises
- Operar e manter ambientes em AWS, Azure e GCP: provisionamento, monitoramento, ajuste de recursos e suporte a workloads em produção.
- Administrar infraestrutura on-premises: servidores VMware vSphere/ESXi, redes corporativas, storage e serviços Windows Server e Linux.
- Operar workloads em Kubernetes (EKS, AKS): verificação de saúde de pods, services e deployments; análise de logs e eventos de cluster; escalada de problemas de containers.
- Apoiar práticas básicas de FinOps: identificar recursos ociosos, sinalizar oportunidades de rightsizing e contribuir com relatórios de uso e custo.
Requisitos e qualificações
Coloque os requisitos que você gostaria que o perfil da pessoa candidata possua e que se encaixe com o que a área precisa/espera.
Stack Tecnológica / Ferramentas Esperadas
Cloud AWS: EC2, Auto Scaling, EKS, S3, EBS, EFS, VPC, IAM/SCP, CloudWatch, Route53, ALB/NLB
Cloud Azure: Virtual Machines, Blob Storage, Azure AD / Entra ID, NSG, Resource Groups, Azure DevOps
Kubernetes / Containers: EKS, AKS, Docker, Helm (leitura e operação), kubectl, logs e eventos de cluster
Storage — Cloud e On-prem: EBS, EFS, S3 lifecycle, SAN/NAS/NFS on-premises, AWS Backup ou equivalente, planejamento básico de IOPS e capacidade
Observabilidade: Zabbix, Grafana, Prometheus (consulta), CloudWatch, ELK Stack (leitura de logs), Dynatrace.
On-Premises: VMware vSphere/ESXi, Bare-metal Linux (Ubuntu, RHEL), Windows Server, Redes corporativas (VLAN, DNS, DHCP, VPN, firewalls)
Identidade e Acesso: Active Directory (AD DS, GPO, DNS, DHCP), Azure AD / Entra ID, IAM AWS
ITSM e ITIL: Jira Service Management ou equivalente; processos ITIL: Incident, Change, Request Management
Linguagens / Scripting: Bash/Shell, PowerShell, Python básico
CI/CD (operação básica): GitHub Actions, Azure DevOps — execução e acompanhamento de pipelines, não necessariamente construção
Competências Técnicas Obrigatórias
- Experiencia comprovada em operação de ambientes cloud AWS em produção, com capacidade de diagnostico e resolução de incidentes sem supervisão constante.
- Conhecimento solido em Linux e Windows Server: administração, logs, troubleshooting de serviços e conectividade.
- Experiência nas ferramentas de observabilidade (Zabbix, Grafana ou CloudWatch) para investigação de alertas e correlação de eventos.
- Experiencia com ITIL aplicado: abertura, classificação e resolução de incidentes; execução de GMUDs com plano de rollback.
- Active Directory: criação de usuários e grupos, GPOs, resolução de problemas de autenticação.
- Networking básico: TCP/IP, DNS, DHCP, VPN, firewalls, VLANs — suficiente para diagnosticar problemas de conectividade.
- Bash ou PowerShell em nível operacional para automação de tarefas rotineiras.
Diferenciais
- Experiencia em mais de uma cloud em ambiente produtivo (Azure + GCP).
- Kubernetes em operação: troubleshooting de pods, leitura de logs e eventos, escalonamento de problemas de cluster.
- Participação em CABs e elaboração de planos de mudança de alto impacto com rollback estruturado.
- Conhecimento básico em IaC (Terraform ou Ansible) para leitura e pequenas alterações de configuração.
- Noções de storage hibrido: tipos de volumes cloud (EBS, EFS) e storage on-premises (SAN/NAS).
Certificações
Candidatos com certificações adicionais nas frentes de Cloud e ITIL serão priorizados. A ausência total de certificações ou plano concreto de obtenção e fator de desempate negativo.
AWS Cloud Practitioner -
Diferencial forte
AWS Solutions Architect Associate -
Diferencial forte
AWS SysOps Administrator Associate - Diferencial
AZ-900 Azure Fundamentals - Desejável
AZ-104 Azure Administrator - Diferencial
CKA ou Docker Certified Associate - Diferencial
Formação Acadêmica
- Graduação em Ciência da Computação, Engenharia de Redes, Sistemas de Informação, Análise e Desenvolvimento de Sistemas ou áreas correlatas.
- Graduação em andamento será avaliada caso o candidato atenda plenamente os requisitos de experiencia prática e possua ao menos uma certificação técnica.
Informações adicionais
- Assistência Médica;
- Assistência Odontológica Omint;
- Seguro de Vida;
- PLR;
- PPR;
- ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
- Vale Refeição;
- Vale Alimentação;
- Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
- Auxílio Creche/Babá;
- Day Off anual;
- Auxílio Infraestrutura para Home Office;
- TotalPass;
Etapas do processo
- Cadastro
- Entrevista - Atração de Talentos
- Entrevista - Gestor
- Contratação
Quem somos
Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma.
Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua.
E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo.
ABC Brasil. O banco de quem é singular.
#EuSouSingular #SouABCBrasil #ABCBrasil