Texto agregado para leitura rápida. Confira sempre a fonte original ao enviar a candidatura.
Descrição da vaga
Nossa área de Engenharia de Dados é o coração analítico da empresa. Somos responsáveis por construir, otimizar e manter a infraestrutura robusta e escalável que transforma dados brutos em ativos estratégicos prontos para consumo por áreas de negócio, ciência de dados e relatórios gerenciais.
Operamos em um ambiente de nuvem 100% Google Cloud Platform (GCP), utilizando o BigQuery como nosso data warehouse principal de última geração. Trabalhamos em estreita colaboração com times de produto, BI e analytics para entender as necessidades de informação e desenhar soluções que garantam qualidade, performance e governança dos dados. Nosso dia a dia envolve a gestão de pipelines ETL/ELT complexos, desde a ingestão de diversas fontes (internas e externas) até a disponibilização final em datasets otimizados.
Para nós, engenharia de dados não é apenas sobre mover bytes, mas sim sobre habilitar a tomada de decisão orientada a dados em toda a organização. Além disso, valorizamos a autonomia, a inovação e a busca constante por otimização de custos e performance dentro do ecossistema GCP.
Se você busca um lugar onde seu trabalho tem impacto direto no negócio e onde o BigQuery é a estrela, este é o seu lugar.
Responsabilidades e atribuições
O Engenheiro de Dados terá um papel fundamental na evolução e manutenção do nosso ecossistema de dados, com foco total no BigQuery e no ecossistema GCP.
Suas principais atribuições incluirão:
- Desenho e Implementação de Pipelines de Dados: Projetar, construir e manter pipelines de dados escaláveis (ETL/ELT) utilizando tecnologias como Cloud Dataflow (Apache Beam), Cloud Composer (Apache Airflow) ou Cloud Functions para ingestão de dados em batch e streaming no BigQuery.
- Otimização de Performance e Custos no BigQuery: Liderar a análise e otimização de schemas, particionamento, clustering e consultas SQL complexas no BigQuery, garantindo alta performance e controle rigoroso sobre os custos de storage e query.
- Modelagem de Dados: Definir e implementar modelos de dados robustos (ex: Data Vault, Dimensional) no BigQuery que atendam às necessidades de business intelligence e machine learning, assegurando a integridade e qualidade dos dados.
- Governança e Qualidade de Dados (Data Quality): Implementar mecanismos de monitoramento, alerta e validação de dados para garantir a acuracidade, completude e pontualidade dos datasets críticos, utilizando ferramentas do GCP (como Data Catalog ou soluções custom).
- Mentoria e Liderança Técnica: Atuar como referência técnica para engenheiros juniores e plenos, revisando código, definindo padrões de engenharia e disseminando as melhores práticas do ecossistema GCP/BigQuery.
- Documentação: Garantir que toda a arquitetura, modelos de dados e pipelines estejam devidamente documentados e versionados.
Além disso, o profissional irá enfrentar desafios estratégicos e técnicos que são cruciais para a escala e eficiência do nosso ambiente de dados, como:
- Otimização Massiva de Custos e Performance no BigQuery: O maior desafio é balancear a crescente demanda por dados com a gestão inteligente dos recursos do BigQuery. Isso implica em: reescrever queries históricas ineficientes, projetar schemas para scan mínimo de dados e implementar estratégias avançadas de uso de slots para manter a performance sob controle, garantindo que o custo unitário por dado servido seja o menor possível.
- Unificação e Governança de Fontes de Dados Heterogêneas: Temos uma variedade de sistemas legados e microserviços gerando dados em diferentes formatos (JSON, CSV, bancos de dados transacionais, logs). O desafio é padronizar a ingestão em tempo hábil, aplicar regras de qualidade de dados rigorosas no Dataflow/Airflow antes da persistência e criar um catálogo de dados unificado (Data Catalog) que garanta confiança nas métricas reportadas.
- Transição de Pipelines Batch para Streaming Híbrido: Evoluir a arquitetura atual de batch scheduling (Airflow) para uma arquitetura que suporte ingestão em streaming com baixa latência (Pub/Sub e Dataflow) para dados de missão crítica, garantindo a atomicidade e a entrega exactly-once sem comprometer a robustez ou gerar retrabalho nos consumidores a jusante.
- Apoio a Casos de Uso de Machine Learning (ML): Construir feature stores e datasets prontos para ML, garantindo que os dados de treinamento e scoring estejam sempre frescos, livres de data drift e otimizados para o consumo pelo time de Ciência de Dados (integração direta com o ecossistema Vertex AI), agilizando o ciclo de vida dos modelos.
- Manter a Cultura de IaC (Infrastructure as Code) sob Escala: Com o crescimento de nossa empresa, a infraestrutura de dados se expande. O desafio é garantir que 100% dos recursos (BigQuery datasets, Dataflow jobs, Cloud Storage buckets) sejam gerenciados via Terraform e versionados, mantendo o ambiente consistente, auditável e permitindo a rápida replicação para ambientes de desenvolvimento e stage.
Requisitos e qualificações
Buscamos um profissional com experiência e profundo conhecimento do ecossistema de dados na nuvem, sendo o BigQuery o pilar central.
Requisitos Obrigatórios:
- Experiência Comprovada: Mínimo de 3 anos de experiência relevante em Engenharia de Dados.
- Domínio do BigQuery: Experiência avançada em otimização de queries (SQL), gestão de slots, particionamento, clustering, views materializadas e entendimento profundo do modelo de custos e arquitetura interna do BigQuery.
- Proficiência em Python: Habilidade para desenvolver códigos robustos, eficientes e testáveis para manipulação de dados e construção de pipelines.
- Google Cloud Platform (GCP): Experiência prática com, pelo menos, 3 das seguintes ferramentas: Cloud Dataflow (Apache Beam), Cloud Composer (Apache Airflow), Cloud Storage, Cloud Pub/Sub, Cloud Functions.
- Modelagem de Dados: Conhecimento e aplicação de diferentes técnicas de modelagem dimensional (ex: Star Schema, Snowflake) e/ou Data Vault.
- Automação e Infraestrutura: Experiência com Terraform ou outra ferramenta de IaC, e familiaridade com Git e pipelines CI/CD.
- DataOps e Monitoramento: Experiência na implementação de testes de qualidade de dados e monitoramento de pipelines em ambiente de produção.
- Comunicação: Capacidade de comunicar conceitos técnicos complexos para audiências não-técnicas e influenciar decisões de arquitetura.
Qualificações Desejáveis:
- Certificação Google Cloud (Ex: Professional Data Engineer).
- Experiência com ferramentas de stream processing (Ex: Kafka, Pub/Sub).
- Conhecimento em Machine Learning Engineering e integração com Vertex AI.
- Conhecimento em Gemini Enterprise.
Informações adicionais
Base de trabalho: Barra Funda - São Paulo/SP
Modelo de trabalho: Presença Fixa nos primeiros meses, e depois há possibilidade de atuação no modelo híbrido
Horário comercial: Disponibilidade 08h às 18h30
Escala de trabalho: 5x2 - segunda a sexta
Benefícios:
Vale Alimentação e Refeição Flexíveis;
Plano de Saúde;
Plano Odontológico;
Wellhub e TotalPass;
Participação nos Lucros - PLR;
Programa de Ações: Porto em Ação: complementar à PLR até 2026;
Vale-Transporte;
Licença Parental Estendida: até 40 dias para todas as configurações familiares;
Licença Maternidade Estendida de 6 meses.;
Ambulatório Médico com Especialidades: no Complexo Matriz e Barra Funda;
Auxílio creche ou babá;
Seguro de Vida;
Previdência Privada - PortoPrev;
Desconto em Produtos e Serviços;
Bolsa de estudos: Reembolso para graduação, pós ou MBA;
Corridas mensais: subsídio para as principais corridas de ruas de São Paulo
Reembolso para idiomas (inglês ou espanhol);
Teatro Porto: sessões exclusivas para Colaboradores.
Na Porto, Você Importa!
A Porto é muito mais que uma seguradora: é um ecossistema gigante que utiliza tecnologia para criar soluções, através de quatro verticais de negócio:
Porto Bank, Porto Saúde, Porto Seguro e Porto Serviço. A reputação e o reconhecimento conquistados ao longo de mais de 7 décadas reforçam o tamanho da Porto, uma empresa referência em negócios, feita para e por pessoas.
Aqui, bate no peito de 13 mil colaboradores o
orgulho de fazer parte de uma organização sólida e ética,
que transforma sonhos em realidades fantásticas para os nossos mais de 15,8 milhões de clientes. São mais de 101 sucursais e escritórios regionais em todo o Brasil.
O aprendizado faz parte do nosso DNA, e aqui, você terá
incentivos, ferramentas e gente boa para você aprender e crescer, a cada dia, um ambiente de acolhimento e segurança, onde cada um possa ser e se orgulhar de quem se é, promovendo um espaço de respeito e
vivendo de forma integral e com bem-estar, em uma empresa genuinamente humana.
DIVERSIDADE & INCLUSÃO NA PORTO
Aqui na Porto, valorizamos a diversidade e acreditamos que um time plural é imprescindível para o desenvolvimento de todo o nosso negócio, da sociedade, e de cada pessoa, pois entendemos que cada indivíduo é único na construção de um ambiente mais inovador e inclusivo. Juntos, trabalhamos diariamente para construirmos um espaço seguro, livre e acolhedor, com mais pluralidade e respeito. Por isso,
incentivamos fortemente a inscrição de mulheres, de pessoas negras e indígenas, de pessoas com deficiência e de pessoas LGBTQIA+ em todas as nossas vagas.