[Remote] 1033- AI Engineer (Evaluation Systems)
Salário Estimado
R$ 4.500,00 - R$ 5.000,00
Descrição da Vaga
Note: The job is a remote job and is open to candidates in USA.
GoFasti is a Talent-as-a-Service company that connects top talent from LatAm with leading companies globally.
They are seeking an AI Engineer specializing in Evaluation Systems to design and implement structured evaluation engines and workflows, ensuring high-quality model performance and reliability.
Responsibilities • Design a structured, configurable evaluation engine
It was founded in 2021, and is headquartered in Dallas, Texas, USA, with a workforce of 51-200 employees.
Its website is http://www.gofasti.com.
Requisitos
- 4+ years total backend / ML engineering experience
- 2+ years building production AI/LLM systems
- Experience with Python, Docker and PostgreSQL
- Experience with AWS, OpenAI, Anthropic, and other LLM APIs
- Proven experience building LLM-based systems in production environments where output quality and reliability were critical
- Experience developing evaluation, QA, or scoring pipelines to assess model performance
- Strong understanding of precision/recall trade-offs and working with real-world data
- Ability to design and implement systems that produce reliable, structured outputs from LLMs
- Strong Python programming skills, including experience with asynchronous programming
- Experience deploying and managing services on AWS
- Human-in-the-loop workflow design
- OpenTelemetry familiarity
Responsabilidades
- Design a structured, configurable evaluation engine
- Combine deterministic checks with LLM-as-judge verdicts
- Build calibration workflows using expert-labeled examples
- Measure precision and recall properly (not raw agreement)
- Handle delayed outcomes and low-confidence review flows
- Store structured verdicts that power dashboards and analytics
- Monitor drift and trigger recalibration when alignment drops
- Specialized judges for specific failure patterns
- Content-level evaluation (with careful PII handling)
- Error analysis pipelines that drive workflow redesign
- A/B testing for judge versions
- Eval-driven fine-tuning data curation
Vagas Semelhantes
Engenheiro(a) de Software Sr - Python
R$ 7k - 11k/mês
O AgRisk é um HUB completo de inteligência que reúne dados, tecnologia, governança e análise para apoiar todas as etapas da jornada do crédito agro. Como solução pioneira no setor, estabelece um novo padrão de eficiência, simplicidade e precisão, tornando as decisões mais rápidas, seguras e consiste...
Desenvolvedor Python
R$ 6k - 10k/mês
Sobre a Empresa Há mais de 20 anos mercado, somos uma consultoria estratégica de Inovação e Transformação Digital. Nossa especialidade é impulsionar as demandas de nossos clientes, integrando processos, pessoas e tecnologia de alta performance. Sobre o Cargo: Desenvolvedor Experiência sólida com Pyt...
Desenvolvedor Fullstack - Java/Angular Pleno
R$ 7k - 10k/mês
Na Stefanini, acreditamos no poder da colaboração. Co-criamos soluções inovadoras em parceria com nossos clientes, combinando tecnologia de ponta, inteligência artificial e a criatividade humana. Estamos na vanguarda da resolução de problemas de negócios, proporcionando impacto real em escala global...
Desenvolvedor Python
R$ 9k - 13k/mês
Sobre a Empresa Há mais de 20 anos mercado, somos uma consultoria estratégica de Inovação e Transformação Digital. Nossa especialidade é impulsionar as demandas de nossos clientes, integrando processos, pessoas e tecnologia de alta performance. Sobre o Cargo: Desenvolvedor Experiência sólida com Pyt...
Informações
Análise de Vaga com IA
Estimativa salarial, match de tecnologias e análise de requisitos feitos com Inteligência Artificial
Powered by CodeCortex