Ingeniero de IA (Fine-tuning y Despliegue)
Empresa
Luxen
Estado
Ciudad de México
Ciudad
Ciudad de Mexico
Tipo de Contrato
Tiempo Completo
Descripción
Ingeniero de IA (Fine-tuning y Despliegue)
Título: Senior ML Engineer (LLMOps).
Dominio: Infraestructura de Modelos de Lenguaje y GPU Computing
Experiencia: +3 años. Experto en técnicas de cuantización (GGUF/EXL2), Fine-tuning (LoRA, DLoRA, QLoRA) y alineación de modelos mediante DPO (Direct Preference Optimization).
Tareas Principales:
Desplegar y gestionar el clúster de GPUs con vLLM y LoRAX para permitir la ejecución paralela de múltiples adaptadores DLoRA (uno por Experto Digital).
Configurar el servidor de inferencia (TensorRT-LLM o Triton) para optimizar la latencia de respuesta del Nodo A.
Gestionar el pipeline de entrenamiento y fine-tuning junto al Ingeniero de Algoritmos.
Configurar y mantener los entornos de ejecución aislada (gVisor) del sandbox Python (Nodo B - Sandbox Matemático).
Implementar CI/CD de Modelos (automatización de despliegue de nuevas versiones de DLoRA sin downtime).
Monitorear métricas de inferencia: latencia de token, throughput y costo por query.
Tareas Clave:
Entrenar y optimizar el Nodo A de IA (12B) para redacción y el Nodo B (8B) para auditoría.
Implementar el "Airlock" de gobernanza para transiciones de datos seguras.
Gestionar el despliegue de modelos en entornos locales (On-premise/VPC).
Entregables Clave:
Clúster GPU operativo con vLLM multi-DLoRA.
Pipeline CI/CD de modelos automatizado.
Remuneración pretendida.
Posibilidad de trasladarse para trabajar en República Dominicana.
Postúlate para mas información
Título: Senior ML Engineer (LLMOps).
Dominio: Infraestructura de Modelos de Lenguaje y GPU Computing
Experiencia: +3 años. Experto en técnicas de cuantización (GGUF/EXL2), Fine-tuning (LoRA, DLoRA, QLoRA) y alineación de modelos mediante DPO (Direct Preference Optimization).
Tareas Principales:
Desplegar y gestionar el clúster de GPUs con vLLM y LoRAX para permitir la ejecución paralela de múltiples adaptadores DLoRA (uno por Experto Digital).
Configurar el servidor de inferencia (TensorRT-LLM o Triton) para optimizar la latencia de respuesta del Nodo A.
Gestionar el pipeline de entrenamiento y fine-tuning junto al Ingeniero de Algoritmos.
Configurar y mantener los entornos de ejecución aislada (gVisor) del sandbox Python (Nodo B - Sandbox Matemático).
Implementar CI/CD de Modelos (automatización de despliegue de nuevas versiones de DLoRA sin downtime).
Monitorear métricas de inferencia: latencia de token, throughput y costo por query.
Tareas Clave:
Entrenar y optimizar el Nodo A de IA (12B) para redacción y el Nodo B (8B) para auditoría.
Implementar el "Airlock" de gobernanza para transiciones de datos seguras.
Gestionar el despliegue de modelos en entornos locales (On-premise/VPC).
Entregables Clave:
Clúster GPU operativo con vLLM multi-DLoRA.
Pipeline CI/CD de modelos automatizado.
Remuneración pretendida.
Posibilidad de trasladarse para trabajar en República Dominicana.
Postúlate para mas información