Experiencia: Al menos 1-2 años en centros de monitoreo (NOC), soporte técnico de primer nivel o administración de sistemas.Experiencia en manejo de tickets y procesos de soporte (Jira, ServiceNow u otros), incluyendo documentación clara de diagnóstico, evidencias y comunicación.Experiencia en manejo de herramientas de Monitoreo/Observabilidad como Prometheus, Grafana, Elasticsearch, Opensearch, OpenNMS. Lectura e interpretación de métricas, eventos, logs, alarmas.Experiencia en sistemas productivos de misión crítica, incluyendo gestión de incidentes, coordinación de acciones en producción, escalamiento y comunicación efectiva.Conocimientos Específicos / Requisitos Técnicos: Linux en entornos productivos: troubleshooting de servicios y sistema operativo (systemd, journalctl), permisos/usuarios, procesos, filesystem y redes.Networking en Linux: configuración y diagnóstico de interfaces, VLANs, rutas, bonding y MTU; troubleshooting con herramientas como tcpdump (sniffing), ip, ss, ethtool, ping/tracerouteKubernetes: operación/administración y troubleshooting en producción (Pods, Deployments/DaemonSets, Services, eventos/logs, readiness/liveness; nociones de storage PV/PVC).Virtualización: experiencia operando y dando soporte a entornos virtualizados (KVM/VMware/Hyper-V u otros), incluyendo diagnóstico de fallas comunes de cómputo, red y almacenamiento.Automatización: capacidad para resolver tareas repetibles mediante Bash y Ansible y/o Python (recolección de información, checks operativos, remediación básica, scripts seguros para producción).Inglés intermedio para leer/escribir documentación técnica, realizar actualizaciones a stakeholders e interactuar con proveedores/fabricantes ante casos de soporte.Requisitos ProfesionalesAutonomía (para lograr los mejores resultados)Adherencia a estándares de clase mundialOrientación al objetivo.Apertura de aprender nuevas tecnologíasPensamiento analíticoTrabajo en equipo (para coordinar con equipos de desarrollo y despliegue de productos)Rápida adaptación a un entorno altamente dinámicoFormación: Ingeniería Informática, Ingeniería de Sistemas, Ingeniería Electrónica, o afín. Monitoreo Proactivo: Vigilancia constante de dashboards y alertas (infraestructura física, virtual y servicios) para garantizar la disponibilidad del 99,999%.Gestión de Incidentes (Triage): Recepción, categorización y priorización de alertas. Apertura y seguimiento riguroso de tickets bajo metodologías ITIL.Resolución Técnica Inicial: Diagnóstico y resolución de fallas de complejidad baja y media (ej. reinicio de servicios, limpieza de logs, ajustes de cuotas, verificación de conectividad básica).Escalamiento Estructurado: Cuando la complejidad supera el nivel inicial, escalar a L1/L2 entregando un reporte técnico completo (logs, trazas de red, pasos de reproducción y contexto del cliente).Documentación de Casos: Mantener actualizada la bitácora de eventos y la base de conocimientos (KB) sobre incidentes recurrentes.Comunicación Externa: Notificar a los clientes sobre estados de salud, ventanas de mantenimiento e incidentes en curso de forma clara y oportuna.Health Checks: Ejecución de rutinas periódicas de validación de salud en plataformas productivas.Velar por el cumplimiento de SLA de incidencias y disponibilidad de red y serviciosGeneración y análisis de reportes de disponibilidad de las plataformas Whitestack despliega nubes privadas en distintas capitales de Latinoamérica. En cada uno de estos sitios opera decenas o incluso cientos de servidores, interconectados mediante redes de alta velocidad y diseñados para soportar aplicaciones de misión crítica incluyendo el tráfico de voz de operadores móviles, lo que exige niveles de disponibilidad cercanos al 99,999%.Por esta razón estamos buscando a los mejores ingenieros para su área de Cloud Support. El Cloud NOC Engineer es el guardián de esta infraestructura. Su misión es el monitoreo proactivo 24/7 de la salud de los centros de datos, detectando anomalías antes de que afecten el servicio. Es el primer frente de respuesta, encargado de la gestión integral de incidentes: desde la detección y apertura de tickets hasta la resolución de fallas de complejidad baja/media y el escalamiento técnico estructurado hacia los niveles L1/L2.Horarios: México, Colombia, Perú desde la 1PM. Argentina, Chile, Uruguay desde las 8AM. 🌎 Proyección internacional: Participa en iniciativas globales y viaja para colaborar con equipos en distintos países.⚖️ Equilibrio real: Diseñamos políticas que se ajustan a tu estilo de vida y te permiten trabajar con autonomía y propósito.📈 Crecimiento claro: Te ofrecemos una línea de carrera sólida en liderazgo y tecnología. Salud primero: Seguro médico privado para ti y tu familia.📚 Aprendizaje sin límites: Acceso a cursos, libros, materiales y reembolso de certificaciones.🌐 Idiomas para el mundo: Cursos de idiomas.💻 Tecnología en tus manos: Renovamos tu equipo cada 3 años... ¡y es tuyo al finalizar el período!🏆 Reconocimiento al esfuerzo: Bonos por rendimiento y éxito en proyectos.🎉 Tiempo para ti: 15 días de vacaciones mínimo, día libre por tu cumpleaños y descansos extra (Fiestas Patrias, Navidad y Año Nuevo)🤝 Conexión y diversión: Presupuesto para actividades recreativas e integración.💡 Cultura de innovación: Tus ideas importan. Promovemos la participación. Experiencia en OpenStack (operación, troubleshooting o administración) y/o KVMConocimientos del modelo de operación de una red Fija o Móvil.Experiencia integrando y operando proyectos de código abierto en ambientes productivos.Networking intermedio: BGP, EVPN-VXLAN, etc.Certificaciones: Linux, OpenStack, Kubernetes Administrator (CKA u otras).Cursos en Ansible y/o Bash scripting.Conocimientos en ITIL (Gestión de Incidentes, Requerimientos, Problemas, Cambios) y/o Scrum.

Cloud NOC Engineer

Descripción del puesto