סקירה כללית
חברת Commit מחפשת DevOps & AI Infrastructure Engineer לתפקיד מאתגר ומרתק בחזית הטכנולוגיה בצפון הארץ. במסגרת התפקיד, תחזוקה ואופטימיזציה של חוות ה-GPU הארגונית, תוך הנגשת משאבי המחשוב לפרויקטי ה-AI השונים בארגון. הצטרפו אלינו לעשייה בעלת משמעות אמיתית והשפעה רחבה. תחומי אחריות: * Onboarding לפרויקטים: ליווי צוותי פיתוח ו-Data Science בתהליך הכניסה לעבודה בחווה, החל מהגדרת הדרישות ועד להרצה מלאה. * בניית Docker Images: יצירה ותחזוקה של Image-ים מורכבים המותאמים לעבודה עם GPU (שימוש ב-NVIDIA Docker, CUDA, וכדומה) המותאמים לסטנדרטים הארגוניים. * ניהול ותפעול שוטף: ניהול ותפעול חוות ה-GPU על גבי סביבת OpenShift, כולל ניטור ביצועים, הקצאת משאבים ופתרון תקלות מורכבות. * אופטימיזציית משאבים: הטמעה וניהול של פתרונות תזמון וניהול תור (כמו Run:ai) למיקסום הניצולת של כרטיסי ה-GPU היקרים. * אוטומציה ו-CI/CD: בניית Pipelines להפצה מהירה של מודלים וסביבות עבודה. Requirements: דרישות סף : ניסיון מוכח ב-OpenShift: שליטה מעמיקה בניהול קלאסטרים, Deployment, וניהול Storage/Networking בסביבת OpenShift (או Kubernetes ברמה גבוהה מאוד). מומחיות ב-Docker: ניסיון מעשי בכתיבת Dockerfiles מורכבים, ניהול Multi-stage builds ואופטימיזציה של גדלי Images. הכרות עם עולם ה-Linux: שליטה מלאה במערכות הפעלה Linux (RHEL/Ubuntu) ברמת ה-Kernel והדרייברים (בדגש על NVIDIA Drivers). ניסיון ב-Automation: עבודה עם כלי CI/CD (כגון Jenkins, GitLab CI, או ArgoCD) וכלי Configuration Management (כגון Ansible). יתרונות משמעותיים: Run:ai: ניסיון קודם בעבודה עם מערכת Run:ai לניהול והקצאת GPU – יתרון גדול מאוד. AI/MLOps Background: הכרות עם ספריות ו-Frameworks כמו PyTorch, TensorFlow, ו-KubeFlow. ניטור (Monitoring): ניסיון בעבודה עם Prometheus ו-Grafana בדגש על ניטור GPU Metrics (NVML). Python: יכולת כתיבת סקריפטים לאוטומציה ואינטגרציה של כלים.
דרישות המשרה
ועד להרצה מלאה. * בניית Docker Images: יצירה ותחזוקה של Image-ים מורכבים המותאמים לעבודה עם GPU (שימוש ב-NVIDIA Docker, CUDA, וכדומה) המותאמים לסטנדרטים הארגוניים. * ניהול ותפעול שוטף: ניהול ותפעול חוות ה-GPU על גבי סביבת OpenShift, כולל ניטור ביצועים, הקצאת משאבים ופתרון תקלות מורכבות. * אופטימיזציית משאבים: הטמעה וניהול של פתרונות תזמון וניהול תור (כמו Run:ai) למיקסום הניצולת של כרטיסי ה-GPU היק