img
نوع العقددوام كامل
طبيعة الوظيفةبالموقع
الموقعالرياض

وصف الوظيفة

عن الدور

تبحث شركة Penta Consulting، وهي مزود حلول تكنولوجية تقدم حلولاً احترافية ومدارة عبر منطقة أوروبا والشرق الأوسط وأفريقيا (EMEA)، عن مهندس حوسبة عالية الأداء (HPC) ذي خبرة لشغل منصب بدوام كامل في الرياض، المملكة العربية السعودية. هذا الدور أساسي لتصميم ونشر وتكوين وتشغيل بيئات الحوسبة عالية الأداء (HPC) واسعة النطاق. سيتمتع المرشح المثالي بفهم عميق وعملي لجميع المكونات داخل نظام الحوسبة عالية الأداء (HPC) وسجل حافل بالنجاح في تنفيذ وإدارة البنية التحتية المعقدة.

المسؤوليات الرئيسية

  • تصميم ونشر وصيانة مجموعات الحوسبة عالية الأداء (HPC) من البداية إلى النهاية، بما في ذلك عقد الحوسبة، وطبقات التخزين، والشبكات عالية السرعة (InfiniBand / RoCE)، ونسيج الإدارة.
  • توفير وإدارة NVIDIA Base Command Manager (BCM) لتصوير مجموعات الأجهزة العارية، وإدارة دورة حياة نظام التشغيل، ومراقبة صحة أسطول وحدات معالجة الرسومات (GPU).
  • نشر وإدارة NVIDIA AI Enterprise Suite، بما في ذلك التثبيت والترخيص والتحديثات والتكامل مع خطوط أنابيب MLOps (NeMo، Triton، RAPIDS).
  • نشر وتشغيل NVIDIA GPU Operator و Network Operator على Kubernetes لأتمتة دورة حياة برامج التشغيل و CUDA، ومصدر DCGM، وتكوين MIG.
  • تكوين وتقديم نقاط نهاية الاستدلال NVIDIA NIM، وتنفيذ معماريات مرجعية NVIDIA Blueprint لأعباء عمل الذكاء الاصطناعي الإنتاجية.
  • تثبيت وإدارة وضبط Slurm، بما في ذلك الأقسام، وقوائم انتظار الخدمة (QOS)، وسياسات المشاركة العادلة، ومحاسبة العقد، وتكامل MPI، وجدولة Slurm-on-Kubernetes الهجينة.
  • تهيئة وتشغيل مجموعات Kubernetes باستخدام kubeadm، وضمان التوفر العالي لوحدة التحكم (HA)، ونسخ احتياطي etcd، وترقيات بدون توقف.
  • إدارة RHEL و Canonical Ubuntu عبر جميع عقد المجموعة.
  • بناء وصيانة خطوط أنابيب CI/CD باستخدام GitLab CI أو GitHub Actions لتوفير البنية التحتية وتسليم برامج HPC.
  • تحليل وضبط أداء أعباء عمل وحدات معالجة الرسومات (GPU) ووحدات المعالجة المركزية (CPU)، وحل الاختناقات عبر الأجهزة وبرامج التشغيل ونسيج MPI وطبقات التطبيق.
  • تنفيذ حلول مراقبة المجموعات باستخدام Prometheus و Grafana و DCGM، وتحديد عتبات التنبيه وتخطيط السعة.
  • تطبيق أفضل ممارسات الأمان، بما في ذلك تقوية العقد، وتصحيح نواة النظام، والتحكم في الوصول المستند إلى الدور (RBAC)، وعمليات تدقيق الامتثال عبر بيئة الحوسبة عالية الأداء (HPC).

المؤهلات المطلوبة

  • خبرة مثبتة في تصميم ونشر وتكوين وتشغيل جميع مكونات بيئة حوسبة عالية الأداء واسعة النطاق.
  • خبرة عملية في إدارة RHEL و Canonical Ubuntu.
  • خبرة في خطوط أنابيب CI/CD لتوفير البنية التحتية وتسليم البرامج.
  • كفاءة في تحليل وضبط أداء أعباء عمل وحدات معالجة الرسومات (GPU) ووحدات المعالجة المركزية (CPU).
  • خبرة في أدوات مراقبة المجموعات وتخطيط السعة.
  • فهم قوي لأفضل ممارسات الأمان لبيئات الحوسبة عالية الأداء (HPC).
  • مهارات ممتازة في التواصل وحل المشكلات.

المهارات التقنية

  • مجموعات الحوسبة عالية الأداء (HPC Clusters)
  • عقد الحوسبة (Compute Nodes)
  • طبقات التخزين (Storage Tiers)
  • الشبكات عالية السرعة (InfiniBand, RoCE)
  • نسيج الإدارة (Management Fabric)
  • NVIDIA Base Command Manager (BCM)
  • NVIDIA AI Enterprise Suite
  • خطوط أنابيب MLOps (NeMo, Triton, RAPIDS)
  • NVIDIA GPU Operator
  • NVIDIA Network Operator
  • Kubernetes
  • NVIDIA NIM
  • NVIDIA Blueprint
  • Slurm
  • تكامل MPI (MPI Integration)
  • kubeadm
  • RHEL
  • Canonical Ubuntu
  • خطوط أنابيب CI/CD (GitLab CI, GitHub Actions)
  • توفير البنية التحتية (Infrastructure Provisioning)
  • ضبط أداء أعباء عمل وحدات معالجة الرسومات (GPU) ووحدات المعالجة المركزية (CPU)
  • Prometheus
  • Grafana
  • DCGM
  • تخطيط السعة (Capacity Planning)
  • تقوية العقد (Node Hardening)
  • تصحيح نواة النظام (Kernel Patching)
  • RBAC
  • عمليات تدقيق الامتثال (Compliance Audits)

بيئة العمل والتفاصيل

هذا منصب بدوام كامل لمهندس حوسبة عالية الأداء (HPC) يقع في الرياض، المملكة العربية السعودية. يتطلب الدور خبرة من 5 إلى 10 سنوات في بيئات الحوسبة عالية الأداء ذات الصلة.


متطلبات الوظيفة

  • تتطلب ٥-١٠ سنوات خبرة

وظائف مشابهة