
借助NVIDIA NCP-AII课程,系统掌握基于GPU的AI基础设施设计、运维、安全防护与弹性扩展全方面能力。
学习内容
学习设计并部署GPU架构的AI基础设施,熟练运用存储、网络、编排及可扩展相关策略,搭建稳定可靠的底层环境。
完成MIG、vGPU等高级GPU功能配置与管理,结合Kubernetes调度机制,针对多租户AI工作负载完成性能优化。
使用Nsight、DLProf、TensorRT、DCGM等专业工具开展性能调优与运行监控,全面提升AI基础设施整体运行效率。
落地GDPR、HIPAA、RBAC、DOCA等安全合规与治理规范,全方位守护企业级AI基础设施的数据与运行安全。
学习前提
掌握人工智能与机器学习基础,了解模型训练、推理及数据管道相关工作流程。
熟悉Linux命令行操作与服务器系统管理相关技能。
具备容器化技术基础,了解Docker、Kubernetes核心知识优先。
可接入搭载A100、H100及同类型NVIDIA GPU的Linux服务器或云环境,完成实操练习。
(可选,助力深度学习)拥有Python脚本开发经验,接触过TensorFlow、PyTorch等主流AI框架。
课程详情
本课程专为深耕GPU大型AI工作负载基础设施的资深从业者打造。当下AI模型复杂度持续提升,项目落地成效不仅依赖算法能力,更考验基础设施的设计、优化与安全运维水平。配套认证将帮助学员搭建、管理并拓展高性能、高适配企业业务的前沿AI运行环境。
课程先讲解AI基础设施基础理论,剖析GPU、DPU、CPU的分工与协同原理,助力加快机器学习与深度学习业务运转。同时讲解CUDA编程、NVIDIA GPU云NGC资源以及Triton推理服务器使用方法,筑牢NVIDIA技术生态应用根基。
课程深入讲解GPU资源管理与虚拟化技术,带领学员实操MIG多实例GPU配置、GPU资源共享隔离、vGPU部署等内容。同时讲解GPU工作负载与Kubernetes集群的融合方案,保障多租户场景下资源调度高效、架构具备良好扩展性。
内容覆盖AI系统存储、网络架构与数据管道搭建,详解NVLink、Infiniband、RDMA等高速互联技术,分享解决数据传输瓶颈的实用方案。指导学员搭建端到端AI数据管道,打通ETL、模型训练、线上推理全流程,实现数据处理到业务部署的无缝衔接。
讲解集群编排与弹性扩展技术,运用Kubernetes、Helm、Operator、Kubeflow等工具管理多GPU集群工作负载。分析本地机房、公有云、混合云等不同集群架构,帮助学员设计适配企业实际需求的部署方案。
性能优化是课程核心板块,学员将学习使用Nsight、DLProf、nvtop工具分析GPU运行状态,监控核心运行指标。借助TensorRT优化推理环节,精准定位并解决系统运行瓶颈,完成系统调优,保障各类工作负载高效稳定运行。
企业级AI平台的安全与合规是重中之重。课程讲解工作负载安全策略部署、RBAC权限配置,结合DPU与DOCA实现高级加密与网络隔离。同时讲解如何让基础设施满足GDPR、HIPAA、FedRAMP等行业标准,适配医疗、金融等敏感领域的合规要求。
课程延伸至边缘AI基础设施领域,介绍NVIDIA Jetson、Orin硬件设备应用、联邦学习方案以及工业物联网场景部署。依托NGC与Triton推理服务器,讲解大规模AI模型部署技巧,包含多框架服务适配、负载均衡与高可用架构设计。
课程结尾结合真实行业案例与综合实训项目,指导学员独立设计并搭建完整的企业级AI基础设施架构。搭配实操练习、模拟考题与知识点梳理,全方位助力学员备战NVIDIA NCP-AII认证考试。
完成课程学习后,学员将具备搭建、优化、防护企业级AI基础设施的专业能力,可支撑各类高难度AI业务负载运行。考取相关认证也能提升个人行业竞争力,成长为AI基础设施领域的专业人才。
适配人群
人工智能工程师、数据科学家,需要将模型训练与推理业务迁移至高性能NVIDIA GPU集群运行。
系统管理员、DevOps工程师,负责GPU集群运维、Kubernetes工作负载调度与性能监控工作。
云架构师、基础设施技术人员,规划设计公有云、混合云、边缘端AI基础设施解决方案。
IT管理人员与技术负责人,需要保障企业AI业务部署的安全性、合规性与运行效率。
计划考取NVIDIA认证专业:AI基础设施(NCP-AII)认证,希望核验自身专业技能的技术从业者。
