
成为AI基础设施专家:学习GPU、Kubernetes、MLOps以及大型语言模型的关键技能。
您将会学到
- 了解 AI 基础设施基础,包括 Linux、云计算、CPU 与 GPU 的区别,以及为何基础设施对驱动现代 AI 系统至关重要。
- 在 AWS、Google Cloud 和 Azure 上部署和管理支持 GPU 的云实例,比较 AI 工作负载的成本、性能和扩展选项。
- 使用 Docker 容器、Kubernetes 编排和 Helm 图表构建、打包和部署 AI 应用,实现高效的多服务基础设施。
- 使用 CUDA、NVLink 和内存层次结构优化 GPU 性能,同时掌握使用 PyTorch、TensorFlow 和 Horovod 进行分布式 AI 训练。
- 使用 MLflow、CI/CD 工具和模型注册表实现 MLOps 管道,确保 AI 模型的可重复性、版本控制和持续交付。
- 使用 FastAPI、TorchServe 和 NVIDIA Triton 服务并扩展模型,为高性能 AI 推理系统提供负载均衡和监控。
- 使用 Prometheus、Grafana、IAM、漂移检测、加密和节省成本的云资源策略监控、保护并优化 AI 基础设施。
- 完成 50 多个实践实验室和一个综合项目,以自信地设计、部署和展示一个完整规模、可投入生产的 AI 基础设施系统。
课程要求
- 无需先验经验——本课程将带你从入门到精通,循序渐进。
- 具备基本的编程知识(推荐 Python)会有帮助,但非必需。
- 熟悉云平台(AWS、GCP 或 Azure)会有帮助,但我们也会涵盖基础知识。
- 需要一台联网的电脑,并能够安装 Docker 和 Python 等免费工具。
- 可选:GPU 访问权限(本地或云端)用于运行深度学习工作负载——我们将指导您完成设置。
- 好奇心、学习意愿以及每周完成动手实验室的承诺。
课程描述
本课程是专为帮助您掌握人工智能背后的基础设施而设计的终极端到端项目。无论您是希望成为人工智能工程师、数据科学家还是机器学习专业人士,本课程都将带您从 Linux、云计算和 GPU 的基础知识,到分布式训练、Kubernetes 编排、MLOps、可观测性和边缘 AI 部署等高级主题。
在 52 周内,你将从设置第一个 GPU 虚拟机开始,到设计和展示一个完整的、可投入生产的企业级 AI 基础设施系统。这个全面的课程将确保你获得在快速发展的 AI 基础设施领域中取得成功所需的理论基础和实践技能。
我们从基础开始:什么是 AI 基础设施,它为什么重要,以及 CPU、GPU 和 TPU 如何为现代 AI 工作负载提供动力。你将学习 Linux 基础,探索在 AWS、Google Cloud 和 Azure 上的云基础设施,并自信地启动 GPU 计算实例。从那时起,你将深入学习 Docker 容器化、Kubernetes 编排和 Helm 图表自动化——这些是每个 AI 工程师必须掌握的技能。
接下来,我们处理数据和 GPU,这是 AI 系统的生命线。你将理解对象存储、数据湖、Kafka 管道、CUDA 编程、GPU 内存优化、NVLink 互连,以及使用 PyTorch、TensorFlow 和 Horovod 的分布式训练。这些课程将帮助你高效且经济地运行大规模 AI 训练工作负载。
课程随后转向 MLOps 和部署管道。您将实现使用 MLflow 的实验跟踪,使用 GitHub Actions、GitLab CI 和 Jenkins 构建 CI/CD 管道,并使用 FastAPI、TorchServe 和 NVIDIA Triton Inference Server 服务模型。除了部署,您还将获得在真实生产环境中监控、日志记录和扩展推理服务的技能。
高级章节涵盖使用 Prometheus、Grafana 和 OpenTelemetry 的可观察性、漂移检测和再训练策略、AI 安全和合规标准(如 GDPR 和 HIPAA)以及使用 spot 实例、自动扩展和多租户资源分配的成本优化策略。您还将探索尖端领域,如使用 NVIDIA Jetson 的边缘 AI、使用 TensorFlow Lite 和 Core ML 的移动 AI,以及为 LLMs、检索增强生成 (RAG)、DeepSpeed 和 FSDP 优化的生成式 AI 基础设施。
每周都包含实践实验室——总共超过 50 个——让你练习构建数据管道、容器化模型、在 Kubernetes 上部署、保护端点,以及监控 GPU 集群。该课程以一个综合项目结束,你将设计、实施并展示一个从蓝图到部署的完整 AI 基础设施系统。
完成本课程后,你将获得
- 掌握从 Linux 到云计算的 AI 基础设施基础。
- 获得在 Docker、Kubernetes、Kubeflow、MLflow、CI/CD 和模型服务方面的实用技能。
- 学习使用 GPU、CUDA、TensorFlow、PyTorch 和 Horovod 进行分布式 AI 训练。
- 部署可扩展的 MLOps 管道,构建可观察性仪表板,并实施安全最佳实践。
- 优化成本,并在多云和边缘环境中扩展 AI。
如果你希望成为能够设计、部署和扩展 AI 系统的人,这门课程是你的路线图。立即报名参加《AI 基础设施完整指南:从零到英雄》,获得驱动人工智能基础设施未来的技能。
此课程面向哪些人
- 想要从零开始逐步构建生产级 AI 系统的 AI 工程师。
- 准备从建模扩展到部署、服务和管理 AI 工作负载的数据科学家和 ML 从业者。
- 希望将 AI 基础设施、MLOps 和 Kubernetes 技能添加到其工具箱中的软件工程师和 DevOps 专业人士。
- 对优化 GPU 集群、存储和成本以支持 AI 工作负载感兴趣的云工程师和系统管理员。
- 学生、研究人员或对 Linux、云、GPU 和 AI 流程感兴趣的新手,无需任何先验经验。
- 初创公司创始人和科技领导者,希望了解如何为他们的组织构建可扩展、安全且成本高效的 AI 基础设施。
