通过 Databricks 资产包搭建生产级部署管道,以代码形式完成项目打包,打造标准化、可落地的项目交付体系!

课程学习收获

  • 借助 Databricks 资产包,将笔记本、作业与各类配置封装为可版本管理的代码
  • 搭建稳定可靠的自动化 CI/CD 流程,实现代码从开发环境到生产环境的无缝部署
  • 在 Databricks 平台中完成自定义 Python 软件包的开发与分发
  • 完成 Databricks 代码的单元测试与有效性校验,保障代码质量
  • 配置 GitHub Actions 工作流,实现项目构建、测试、部署全流程自动化
  • 将主流 DevOps 最佳实践落地应用到 Databricks 平台当中

前置学习要求

  • 掌握 Databricks 基础内容,熟悉笔记本、集群及作业相关操作
  • 具备基础的 Python 编程能力
  • 了解 YAML 基础语法
  • 掌握 Git 与 GitHub 的基础使用方法
  • 具备 CI/CD 相关基础认知

课程简介

你是否想要在 Databricks 部署工作中落地 DevOps 与 CI/CD 体系?本课程将带你全面掌握 Databricks 资产包(DAB)这一官方“代码即工作区”框架,助力在数据分析平台搭建完整的 DevOps 体系。

课程将讲解如何把笔记本、作业、数据管道、集群参数、基础设施以及工作区配置,整合为统一的版本化项目包,并依托 CI/CD 管道自动完成校验、测试与多环境部署。彻底摒弃传统手动操作模式,消除部署偏差,实现可复用、高可靠的项目发布。

课程大纲

引言与核心概念

认识 Databricks 资产包与 CI/CD 核心概念,明确课程学习目标与持续交付流程,同时掌握课程配套代码示例的获取方式。

环境配置与设置

完成 Azure Databricks 工作区部署、VS Code 开发环境搭建,安装配置 Databricks CLI,并部署 Databricks Connect,适配本地 IDE 开发场景。

资产包基础知识

学习 init、validate、deploy、run、destroy 等 Databricks 资产包核心命令,掌握通过 databricks.yml 文件完成分析项目的定义、版本管控与日常维护的方法。

本地开发与单元测试

整合 PyTest 工具开展单元测试与集成测试,结合 CI 工具或 Databricks Connect 运行测试任务,生成代码覆盖率报告,严格把控代码质量。同时学习切换至本地 PySpark 开展快速单元测试,利用 Databricks Connect 连接线上集群完成代码运行与调试,保证本地 IDE 与云端运行环境保持一致。

实战项目演练

结合三大实操项目融会贯通所学知识,分别搭建青铜至白银、黄金层级的笔记本 ETL 流程,开发 Python 脚本任务并打包为 .whl 格式作业,以及构建 Delta Live Tables 流处理流水线。

Git 集成与 CI/CD 管道搭建

将项目接入 Git 版本控制系统,规范分支管理工作流。编写 GitHub Actions 或 Azure Pipelines 脚本,实现项目构建、自动化测试、审批式预发布以及生产环境部署全流程自动化。

完成本课程学习后,你将熟练掌握 Databricks 平台端到端的自动化 CI/CD 全流程。

适配人群

  • 日常使用 Databricks 开展工作的数据工程师
  • 为数据团队提供技术支持的 DevOps 工程师
  • 希望在 Databricks 大数据平台推行标准化部署规范的团队管理者
声明:本站所有资源、素材等全部来源于互联网,赞助VIP仅用于对IT资源服务器带宽等费用支出做支持,从本站下载资源,说明你已同意本条款。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。