
动手实践指南:用PySpark和Spark SQL掌握Databricks数据工程,包含四个部分的课程项目
您将会学到
- 如何使用 Databricks 构建和运行数据工程工作流程
- Lakehouse 架构与 Delta Lake 的核心原则
- 如何使用 Spark SQL 和 PySpark 高效处理数据
- Databricks 计算、作业和编排的最佳实践
- 如何使用 Unity Catalog 实施数据治理并管理安全访问
- 使用 Structured Streaming 和 Lakeflow 处理流式数据管道
- 将理论概念应用于实际项目,掌握模块化代码与版本控制
真实世界场景
课程基于真实企业数据工程场景设计,所有实操项目与技能均可直接应用于实际工作,打造可落地的生产级数据解决方案。
学习要求
- 具备基础至中级 SQL 知识
- 掌握 Python 基础到中级编程技能
课程描述
本课程已全面更新,新增17小时全新内容(2025年9月)
我是 Malvik Vaghadia,一名拥有近 15 年专业经验的数据工程师和架构师。我参与过多个大型湖仓实施项目,并为企业客户提供专业咨询服务。作为一名讲师,我已为全球超过 20 万名学生授课,并持有 4.6+的高评分。自本课程上线以来,它已成为 Udemy 数据桥接类别中的畅销课程,2025年9月新版本已完全重建,新增17小时全新实战内容。
为什么学习 Databricks
Databricks 被公认为 Gartner 数据与 AI 平台魔力象限中的领导者。它已成为现代数据工程的湖仓平台首选,帮助企业规模化构建、编排和优化数据管道。掌握 Databricks 技能,即可拥有数据领域最具竞争力的核心能力。
课程授课方式
这门课程以理论讲解、动手编码、实践项目相结合的方式设计。每个核心概念都会清晰拆解,搭配 Databricks 现场实操演示,并通过多阶段、端到端实战项目巩固学习成果。课程提供全部可下载笔记本,包含完整代码、分步文档与拓展资源,学习更轻松高效。
课程亮点
- 四部分课程项目:完整纽约出租车实战项目,分阶段构建专业数据管道
- 基础知识:数据工程核心概念、Databricks 优势、Spark 架构、PySpark 与 Lakehouse
- Azure 配置:账户创建、资源管理、RBAC 权限、命名规范与成本管控
- Databricks 配置:工作区创建与配置、UI 操作、个人邮箱限制处理
- Databricks 笔记本和工作区:Markdown 使用、注释技巧、对象组织、多语言混合
- Databricks 计算:集群管理、DBU 定价、运行时、无服务器/通用计算、实例池、SQL 仓库
- Spark SQL (Python):SQL 语法、DataFrame API、文件读写、模式定义、表与视图管理
- PySpark 转换操作:列操作、函数应用、过滤排序、多表连接、数据聚合、条件逻辑
- Medallion 架构:Bronze、Silver、Gold 三层架构解析与实战落地
- Delta Lake:事务日志、模式强制与演进、时间旅行、DML 操作(MERGE/UPDATE/DELETE)
- 工作流和作业:参数传递、失败处理、并发任务、条件执行与监控
- Git 与本地开发:VS Code 配置、GitHub 集成、仓库管理与工作流最佳实践
- 函数和模块化:Python 模块创建与导入、UDF 开发、标准化项目结构
- Unity 目录与治理:元存储、安全对象、工作区角色、外部位置与权限管理
- 流式与 Lakeflow 管道:结构化流、自动加载、水印、触发器、DLT 管道模型
- 性能优化:懒加载、执行计划、缓存、数据洗牌、广播连接、分区、Z-ORDER、Liquid Clustering
- 自动化与 CI/CD:Databricks 编程交互、CLI 演示、高级 CI/CD 流程
课程学习成果
课程结束时,你将具备独立设计、部署和优化 Databricks 生产级数据管道的专业知识与实战信心。
适合人群
- 对大数据和 Spark 技术感兴趣的学习者
- 希望系统学习 Databricks 平台的从业者
- 关注云平台与数据技术的技术爱好者
- 立志成为专业数据工程师的职场人士
声明:本站所有资源、素材等全部来源于互联网,赞助VIP仅用于对IT资源服务器带宽等费用支出做支持,从本站下载资源,说明你已同意本条款。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
