
从头开始学习如何理解和测试AI系统(LLM)里的RAG – 借助RAGAS、Python和Pytest框架。
课程学习内容
- 如何使用检索增强生成(RAG)架构设计自定义大型语言模型(LLM)
- 用于评估基于RAG的LLM的常见基准/指标
- 介绍用于评估/测试LLM的RAGAS评估框架
- 生成实用脚本以自动化并断言LLM的指标分数
- 使用RAGAS框架自动化场景,如与LLM的单轮交互和多轮交互
- 使用RAGAS框架生成测试数据以评估LLM的指标
- 创建RAGAS Pytest评估框架以断言RAG-(自定义)LLM的指标
课程基础要求
Python 和 PyTest 的基础知识是必须的。不过别急!课程末尾有两个专门章节,会为你提供学习本课程所需的 Python 和 Pytest 知识。同时需要掌握API测试基础概念。
课程描述
LLMs无处不在!每家公司都在构建自己的定制AI基础检索增强生成(RAG)-LLM以改善客户服务。但是工程师们是如何测试它们的呢?与传统的软件测试不同,基于AI的系统需要一种特殊的评估方法。
本课程从头开始,解释了AI系统(LLMs)背后的架构工作原理。然后深入探讨了LLM评估指标。
本课程向您展示如何使用RAGAS框架库通过脚本示例来评估LLM指标。这使您能够使用Pytest断言检查指标基准分数,并设计一个强大的LLM测试/评估自动化框架。
课程核心收获
- 大型语言模型(LLM)的高级概述
- 理解如何使用检索增强生成(RAG)架构构建自定义LLM
- 掌握评估基于RAG的LLM时常用的基准/指标
- 熟练运用RAGAS评估框架评估/测试LLM
- 自动生成脚本来自动化并断言LLM的指标分数
- 使用RAGAS框架自动化单轮交互和多轮交互场景
- 使用RAGAS框架生成测试数据以评估LLM的指标
课程结束时,您将能够创建RAGAS Pytest评估框架来断言RAG-(自定义)LLM的指标。
重要提示
本课程涵盖了评估和测试LLM时最常用的7个指标。相同的逻辑可以应用于其他任何指标的评估。
动手体验说明
课程提供实践RAG-LLM供您动手操作,但在脚本编写阶段,您需要Open AI的基本订阅权限以访问其API(最低10美元信用额度即可满足需求)。
课程前提条件
需要具备Python、PyTest的基础知识以理解该框架。我们在这个课程的最后有两个专门的部分,为您提供跟随课程所需的Python和Pytest基础知识。 此外,还需要有关API测试的基本知识。
适合人群
- 软件工程师
- 质量保证工程师
- 软件测试人员
声明:本站所有资源、素材等全部来源于互联网,赞助VIP仅用于对IT资源服务器带宽等费用支出做支持,从本站下载资源,说明你已同意本条款。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
