LangSmith 评估

LangSmith 支持两种基于运行时间和地点的评估类型：

离线评估

发布前测试在开发阶段对精选数据集运行评估，以比较版本、基准测试性能并捕捉回归问题。

在线评估

生产环境监控实时评估真实用户交互，以检测问题并衡量实时流量下的质量。

评估工作流

离线评估流程
在线评估流程

创建数据集

从手动整理的测试用例、历史生产轨迹或合成数据生成中，创建包含的数据集。

定义评估器

创建以评估性能：

人工审核
代码规则
LLM 作为裁判
成对比较

运行实验

在数据集上执行您的应用程序以创建一个。配置重复次数、并发性和缓存以优化运行。

分析结果

比较实验以进行基准测试、单元测试、回归测试或回测。

有关离线和在线评估差异的更多信息，请参阅评估概念页面。

开始使用

评估快速入门

开始使用离线评估。

管理数据集

通过 UI 或 SDK 创建和管理用于评估的数据集。

运行离线评估

探索评估类型、技术和框架，进行全面测试。

分析结果

查看和分析评估结果，比较实验，过滤数据并导出发现。

运行在线评估

从“可观测性”选项卡实时监控生产质量。

跟随教程

通过逐步教程学习，从简单的聊天机器人到复杂的智能体评估。

要设置 LangSmith 实例，请访问平台设置部分以选择云、混合或自托管。所有选项均包含可观测性、评估、提示工程以及部署。

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

评估快速入门

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

离线评估

在线评估

评估工作流

开始使用

评估快速入门

管理数据集

运行离线评估

分析结果

运行在线评估

跟随教程

离线评估

在线评估

​评估工作流

​开始使用

评估快速入门

管理数据集

运行离线评估

分析结果

运行在线评估

跟随教程

评估工作流

开始使用