Skip to main content

Documentation Index

Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt

Use this file to discover all available pages before exploring further.

当你对 LLM 应用进行迭代(例如更换模型或调整提示词)时,可能需要比较不同实验的结果。 LangSmith 提供了对比视图,帮助你识别不同实验之间的关键差异、性能退步和改进之处。

打开对比视图

  1. 要访问实验对比视图,请导航至 数据集与实验 页面。
  2. 选择一个数据集,这将打开 实验 标签页。
  3. 选择两个或更多实验,然后点击 比较
UI 中的实验视图,选中了 3 个实验,并高亮显示了“比较”按钮,浅色模式。

调整表格显示

你可以在对比视图的右上角切换不同的显示选项。 表格显示选项,浅色模式。

筛选器

点击 图标,可对对比视图应用筛选器,以缩小到特定的示例。常见的筛选器示例包括:
  • 包含特定 input / output 的示例。
  • 状态为 successerror 的运行。
  • latency 超过 x 秒的运行。
  • 特定的 metadatatagfeedback
除了对整个实验视图应用筛选器外,你也可以对单个列应用筛选器。选择任意列顶部的 图标,即可查看该列数据的可用筛选器。

点击 图标,可在对比视图中显示或隐藏单个反馈键或指标。

表格视图

在对比视图的右上角选择三个表格视图图标之一:
  • 紧凑:显示每个示例的实验结果预览。
  • 完整:显示每次运行的输入、输出和参考输出的完整文本。如果输出过长无法在表格中显示,可以点击 展开 查看完整内容。
  • 差异:显示每次运行中实验输出之间的文本差异。此功能一次仅支持比较 2 个实验。更多详情请参阅 查看并排差异

显示类型

有三种内置的实验视图,涵盖多种显示类型:默认YAMLJSON

查看性能退步与改进

在对比视图中,红色高亮表示在任何反馈键上相对于源实验出现性能退步的运行,而绿色高亮表示有所改进的运行。在每个反馈列的顶部,你可以看到有多少运行比源实验表现更好或更差。 点击每列顶部的退步或改进按钮,可以仅显示在该实验中退步或改进的运行。 对比视图,比较了 4 个实验,退步和改进分别用红色和绿色高亮显示。

查看并排差异

当比较两个实验时,对于 JSON 和 YAML 显示样式,你可以切换开启实验差异模式来比较实验输出。差异模式会高亮显示输出之间的修改,对于结构化输出的比较尤其有用。
对比差异模式,浅色模式。

更新源实验和指标

要跟踪跨实验的性能退步,你可以:
  1. 在对比视图顶部,将鼠标悬停在一个实验图标上,然后从下拉菜单中选择 设为源实验。你也可以从此下拉菜单中添加或移除实验。默认情况下,第一个选中的实验被设为源实验。 在对比视图顶部的实验图标处设置源实验。
  2. 反馈 列中,你可以为每个反馈键配置更高的分数是否代表更好。此偏好将被保存。默认情况下,假定更高的分数更好。 反馈指标列的下拉菜单,配置更高的分数是否更好,浅色模式。

展开详情面板

点击任意行,即可打开该示例在对比实验中的详情面板。 使用面板右上角的切换按钮可在两种模式间切换:
  • 详情:显示反馈键和分数,以及该示例的指标摘要,还有每个实验的输入、输出、参考输出和属性。 展开的实验对比视图中的一个示例,浅色模式。
  • 轨迹:并排显示每个实验的轨迹。 展开的实验对比视图中的一个示例,浅色模式。
当比较超过两个实验时,面板一次显示两个实验。使用面板标题可以切换与哪个实验进行比较。

使用实验元数据作为图表标签

你可以基于实验元数据配置图表的 x 轴标签。 在对比视图右上角的 图表 下拉菜单中选择一个元数据键,即可更改 x 轴标签。 高亮显示的 x 轴下拉菜单,列出了附加到实验的元数据,浅色模式。