LangSmith Polly

LangSmith Polly 是一个直接嵌入在您 LangSmith 工作区中的 AI 助手，旨在帮助您分析和理解应用程序数据。 Polly 帮助您从追踪记录、对话线程和提示中获取洞察，无需手动挖掘数据。通过提出自然语言问题，您可以快速了解智能体性能、调试问题并分析用户情绪。

Polly 出现在 LangSmith UI 中以下位置的右下角：

可观测性与调试：

项目：浏览和筛选项目中的所有运行记录。
追踪页面：分析单个运行记录和执行追踪。
线程视图：理解对话线程和用户交互。

提示工程：

Playground：编辑和优化提示。
提示中心页面：探索和理解共享的提示。

评估与测试：

数据集实验：分析实验结果并比较运行记录。
数据集示例：浏览和理解数据集结构。
标注队列：审查运行记录并做出明智的标注决策。
评估器：借助 AI 助手构建和完善评估器。

开始使用

在开始使用 Polly 之前，您需要为您使用的模型添加一个 API 密钥：在 LangSmith UI 中，请确保您的 API 密钥已设置为工作区机密。

前往设置，然后转到机密选项卡。
选择 添加机密，并输入密钥环境变量（例如，OPENAI_API_KEY 或 ANTHROPIC_API_KEY）以及您的 API 密钥作为值。
选择 保存机密。

在 LangSmith UI 中添加工作区机密时，请确保机密密钥与模型提供商预期的环境变量名称匹配。

支持的模型

Polly 开箱即用地支持以下模型提供商：

Anthropic (Claude)
OpenAI
Google Gemini
AWS Bedrock
Groq
Mistral
xAI
DeepSeek
Fireworks AI

您也可以使用在 Playground 设置中配置的任何自定义模型，只需在该配置上启用 在 Polly 中可用 开关即可。工作区管理员管理哪些自定义模型可用。

键盘快捷键

操作	Mac	Windows/Linux
打开/关闭 Polly	`Cmd+I`	`Ctrl+I`
清除当前线程	`Cmd+Shift+O`	`Ctrl+Shift+O`

可观测性

项目

在项目的运行列表中，Polly 可以浏览和筛选整个项目中的运行记录、创建数据集以及添加示例。使用 Polly 快速探索追踪记录中发生的情况，无需手动翻页查看结果。 示例问题：

“显示过去 24 小时内所有失败的运行记录”
“哪些运行记录耗时最长？”
“将失败的运行记录添加到我的测试数据集中”
“本周有多少运行记录出错了？”

追踪页面

在单个追踪记录上，Polly 会分析运行记录数据和执行轨迹。Polly 会检查完整的追踪上下文，包括运行元数据、输入、输出、中间步骤和配置，以帮助您了解发生了什么并确定需要改进的地方。 示例问题：

“智能体在这里有什么可以做得更好的地方吗？”
“这次运行为什么会失败？”
“这个追踪记录中什么环节耗时最多？”
“总结一下这个追踪记录中发生了什么”

线程视图

在线程标签页下，Polly 分析对话线程，帮助您理解用户情绪、对话结果和交互模式。使用 Polly 来识别用户痛点并了解问题是否得到解决。 示例问题：

“用户似乎感到沮丧吗？”
“用户遇到了什么问题？”
“用户的问题解决了吗？”
“这个线程的主要话题是什么？”

提示工程

Playground

在 Playground 中，Polly 帮助您编辑和优化您的提示。使用自动化选项，如 优化提示、生成工具 或 生成输出模式，或者给 Polly 自定义指令来编辑您的提示。Polly 可以直接修改 Playground 的状态——更新消息、工具、输出模式和示例——这样您就可以通过对话来迭代提示。 示例问题：

“让它用意大利语回复”
“添加上下文信息，说明用户的角色”
“让语气更专业一些”
“简化指令”

提示中心页面

在 LangSmith Hub 中查看提示时，Polly 帮助您理解提示的结构、消息、工具和配置。这对于探索和学习共享的提示非常有用。 示例问题：

“这个提示是做什么的？”
“这个提示使用了哪些工具？”
“解释一下这个提示的结构”
“这个提示中的关键指令是什么？”

评估

数据集实验

在 数据集 页面的实验标签页下，Polly 分析实验结果，并帮助您比较不同实验中的运行记录。Polly 可以识别模式、总结性能，并帮助您了解哪些方法效果最好。 示例问题：

“哪个实验表现最好？”
“这些运行记录之间的主要区别是什么？”
“总结一下这个实验的结果”
“在失败案例中你看到了什么模式？”

数据集示例

在 数据集 页面的示例标签页下，Polly 帮助您理解数据集结构、浏览示例并识别数据模式。这对于了解您正在处理的数据以及为实验准备数据集非常有用。 示例问题：

“这个数据集中包含什么类型的数据？”
“给我看看有错误的示例”
“你在输入中看到了什么模式？”
“这个数据集中有多少个示例？”

标注队列

在 标注队列 中，Polly 帮助您在做出标注决策前分析运行记录。无论您是单独审查运行记录还是成对比较，Polly 都会提供关于运行行为、错误和执行模式的洞察，为您的评分提供信息。 示例问题：

“这次运行哪里出错了？”
“总结一下这次运行发生了什么”
“比较这两个运行记录”
“给这个评分时我应该考虑什么？”

评估器

在 评估器 构建器中，Polly 帮助您编写和完善评估器逻辑。Polly 可以生成评估器代码、提出改进建议，并帮助您针对示例测试评估器。 示例问题：

“编写一个检查幻觉的评估器”
“提高这个评估器的准确性”
“这个评估器检查什么？”
“添加对边缘情况的处理”

下一步

了解更多 Polly 帮助您探索的功能：

可观测性

了解更多关于追踪和监控您的 LLM 应用程序的信息

线程

了解 LangSmith 中线程的工作原理

提示工程

在 Playground 中创建和迭代提示

评估

系统地评估和测试您的应用程序

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

Account administration

Tools

Additional resources

开始使用

支持的模型

键盘快捷键

可观测性

项目

追踪页面

线程视图

提示工程

Playground

提示中心页面

评估

数据集实验

数据集示例

标注队列

评估器

下一步

可观测性

线程

提示工程

评估

​开始使用

​支持的模型

​键盘快捷键

​可观测性

​项目

​追踪页面

​线程视图

​提示工程

​Playground

​提示中心页面

​评估

​数据集实验

​数据集示例

​标注队列

​评估器

​下一步

可观测性

线程

提示工程

评估

开始使用

支持的模型

键盘快捷键

可观测性

项目

追踪页面

线程视图

提示工程

Playground

提示中心页面

评估

数据集实验

数据集示例

标注队列

评估器

下一步