Documentation Index
Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt
Use this file to discover all available pages before exploring further.
计划限制适用请注意,数据导出功能仅适用于 LangSmith Plus 或企业版。
- 创建导出目标
- 创建和配置导出作业,包括计划导出和字段过滤
- 监控导出进度
1. 创建目标
目标告诉 LangSmith 将导出的数据写入何处。发出此请求前,您需要准备:- 您的 LangSmith API 密钥 和 工作区 ID。
- 一个 S3 或 S3 兼容的存储桶,并已授予 LangSmith 写入权限(请参阅 所需权限)。
- 存储桶名称、前缀,以及 AWS 区域(对于 AWS S3)或端点 URL(对于 GCS、MinIO 或其他 S3 兼容提供商)。
- 存储桶的访问密钥和秘密密钥。
id;创建导出作业时将需要它。
有关权限设置、特定提供商配置(AWS S3、GCS、MinIO)和凭证选项,请参阅 管理批量导出目标。
2. 创建导出作业
导出作业针对特定的项目和日期范围。您需要:start_time 是包含的,end_time 是排除的。导出将包括所有满足 run.start_time >= start_time 且 run.start_time < end_time 的运行。
保存响应中的 id 以监控导出进度。
您可以选择添加 filter 表达式来缩小导出的运行集。有关语法,请参考我们的 过滤查询语言 和 示例。不设置 filter 字段将导出所有运行。
计划定期导出
需要 LangSmith Helm 版本 >=
0.10.42(应用版本 >= 0.10.109)interval_hours 并省略 end_time:
interval_hours必须在 1 到 168(1 周)之间(含)。- 对于计划导出,必须省略
end_time;对于一次性导出,它仍然是必需的。 - 每个派生的导出覆盖
start_time到start_time + interval_hours,然后为每个后续运行前进interval_hours。由于end_time是排除的,连续的导出不会重叠。 - 派生的导出在
end_time + 10 分钟运行,以考虑在最近过去提交的带有end_time的运行。 - 派生的导出具有填充的
source_bulk_export_id属性。如果需要,必须单独取消它们——取消源导出 不会 取消已派生的导出。 - 要停止计划导出,请 取消它。
start_time=2025-07-16T00:00:00Z 且 interval_hours=6:
| 导出 | 开始时间 | 结束时间 | 运行时间 |
|---|---|---|---|
| 1 | 2025-07-16T00:00:00Z | 2025-07-16T06:00:00Z | 2025-07-16T06:10:00Z |
| 2 | 2025-07-16T06:00:00Z | 2025-07-16T12:00:00Z | 2025-07-16T12:10:00Z |
| 3 | 2025-07-16T12:00:00Z | 2025-07-16T18:00:00Z | 2025-07-16T18:10:00Z |
限制导出字段
需要 LangSmith Helm 版本 >=
0.12.11(应用版本 >= 0.12.42)。在一次性导出和计划导出中均受支持。export_fields 参数限制包含哪些字段来提高导出速度并减小文件大小。省略时,将包含所有字段。
可导出的字段
默认情况下,批量导出为每个运行包含以下字段: 标识符与层次结构:| 字段 | 描述 |
|---|---|
id | 运行 ID |
tenant_id | 工作区/租户 ID |
session_id | 项目/会话 ID |
trace_id | 追踪 ID |
parent_run_id | 父运行 ID |
parent_run_ids | 所有父运行 ID 的列表 |
reference_example_id | 如果属于数据集,则引用示例 |
| 字段 | 描述 |
|---|---|
name | 运行名称 |
run_type | 运行类型(例如,“chain”、“llm”、“tool”) |
start_time | 开始时间戳(UTC) |
end_time | 结束时间戳(UTC) |
status | 运行状态(例如,“success”、“error”) |
is_root | 是否为根级运行 |
dotted_order | 层次排序字符串 |
trace_tier | 追踪层级/保留级别 |
| 字段 | 描述 |
|---|---|
inputs | 运行输入(JSON) |
outputs | 运行输出(JSON) |
error | 如果失败,错误消息 |
extra | 额外元数据(JSON) |
events | 运行事件(JSON) |
| 字段 | 描述 |
|---|---|
tags | 标签列表 |
feedback_stats | 反馈统计(JSON) |
| 字段 | 描述 |
|---|---|
total_tokens | 总令牌数 |
prompt_tokens | 提示令牌数 |
completion_tokens | 完成令牌数 |
total_cost | 总成本 |
prompt_cost | 提示成本 |
completion_cost | 完成成本 |
first_token_time | 首次令牌时间 |
分区方案
数据使用以下 Hive 分区结构导出到您的存储桶:3. 监控您的导出
使用来自 上一步 的id 轮询导出状态:
status 字段将是以下之一:CREATED、RUNNING、COMPLETED、FAILED、CANCELLED 或 TIMEDOUT。导出时间可能因数据量而异。一旦状态变为 COMPLETED,Parquet 文件即可在您的存储桶中使用。
有关如何列出运行、停止导出和诊断故障,请参阅 监控和故障排除批量导出。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

