语言模型有标记数量限制。你不应超过标记限制。因此,当你将文本分割成块时,计算标记数量是一个好主意。存在许多标记化工具。在计算文本中的标记时,应使用与语言模型相同的标记化工具。Documentation Index
Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt
Use this file to discover all available pages before exploring further.
js-tiktoken
js-tiktoken 是
OpenAI 创建的 BPE 标记化工具的 JavaScript 版本。tiktoken 通过 TokenTextSplitter 估算使用的标记数量。对于 OpenAI 模型,这可能更准确。
- 文本如何分割:按传入的字符分割。
- 块大小如何测量:通过
tiktoken标记化工具。
tiktoken 合并块,请在初始化 TokenTextSplitter 时传入 encodingName(例如 cl100k_base)。请注意,此方法的分割结果可能大于 tiktoken 标记化工具测量的块大小。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

