Documentation Index
Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt
Use this file to discover all available pages before exploring further.
本笔记本提供了快速入门 UnDatasIO 文档加载器 的概述。UnDatasIO 通过其安全的云 API,支持高效加载和解析多种文档格式,包括 PDF、PNG、JPG、JPEG 和 JFIF,并具备文档懒加载和原生异步支持等功能。这些能力使得处理后的数据能够直接用于生成式 AI 工作流,如 RAG。
有关所有功能和配置的详细文档,请参阅官方 API 参考。
加载器特性
| 源 | 文档懒加载 | 原生异步支持 |
|---|
UnDatasIOLoader | ✅ | ✅ |
UnDatasIO 需要一个 API 令牌。
请在 undatas.io 生成一个免费令牌,并在下面的单元格中设置:
import getpass
import os
if "UNDATASIO_TOKEN" not in os.environ:
os.environ["UNDATASIO_TOKEN"] = getpass.getpass(
"Enter your UnDatasIO API token: "
)
常规安装
运行本笔记本的其余部分需要以下包。
# 安装包,兼容 API 分区
pip install langchain-undatasio
初始化
UnDatasIOLoader 支持通过 UnDatasIO 云 API 进行单文件上传和解析。
from langchain_undatasio import UnDatasIOLoader
loader = UnDatasIOLoader(
token=os.environ["UNDATASIO_TOKEN"],
file_path="demo.pdf"
)
docs = loader.load()
docs[0]
Document(
metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)
print(docs[0].page_content[:300])
Growing a Tail: Increasing Output Diversity in Large Language Models
Authors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*
Affiliations:
1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.
2Faculty of Computer Science, Technion – I
懒加载
UnDatasIOLoader 支持懒加载,以实现内存高效迭代。
pages = []
for doc in loader.lazy_load():
pages.append(doc)
pages[0]
Document(
metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)
另请参阅