Documentation Index
Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt
Use this file to discover all available pages before exploring further.
本笔记本提供了快速入门 UnstructuredLoader 文档加载器 的简要概述。有关 UnstructuredLoader 所有功能和配置的详细文档,请参阅 API 参考。
集成详情
要使用 UnstructuredLoader 文档加载器,您需要安装 @langchain/community 集成包,并创建一个 Unstructured 账户以获取 API 密钥。
本地运行
您可以使用 Docker 在本地计算机上运行 Unstructured。为此,您需要先安装 Docker。
docker run -p 8000:8000 -d --rm --name unstructured-api downloads.unstructured.io/unstructured-io/unstructured-api:latest --port 8000 --host 0.0.0.0
前往 unstructured.io 注册 Unstructured 并生成 API 密钥。完成后,设置 UNSTRUCTURED_API_KEY 环境变量:
export UNSTRUCTURED_API_KEY="your-api-key"
LangChain UnstructuredLoader 集成位于 @langchain/community 包中:
npm install @langchain/community @langchain/core
实例化
现在我们可以实例化模型对象并加载文档:
import { UnstructuredLoader } from "@langchain/community/document_loaders/fs/unstructured"
const loader = new UnstructuredLoader("../../../../../../examples/src/document_loaders/example_data/notion.mdx")
const docs = await loader.load()
docs[0]
Document {
pageContent: '# Testing the notion markdownloader',
metadata: {
filename: 'notion.mdx',
languages: [ 'eng' ],
filetype: 'text/plain',
category: 'NarrativeText'
},
id: undefined
}
console.log(docs[0].metadata)
{
filename: 'notion.mdx',
languages: [ 'eng' ],
filetype: 'text/plain',
category: 'NarrativeText'
}
目录加载
您还可以使用 UnstructuredDirectoryLoader 加载目录中的所有文件,它继承自 DirectoryLoader:
import { UnstructuredDirectoryLoader } from "@langchain/community/document_loaders/fs/unstructured";
const directoryLoader = new UnstructuredDirectoryLoader(
"../../../../../../examples/src/document_loaders/example_data/",
{}
);
const directoryDocs = await directoryLoader.load();
console.log("directoryDocs.length: ", directoryDocs.length);
console.log(directoryDocs[0])
Unknown file type: Star_Wars_The_Clone_Wars_S06E07_Crisis_at_the_Heart.srt
Unknown file type: test.mp3
directoryDocs.length: 247
Document {
pageContent: 'Bitcoin: A Peer-to-Peer Electronic Cash System',
metadata: {
filetype: 'application/pdf',
languages: [ 'eng' ],
page_number: 1,
filename: 'bitcoin.pdf',
category: 'Title'
},
id: undefined
}
API 参考
有关 UnstructuredLoader 所有功能和配置的详细文档,请参阅 API 参考。