Documentation Index
Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt
Use this file to discover all available pages before exploring further.
文档加载器提供了一个标准接口,用于从不同来源(如 Slack、Notion 或 Google Drive)读取数据,并将其转换为 LangChain 的 Document 格式。
这确保了无论数据来源如何,都能以一致的方式进行处理。
所有文档加载器都实现了 BaseLoader 接口。
每个文档加载器可以定义自己的参数,但它们共享一个通用的 API:
load(): 一次性加载所有文档。
loadAndSplit(): 一次性加载所有文档,并将其拆分为更小的文档。
import { CSVLoader } from "@langchain/community/document_loaders/fs/csv";
const loader = new CSVLoader(
... // <-- 此处为集成特定参数
);
const data = await loader.load();
按类别划分
LangChain.js 以两种不同的方式对文档加载器进行分类:
- 文件加载器,用于从本地文件系统将数据加载到 LangChain 格式。
- 网络加载器,用于从远程源加载数据。
文件加载器
PDF
| 文档加载器 | 描述 | 包/API |
|---|
PDFLoader | 使用 pdf-parse 加载和解析 PDF 文件 | 包 |
常见文件类型
| 文档加载器 | 描述 | 包/API |
|---|
| CSV | 从 CSV 文件加载数据,支持可配置的列提取 | 包 |
| JSON | 使用 JSON 指针加载 JSON 文件以定位特定键 | 包 |
JSONLines | 从 JSONLines/JSONL 文件加载数据 | 包 |
Text | 加载纯文本文件 | 包 |
DOCX | 加载 Microsoft Word 文档(.docx 和 .doc 格式) | 包 |
EPUB | 加载 EPUB 文件,支持可选的章节拆分 | 包 |
PPTX | 加载 PowerPoint 演示文稿 | 包 |
Subtitles | 加载字幕文件(.srt 格式) | 包 |
专用文件加载器
| 文档加载器 | 描述 | 包/API |
|---|
DirectoryLoader | 从目录加载所有文件,支持自定义加载器映射 | 包 |
UnstructuredLoader | 使用 Unstructured API 加载多种文件类型 | API |
MultiFileLoader | 从多个独立文件路径加载数据 | 包 |
ChatGPT | 加载 ChatGPT 对话导出文件 | 包 |
| Notion Markdown | 加载导出为 Markdown 的 Notion 页面 | 包 |
OracleDocLoader | 摄取 Oracle AI Vector Search 表或 Oracle Text 支持的文件 | 包 |
| OpenAI Whisper Audio | 使用 OpenAI Whisper API 转录音频文件 | API |
网络加载器
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|
Cheerio | 使用 Cheerio 加载网页(轻量级,不执行 JavaScript) | ✅ | 包 |
Playwright | 使用 Playwright 加载动态网页(支持 JavaScript 渲染) | ❌ | 包 |
Puppeteer | 使用 Puppeteer 加载动态网页(无头 Chrome) | ❌ | 包 |
FireCrawl | 爬取网站并将其转换为适合 LLM 的 Markdown | ✅ | API |
Spider | 快速爬虫,将网站转换为 HTML、Markdown 或文本 | ✅ | API |
RecursiveUrlLoader | 递归加载网页,跟随链接 | ❌ | 包 |
Sitemap | 从 sitemap.xml 加载所有页面 | ✅ | 包 |
Browserbase | 使用托管的无头浏览器加载网页,支持隐身模式 | ✅ | API |
WebPDFLoader | 在网络环境中加载 PDF 文件 | ✅ | 包 |
云提供商
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|
S3 | 从 AWS S3 存储桶加载文件 | ❌ | 包 |
| Azure Blob Storage Container | 从 Azure Blob Storage 容器加载所有文件 | ❌ | 包 |
| Azure Blob Storage File | 从 Azure Blob Storage 加载单个文件 | ❌ | 包 |
| Google Cloud Storage | 从 Google Cloud Storage 存储桶加载文件 | ❌ | 包 |
| Google Cloud SQL for PostgreSQL | 从 Cloud SQL PostgreSQL 数据库加载文档 | ✅ | 包 |
生产力工具
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|
| Notion API | 通过 API 加载 Notion 页面和数据库 | ✅ | API |
Figma | 加载 Figma 文件数据 | ✅ | API |
Confluence | 从 Confluence 空间加载页面 | ❌ | API |
GitHub | 从 GitHub 仓库加载文件 | ✅ | API |
GitBook | 加载 GitBook 文档页面 | ✅ | 包 |
Jira | 从 Jira 项目加载问题 | ❌ | API |
Airtable | 从 Airtable 基础加载记录 | ✅ | API |
Taskade | 加载 Taskade 项目数据 | ✅ | API |
搜索与数据 API
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|
SearchAPI | 从 SearchAPI 加载网络搜索结果(Google、YouTube 等) | ✅ | API |
SerpApi | 从 SerpApi 加载网络搜索结果 | ✅ | API |
| Apify Dataset | 从 Apify 平台加载抓取的数据 | ✅ | API |
音频与视频
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|
YouTube | 加载 YouTube 视频字幕 | ✅ | 包 |
AssemblyAI | 使用 AssemblyAI API 转录音频和视频文件 | ✅ | API |
Soniox | 使用 Soniox API 转录多语言音频文件,支持可选翻译 | ✅ | API |
Sonix | 使用 Sonix API 转录音频文件 | ❌ | API |
| 文档加载器 | 描述 | 网络支持 | 包/API |
|---|
Couchbase | 使用 SQL++ 查询从 Couchbase 数据库加载文档 | ✅ | 包 |
LangSmith | 从 LangSmith 加载数据集和跟踪记录 | ✅ | API |
| Hacker News | 加载 Hacker News 主题和评论 | ✅ | 包 |
IMSDB | 从 Internet Movie Script Database 加载电影剧本 | ✅ | 包 |
| College Confidential | 从 College Confidential 加载大学信息 | ✅ | 包 |
| Blockchain Data | 通过 Sort.xyz API 加载区块链数据(NFT、交易) | ✅ | API |
所有文档加载器
AssemblyAI Audio Transcript
Azure Blob Storage Container
Google Cloud SQL for PostgreSQL