Documentation Index
Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt
Use this file to discover all available pages before exploring further.
Weaviate 是一个开源的向量数据库,可同时存储对象和向量,支持将向量搜索与结构化过滤相结合。LangChain 通过 weaviate-client 包(Weaviate 的官方 TypeScript 客户端)连接到 Weaviate。
本指南提供了快速入门 Weaviate 向量存储 的概述。有关 WeaviateStore 所有功能和配置的详细文档,请参阅 API 参考。
集成详情
要使用 Weaviate 向量存储,您需要设置一个 Weaviate 实例并安装 @langchain/weaviate 集成包。您还应安装 weaviate-client 包以初始化客户端连接到您的实例,如果需要为索引文档分配 ID,还需安装 uuid 包。
本指南还将使用 OpenAI 嵌入,这需要您安装 @langchain/openai 集成包。您也可以使用 其他支持的嵌入模型。
npm install @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai
您需要在本地或服务器上运行 Weaviate。更多信息请参阅 Weaviate 文档。
设置好实例后,设置以下环境变量:
// 如果在本地运行,请包含端口,例如 "localhost:8080"
process.env.WEAVIATE_URL = "YOUR_WEAVIATE_URL";
// 可选,用于云部署
process.env.WEAVIATE_API_KEY = "YOUR_API_KEY";
如果您在本指南中使用 OpenAI 嵌入,还需要设置您的 OpenAI 密钥:
process.env.OPENAI_API_KEY = "YOUR_API_KEY";
如果您希望自动追踪模型调用,还可以通过取消注释以下内容来设置 LangSmith API 密钥:
// process.env.LANGSMITH_TRACING="true"
// process.env.LANGSMITH_API_KEY="your-api-key"
实例化
连接 Weaviate 客户端
在大多数情况下,您应使用其中一个连接辅助函数来连接到您的 Weaviate 实例:
- connectToWeaviateCloud
- connectToLocal
- connectToCustom
import { WeaviateStore } from "@langchain/weaviate";
import { OpenAIEmbeddings } from "@langchain/openai";
import weaviate from "weaviate-client";
const embeddings = new OpenAIEmbeddings({
model: "text-embedding-3-small",
});
const weaviateClient = weaviate.connectToWeaviateCloud({
clusterURL: process.env.WEAVIATE_URL!,
options : {
authCredentials: new weaviate.ApiKey(process.env.WEAVIATE_API_KEY || ""),
headers: {
"X-OpenAI-Api-Key": process.env.OPENAI_API_KEY || "",
"X-Cohere-Api-Key": process.env.COHERE_API_KEY || "",
},
},
});
初始化向量存储
要创建集合,至少需要指定集合名称。如果不指定任何属性,auto-schema 会自动创建它们。
const vectorStore = new WeaviateStore(embeddings, {
client: weaviateClient,
indexName: "Langchainjs_test",
});
要使用 Weaviate 的命名向量、向量化器、重排序器、生成模型等,请在启用向量存储时使用 schema 属性。创建向量存储时,schema 中的集合名称和其他属性将优先。
const vectorStore = new WeaviateStore(embeddings, {
client: weaviateClient,
schema: {
name: "Langchainjs_test",
description: "一个简单的数据集",
properties: [
{
name: "title",
dataType: dataType.TEXT,
},
{
name: "foo",
dataType: dataType.TEXT,
},
],
vectorizers: [
vectorizer.text2VecOpenAI({
name: "title",
sourceProperties: ["title"], // (可选)设置源属性
// vectorIndexConfig: configure.vectorIndex.hnsw() // (可选)设置向量索引配置
}),
],
generative: weaviate.configure.generative.openAI(),
reranker: weaviate.configure.reranker.cohere(),
},
});
管理向量存储
向向量存储添加项目
注意: 如果您想为索引文档关联 ID,它们必须是 UUID。
import type { Document } from "@langchain/core/documents";
import { v4 as uuidv4 } from "uuid";
const document1: Document = {
pageContent: "细胞的动力源是线粒体",
metadata: { source: "https://example.com" }
};
const document2: Document = {
pageContent: "建筑物由砖块构成",
metadata: { source: "https://example.com" }
};
const document3: Document = {
pageContent: "线粒体由脂质构成",
metadata: { source: "https://example.com" }
};
const document4: Document = {
pageContent: "2024 年奥运会在巴黎举行",
metadata: { source: "https://example.com" }
}
const documents = [document1, document2, document3, document4];
const uuids = [uuidv4(), uuidv4(), uuidv4(), uuidv4()];
await vectorStore.addDocuments(documents, { ids: uuids });
[
'610f9b92-9bee-473f-a4db-8f2ca6e3442d',
'995160fa-441e-41a0-b476-cf3785518a0d',
'0cdbe6d4-0df8-4f99-9b67-184009fee9a2',
'18a8211c-0649-467b-a7c5-50ebb4b9ca9d'
]
从向量存储删除项目
您可以通过传递 filter 参数按 ID 删除:
await vectorStore.delete({ ids: [uuids[3]] });
查询向量存储
创建向量存储并添加相关文档后,您很可能希望在运行链或代理时查询它。
在 Weaviate 的 v3 版本中,客户端主要通过 collections 与数据库中的对象交互。collection 对象可以在整个代码库中重复使用。
直接查询
执行简单的相似性搜索可以如下进行。Filter 辅助类使得使用带条件的过滤器更加容易。v3 客户端简化了 Filter 的使用方式,使您的代码更简洁。
有关 Weaviate 过滤器语法的更多信息,请参阅 此页面。
import { Filters } from "weaviate-client";
const collection = client.collections.use('Langchainjs_test');
const filter = Filters.and(collection.filter.byProperty("source").equal("https://example.com"))
const similaritySearchResults = await vectorStore.similaritySearch("生物学", 2, filter);
for (const doc of similaritySearchResults) {
console.log(`* ${doc.pageContent} [${JSON.stringify(doc.metadata, null)}]`);
}
* 细胞的动力源是线粒体 [{"source":"https://example.com"}]
* 线粒体由脂质构成 [{"source":"https://example.com"}]
如果您想执行相似性搜索并获取相应的分数,可以运行:
const similaritySearchWithScoreResults = await vectorStore.similaritySearchWithScore("生物学", 2, filter)
for (const [doc, score] of similaritySearchWithScoreResults) {
console.log(`* [SIM=${score.toFixed(3)}] ${doc.pageContent} [${JSON.stringify(doc.metadata)}]`);
}
* [SIM=0.835] 细胞的动力源是线粒体 [{"source":"https://example.com"}]
* [SIM=0.852] 线粒体由脂质构成 [{"source":"https://example.com"}]
混合搜索
在 Weaviate 中,混合搜索 通过融合两个结果集,将向量搜索和关键词(BM25F)搜索的结果结合起来。要更改关键词和向量组件的相对权重,请在查询中设置 alpha 值。
查看 文档 获取混合搜索选项的完整列表。
const results = await vectorStore.hybridSearch("生物学",
{
limit: 1,
alpha: 0.25,
targetVector: ["title"],
rerank: {
property: "title",
query: "greeting",
},
});
检索增强生成 (RAG)
检索增强生成 (RAG) 将信息检索与生成式 AI 模型相结合。
在 Weaviate 中,RAG 查询由两部分组成:一个搜索查询和一个模型提示。Weaviate 首先执行搜索,然后将搜索结果和您的提示传递给生成式 AI 模型,最后返回生成的响应。
- @param query 要搜索的查询。
- @param options 执行混合搜索的可用选项
- @param generate 生成的可用选项。查看文档获取完整列表
const results = await vectorStore.generate("hello world",
{
singlePrompt: {
prompt: "将其翻译成德语:{title}",
},
config: generativeParameters.openAI({
model: "gpt-3.5-turbo",
}),
},
{
limit: 2,
targetVector: ["title"],
}
);
转换为检索器进行查询
您还可以将向量存储转换为 检索器,以便在链中更轻松地使用。
const retriever = vectorStore.asRetriever({
// 可选过滤器
filter: filter,
k: 2,
});
await retriever.invoke("生物学");
[
Document {
pageContent: '细胞的动力源是线粒体',
metadata: { source: 'https://example.com' },
id: undefined
},
Document {
pageContent: '线粒体由脂质构成',
metadata: { source: 'https://example.com' },
id: undefined
}
]
用于检索增强生成
有关如何使用此向量存储进行检索增强生成 (RAG) 的指南,请参阅以下部分:
API 参考
有关 WeaviateStore 所有功能和配置的详细文档,请参阅 API 参考。