Skip to main content

Documentation Index

Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt

Use this file to discover all available pages before exploring further.

Apache Cassandra® 是一种广泛用于存储事务性应用程序数据的数据库。大型语言模型中函数和 >工具的出现为生成式 AI 应用中的现有数据开启了一些令人兴奋的使用案例。
Cassandra Database 工具包使 AI 工程师能够高效地将代理与 Cassandra 数据集成,提供 以下功能:
  • 通过优化查询实现快速数据访问。大多数查询应在个位数毫秒或更短时间内运行。
  • 模式检查以增强 LLM 推理能力
  • 兼容各种 Cassandra 部署,包括 Apache Cassandra®、DataStax Enterprise™ 和 DataStax Astra™
  • 目前,该工具包仅限于 SELECT 查询和模式检查操作。(安全第一)
有关创建 Cassandra DB 代理的更多信息,请参阅 CQL 代理示例代码库

快速开始

  • 安装 cassio
  • 设置要连接的 Cassandra 数据库的环境变量
  • 初始化 CassandraDatabase
  • 使用 toolkit.get_tools() 将工具传递给您的代理
  • 坐享其成,看着它为您完成所有工作

运作原理

Cassandra Query Language (CQL) 是与 Cassandra 数据库交互的主要以人为本的方式。虽然在生成查询时提供了一定的灵活性,但它需要了解 Cassandra 数据建模的最佳实践。LLM 函数调用赋予代理推理并选择工具以满足请求的能力。使用 LLM 的代理在选择合适的工具包或工具链时应使用 Cassandra 特定逻辑进行推理。这减少了当 LLM 被迫提供自上而下的解决方案时引入的随机性。您希望 LLM 完全无限制地访问您的数据库吗?嗯。可能不希望。为了实现这一点,我们在构建代理问题时提供了一个提示: 你是一位 Apache Cassandra 专家查询分析机器人,具有以下功能和规则:
  • 你将接收来自最终用户的问题,关于在数据库中找到特定数据。
  • 你将检查数据库的模式并创建查询路径。
  • 你将为用户提供正确的查询来找到他们正在寻找的数据,展示查询路径提供的步骤。
  • 你将使用分区键和聚簇列查询 Apache Cassandra 的最佳实践。
  • 避免在查询中使用 ALLOW FILTERING。
  • 目标是找到查询路径,因此可能需要查询其他表才能得到最终答案。
以下是 JSON 格式的查询路径示例:
 {
  "query_paths": [
    {
      "description": "使用电子邮件直接查询 users 表",
      "steps": [
        {
          "table": "user_credentials",
          "query":
             "SELECT userid FROM user_credentials WHERE email = 'example@example.com';"
        },
        {
          "table": "users",
          "query": "SELECT * FROM users WHERE userid = ?;"
        }
      ]
    }
  ]
}

提供的工具

cassandra_db_schema

收集已连接数据库或特定模式的所有模式信息。对于代理确定操作至关重要。

cassandra_db_select_table_data

从特定的 keyspace 和表中选择数据。代理可以传递参数用于谓词和返回记录数量的限制。

cassandra_db_query

cassandra_db_select_table_data 的实验性替代方案,它接受由代理完全形成的查询字符串而不是参数。警告:这可能导致性能不佳(甚至无法工作)的不寻常查询。这可能会在未来的版本中被移除。如果它做了很酷的事情,我们也想知道。你永远不知道!

环境设置

安装以下 Python 模块:
pip install ipykernel python-dotenv cassio langchain-openai langchain langchain-community langchainhub

.env 文件

连接通过 cassio 使用 auto=True 参数,笔记本使用 OpenAI。你应该相应地创建一个 .env 文件。 对于 Casssandra,设置:
CASSANDRA_CONTACT_POINTS
CASSANDRA_USERNAME
CASSANDRA_PASSWORD
CASSANDRA_KEYSPACE
对于 Astra,设置:
ASTRA_DB_APPLICATION_TOKEN
ASTRA_DB_DATABASE_ID
ASTRA_DB_KEYSPACE
例如:
# 连接到 Astra:
ASTRA_DB_DATABASE_ID=a1b2c3d4-...
ASTRA_DB_APPLICATION_TOKEN=AstraCS:...
ASTRA_DB_KEYSPACE=notebooks

# 同时设置
OPENAI_API_KEY=sk-....
(你也可以修改下面的代码直接使用 cassio 连接。)
from dotenv import load_dotenv

load_dotenv(override=True)
# 导入必要的库
import os

import cassio
from langchain_classic import hub
from langchain.agents import AgentExecutor, create_openai_tools_agent
from langchain_community.agent_toolkits.cassandra_database.toolkit import (
    CassandraDatabaseToolkit,
)
from langchain_community.tools.cassandra_database.prompt import QUERY_PATH_PROMPT
from langchain_community.utilities.cassandra_database import CassandraDatabase
from langchain_openai import ChatOpenAI

连接到 Cassandra 数据库

cassio.init(auto=True)
session = cassio.config.resolve_session()
if not session:
    raise Exception(
        "检查环境配置或手动配置 cassio 连接参数"
    )
# 测试数据准备

session = cassio.config.resolve_session()

session.execute("""DROP KEYSPACE IF EXISTS langchain_agent_test; """)

session.execute(
    """
CREATE KEYSPACE if not exists langchain_agent_test
WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 1};
"""
)

session.execute(
    """
    CREATE TABLE IF NOT EXISTS langchain_agent_test.user_credentials (
    user_email text PRIMARY KEY,
    user_id UUID,
    password TEXT
);
"""
)

session.execute(
    """
    CREATE TABLE IF NOT EXISTS langchain_agent_test.users (
    id UUID PRIMARY KEY,
    name TEXT,
    email TEXT
);"""
)

session.execute(
    """
    CREATE TABLE IF NOT EXISTS langchain_agent_test.user_videos (
    user_id UUID,
    video_id UUID,
    title TEXT,
    description TEXT,
    PRIMARY KEY (user_id, video_id)
);
"""
)

user_id = "522b1fe2-2e36-4cef-a667-cd4237d08b89"
video_id = "27066014-bad7-9f58-5a30-f63fe03718f6"

session.execute(
    f"""
    INSERT INTO langchain_agent_test.user_credentials (user_id, user_email)
    VALUES ({user_id}, 'patrick@datastax.com');
"""
)

session.execute(
    f"""
    INSERT INTO langchain_agent_test.users (id, name, email)
    VALUES ({user_id}, 'Patrick McFadin', 'patrick@datastax.com');
"""
)

session.execute(
    f"""
    INSERT INTO langchain_agent_test.user_videos (user_id, video_id, title)
    VALUES ({user_id}, {video_id}, 'Use Langflow to Build a LangChain LLM Application in 5 Minutes');
"""
)

session.set_keyspace("langchain_agent_test")
# 创建 CassandraDatabase 实例
# 使用 cassio 会话连接到数据库
db = CassandraDatabase()
# 选择驱动代理的 LLM
# 只有某些模型支持此功能
llm = ChatOpenAI(temperature=0, model="gpt-4-1106-preview")
toolkit = CassandraDatabaseToolkit(db=db)

tools = toolkit.get_tools()

print("可用工具:")
for tool in tools:
    print(tool.name + "\t- " + tool.description)
可用工具:
cassandra_db_schema -
    此工具的输入是 keyspace 名称,输出是 Apache Cassandra 表的表描述
    如果查询不正确,将返回错误消息。
    如果返回错误,请向用户报告 keyspace
    不存在并停止。

cassandra_db_query -
    对数据库执行 CQL 查询并获取结果。
    如果查询不正确,将返回错误消息。
    如果返回错误,重写查询,检查查询,然后重试。

cassandra_db_select_table_data -
    从 Apache Cassandra 数据库的表中获取数据的工具。
    使用 WHERE 子句指定使用主键的查询的谓词。空白谓词将返回所有行。如果可能请避免这样做。
    使用 limit 指定要返回的行数。空白 limit 将返回所有行。
prompt = hub.pull("hwchase17/openai-tools-agent")

# 构建 OpenAI Tools 代理
agent = create_openai_tools_agent(llm, tools, prompt)
input = (
    QUERY_PATH_PROMPT
    + "\n\nHere is your task: Find all the videos that the user with the email address 'patrick@datastax.com' has uploaded to the langchain_agent_test keyspace."
)

agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

response = agent_executor.invoke({"input": input})

print(response["output"])
> 进入新的 AgentExecutor 链...

调用:`cassandra_db_schema` 带 `{'keyspace': 'langchain_agent_test'}`


表名:user_credentials
- Keyspace: langchain_agent_test
- 列
  - password (text)
  - user_email (text)
  - user_id (uuid)
- 分区键:(user_email)
- 聚簇键:

表名:user_videos
- Keyspace: langchain_agent_test
- 列
  - description (text)
  - title (text)
  - user_id (uuid)
  - video_id (uuid)
- 分区键:(user_id)
- 聚簇键:(video_id asc)


表名:users
- Keyspace: langchain_agent_test
- 列
  - email (text)
  - id (uuid)
  - name (text)
- 分区键:(id)
- 聚簇键:


调用:`cassandra_db_select_table_data` 带 `{'keyspace': 'langchain_agent_test', 'table': 'user_credentials', 'predicate': "user_email = 'patrick@datastax.com'", 'limit': 1}`


Row(user_email='patrick@datastax.com', password=None, user_id=UUID('522b1fe2-2e36-4cef-a667-cd4237d08b89'))调用:`cassandra_db_select_table_data` 带 `{'keyspace': 'langchain_agent_test', 'table': 'user_videos', 'predicate': 'user_id = 522b1fe2-2e36-4cef-a667-cd4237d08b89', 'limit': 10}`


Row(user_id=UUID('522b1fe2-2e36-4cef-a667-cd4237d08b89'), video_id=UUID('27066014-bad7-9f58-5a30-f63fe03718f6'), description='DataStax Academy is a free resource for learning Apache Cassandra.', title='DataStax Academy')为了找到邮箱地址为 'patrick@datastax.com' 的用户上传到 `langchain_agent_test` keyspace 的所有视频,我们可以遵循以下步骤:

1. 查询 `user_credentials` 表以找到与电子邮件 'patrick@datastax.com' 关联的 `user_id`。
2. 使用第一步获得的 `user_id` 查询 `user_videos` 表以检索该用户上传的所有视频。

以下是 JSON 格式的查询路径:

\`\`\`json
{
  "query_paths": [
    {
      "description": "从 user_credentials 查找 user_id,然后查询 user_videos 获取该用户上传的所有视频",
      "steps": [
        {
          "table": "user_credentials",
          "query": "SELECT user_id FROM user_credentials WHERE user_email = 'patrick@datastax.com';"
        },
        {
          "table": "user_videos",
          "query": "SELECT * FROM user_videos WHERE user_id = 522b1fe2-2e36-4cef-a667-cd4237d08b89;"
        }
      ]
    }
  ]
}
\`\`\`

遵循此查询路径,我们发现用户 ID 为 `522b1fe2-2e36-4cef-a667-cd4237d08b89` 的用户至少上传了一个标题为 'DataStax Academy' 且描述为 'DataStax Academy is a free resource for learning Apache Cassandra.' 的视频。该视频的视频 ID 为 `27066014-bad7-9f58-5a30-f63fe03718f6`。如果有更多视频,可以使用相同的查询来检索它们,如有必要,可以增加限制。

> 完成链。
为了找到邮箱地址为 'patrick@datastax.com' 的用户上传到 `langchain_agent_test` keyspace 的所有视频,我们可以遵循以下步骤:

1. 查询 `user_credentials` 表以找到与电子邮件 'patrick@datastax.com' 关联的 `user_id`。
2. 使用第一步获得的 `user_id` 查询 `user_videos` 表以检索该用户上传的所有视频。

以下是 JSON 格式的查询路径:

\`\`\`json
{
  "query_paths": [
    {
      "description": "从 user_credentials 查找 user_id,然后查询 user_videos 获取该用户上传的所有视频",
      "steps": [
        {
          "table": "user_credentials",
          "query": "SELECT user_id FROM user_credentials WHERE user_email = 'patrick@datastax.com';"
        },
        {
          "table": "user_videos",
          "query": "SELECT * FROM user_videos WHERE user_id = 522b1fe2-2e36-4cef-a667-cd4237d08b89;"
        }
      ]
    }
  ]
}
\`\`\`

遵循此查询路径,我们发现用户 ID 为 `522b1fe2-2e36-4cef-a667-cd4237d08b89` 的用户至少上传了一个标题为 'DataStax Academy' 且描述为 'DataStax Academy is a free resource for learning Apache Cassandra.' 的视频。该视频的视频 ID 为 `27066014-bad7-9f58-5a30-f63fe03718f6`。如果有更多视频,可以使用相同的查询来检索它们,如有必要,可以增加限制。