AWS Glue 数据目录 是一个集中式元数据存储库,允许您管理、访问和共享存储在 AWS 中的数据元数据。它充当数据资产的元数据存储,使各种 AWS 服务和您的应用程序能够高效地查询和连接所需的数据。 当您在 AWS Glue 中定义数据源、转换和目标时,这些元素的元数据会存储在数据目录中。这包括数据位置、模式定义、运行时指标等信息。它支持多种数据存储类型,例如 Amazon S3、Amazon RDS、Amazon Redshift 以及与 JDBC 兼容的外部数据库。它还直接与 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 集成,允许这些服务直接访问和查询数据。 LangChain 的 GlueCatalogLoader 将以与 Pandas dtype 相同的格式获取给定 Glue 数据库中所有表的模式。Documentation Index
Fetch the complete documentation index at: https://langchain-zh.cn/llms.txt
Use this file to discover all available pages before exploring further.
设置
- 按照 设置 AWS 账户的说明 操作。
- 安装 boto3 库:
pip install boto3
示例
带表过滤的示例
表过滤允许您有选择地检索 Glue 数据库中特定子集的表的模式信息。您可以使用table_filter 参数指定您感兴趣的表,而不是加载所有表的模式。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

