如何用大模型做一个「自然语言查数据库（Text-to-SQL）」助手？

Question 1

Accepted Answer

核心链路 Text-to-SQL 就是「schema + 问题 → SQL → 执行 → 结果」。给模型喂相关表的建表语句、字段注释、少量查询示例，再加用户的自然语言问题，让它生成 SQL。生成后在数据库执行，拿到结果返回，可选地再让模型把结果翻译成人话。 安全必须卡死 这是最容易出事的地方： 1. 只读权限：连接用单独的只读账号，从根上杜绝 UPDATE/DELETE/DROP。 2. 白名单：限制能访问的库和表，敏感表（用户隐私）不暴露。 3. SQL 校验：执行前解析 SQL，拦截非 SELECT 语句、危险关键字。 4. 加 LIMIT、超时、行数上限，防止大查询拖垮库。 提准确率 模型不懂业务字段含义会瞎编。要把 schema、字段注释、枚举值、典型 query 示例（few-shot）放进 prompt。表多就先做一步「相关表召回」只给相关 schema，别把整库塞进去。 错误重试 SQL 执行报错时，把错误信息回喂给模型让它自我修正，重试 1-2 次。复杂多表关联容易错，对结果要有人工确认环节，别直接当真。

Question 2

库里有几百张表，全塞进 prompt 放不下也烧 token，怎么办？

Accepted Answer

做「schema 检索」：先把每张表的描述向量化，根据用户问题召回最相关的几张表，只把这些表的 schema 放进 prompt。或者按业务域分组让用户/路由先选范围。这样既省 token 又减少模型被无关表干扰。

Question 3

怎么验证模型生成的 SQL 查得对不对，而不是语法对但口径错？

Accepted Answer

语法对不等于业务对。手段：一是建标注集（问题→标准 SQL/标准结果）做回归评测；二是生成后让模型解释这条 SQL 在算什么，给用户确认；三是对高风险查询展示 SQL 和命中行数让用户预览。关键报表场景必须人工 review，不能盲信。

如何用大模型做一个「自然语言查数据库（Text-to-SQL）」助手？

核心要点

标准回答

常见误区

追问

延伸学习