MCP AI 生成数据集

在 **MCP 管理 → AI 生成** 中,系统会读取数据源 Schema,结合规则模板与大模型,批量产出可导入的语义数据集。

操作流程(四步)

1. **选择数据源** — 须已在「数据源」页配置并填写白名单表。

2. **选择 AI 厂商与模型** — 未配置 API Key 时仍可生成,但仅走规则模板,覆盖面较窄。

3. **配置分析方向** — 手动添加或 AI 推荐方向,勾选本批要覆盖的业务主题。

4. **读取 Schema 并生成** — 生成后勾选有效数据集,可先 SQL 试跑再导入。

生成结果会显示 `generation_source`(如 `template+llm`),以及校验通过数量。仅 **校验通过** 的行可勾选导入。

覆盖模式说明

「覆盖模式」决定 **本批数据集如何组合规则模板与大模型输出**,与导入时是否覆盖同名数据集是不同概念(见下文「导入与覆盖」)。

广覆盖(推荐,`broad`)

系统采用 **三层合并** 策略,尽量一次生成较完整的业务数据集:

1. **启发式模板** — 针对 ShopGo 常见表(订单、商品、客服等)的预设 SQL 模板。

2. **结构驱动** — 根据 Schema 中带时间字段的表,自动补充基础日统计类数据集(仅未勾选分析方向时生效)。

3. **大模型补充** — 在模板未覆盖的角度上,由 LLM 生成至少 8 个数据集(有分析方向时为 6 个)。

**适用场景:**

• 首次接入新数据源,希望快速获得销售、订单、客服、售后等多维度数据集。

• 尚未勾选具体分析方向,需要「开箱即用」的广谱覆盖。

**注意:** 未配置 AI Key 时,广覆盖仍可使用模板 + 结构驱动,但缺少 LLM 补充,页面会提示「当前为规则模板生成」。

精简(偏 LLM,`standard`)

系统 **优先采用大模型输出**,不再自动合并结构驱动数据集;模板仅在 LLM 不可用或失败时作为兜底。

• LLM 可用时:主要产出 LLM 生成的数据集(至少 5 个,有分析方向时为 4 个)。

• LLM 不可用或失败:回退到启发式模板合并。

**适用场景:**

• 已有一批模板数据集,只想让模型按补充说明生成差异化分析。

• 希望减少与模板重复的数据集,控制导入体量。

• Schema 较特殊,模板匹配度不高,更依赖模型理解表结构。

与分析方向的关系

勾选 **分析方向**(手动或 AI 推荐)后,生成进入 **方向聚焦** 模式:

• 大模型会围绕所选方向生成数据集,Prompt 中会注入方向说明与 focus_topics。

• 此时 **不再** 自动追加「结构驱动」数据集。

• 覆盖模式仍影响 LLM 要求的最少生成数量(广覆盖 ≥6,精简 ≥4),但结果以 LLM 产出为主;LLM 失败且无兜底时,需查看「模型调用日志」排查。

生成来源对照

• **template** — 含启发式规则模板

• **llm** — 大模型成功返回并解析 JSON

• **template+llm** — 广覆盖模式下模板与 LLM 结果合并

结果列表中的 **Archetype** 与 **模式(推导)** 由平台根据 archetype 自动推导 query_mode,无需手工填写。

导入与覆盖

导入前

• 勾选校验通过的数据集,可点击 **SQL 试跑** 再次验证。

• 勾选 **同时创建建议的意图规则**,会为每个数据集导入附带的 `suggested_intent_rules`(关键词 → 数据集路由)。

同名 dataset_key

导入时若租户下 **已存在相同 `dataset_key` 的自定义数据集**,会用本次生成结果 **覆盖更新** 以下字段:

• 名称、说明、SQL、字段定义、同义词、示例问法、query_modes 等

不会新建重复 key。内置 seed 数据集(如 `daily_flow`)不可被自定义 key 冲突导入,会被跳过。

与「覆盖模式」的区别

**广覆盖 / 精简(生成阶段)** — 控制模板、结构驱动、LLM 如何组合。

**同名 key 覆盖(导入阶段)** — 已导入过的 `custom_xxx` 再次被导入时,用新内容更新原数据集,不新建重复 key。

常见问题

**Q:生成 0 个或大量校验失败?**

• 检查数据源白名单表是否包含业务表。

• 打开「模型调用日志」查看 LLM 原始响应是否为合法 JSON。

• 对失败行点击「校验」查看 SQL 试跑错误(如 ONLY_FULL_GROUP_BY、字段不存在)。

**Q:广覆盖和精简选哪个?**

• 新租户、新数据源:选 **广覆盖**。

• 已有模板、只想 AI 补几个专题:选 **精简**,并在「补充说明」中写清侧重点。

**Q:生成后意图仍路由不准?**

• 在「数据集」Tab 补充 **示例问法** 与 **同义词**。

• 在「意图规则」Tab 添加关键词规则,或使用导入时的「同时创建意图规则」。