L5

模型基础应用平台

Model Application Platform — Agent 平台 · Dify Workflow · RAG 平台 · MCP 平台

层级编号 L5 子平台数 4 (Agent / Dify / RAG / MCP) 向下依赖 ↓ L4 (模型网关统一推理 API) 向上提供 ↑ L6 (单智能体能力 / Dify API / RAG API / MCP Tools) 关键用户 AI 应用开发者 · 业务分析师 · 平台运维 设计理念 模块化 · 可组合 · 模型无关 · 可观测

2. 层级定位与边界

L5 模型基础应用平台是连接底层模型能力与上层业务应用的关键中间层。它向下调用 L4 模型网关的统一推理 API,向上对 L6 多智能体管理层提供封装好的单智能体能力、Dify API、RAG 检索接口和 MCP 工具集。L5 不直接与模型推理服务通信,所有推理请求均通过 L4 网关转发。

L5 包含四个独立的子平台:Agent 平台(智能体构建与运行时)、Dify Workflow 平台(低代码工作流编排)、RAG 平台(检索增强生成流水线)和 MCP 平台(模型上下文协议服务管理)。四个子平台各自独立部署和维护,通过 L5 编排总线进行数据交换和流程协同。

四个子平台的定位差异:

3. 边界规范

上游 → L6 提供单 Agent API / Dify API / RAG API / MCP Tools —— L6 多智能体管理层通过标准 API 调用 L5 各子平台的能力,不直接访问 L4 或以下层级。
下游 → L4 调用模型网关统一推理 API —— L5 所有推理请求必经 L4 网关,不直接调用任何模型推理服务(包括内部部署和外部 Provider)。
内部 四个子平台独立部署,通过 L5 编排总线通信 —— 子平台之间无直接依赖,通过事件总线或 API 网关进行数据交换。Agent 可调用 RAG 检索接口,Dify Workflow 可调用 MCP 工具。
约束 所有平台行为必须可观测 —— 每个子平台必须输出结构化日志、指标和 Trace,支持全链路可观测。

4. 子平台导航


A

Agent 平台

Agent 平台提供从 Agent 构建、配置、测试到部署上线的全生命周期管理能力。平台采用模块化设计,核心组件包括模型绑定、Prompt 工程、工具集成、记忆系统和规划策略,所有组件均可独立扩展和替换。

A1.1 模型绑定

每个 Agent 必须绑定至少一个主模型用于推理决策,可选绑定辅助模型用于特定任务(如摘要、分类、工具调用验证等)。模型绑定通过 L4 网关的模型路由表完成,支持按环境和用途灵活切换。

💡 主模型

  • Agent 核心推理引擎,负责对话理解、决策生成
  • 推荐使用高性能模型(如 GPT-4o、Claude 3.5 Sonnet、Qwen3-235B-A22B)
  • 支持 Failover 配置:主模型不可用时自动切换到备用模型
  • 每个 Agent 可配置多版本模型用于 A/B 测试

🧠 辅助模型

  • 用于特定子任务的小模型,降低推理成本和延迟
  • 常见用途:意图分类、实体抽取、摘要生成、安全内容审查
  • 支持按规则路由:根据输入特征自动选择子任务模型
  • 辅助模型独立扩缩容,不占用主模型推理配额

🔄 策略绑定

  • 按 Agent 类型预设推荐模型组合(推理型/对话型/工具型)
  • 支持环境维度绑定(开发/测试/生产使用不同模型)
  • 模型变更可灰度发布,逐步放量验证
  • 内置成本预算控制,防止模型滥用

A1.2 Prompt 工程

Prompt 工程模块提供系统 Prompt 的全生命周期管理能力,支持模板化、版本化、A/B 测试和变量注入。

📄 模板管理

  • 可视化 Prompt 编辑器,支持 Markdown 和变量占位符 {{variable}}
  • 内置常用模板库:客服、翻译、代码生成、数据分析等
  • 支持多语言模板配置,按用户语言自动选择
  • 模板片段复用:定义可复用的 Prompt 片段(Persona、Task、Format、Constraint)

📦 Few-Shot 管理

  • 示例管理:增删改查 Agent 的 few-shot 示例对
  • 动态示例注入:根据输入相似度从示例库动态选择最优示例
  • 示例版本控制:每次更新保留历史版本,支持回滚
  • 自动示例生成:对标注数据自动生成高质量 few-shot 示例

🎯 版本与实验

  • 语义版本号:MAJOR.MINOR.PATCH,变更自动记录 Diff
  • A/B 测试:同一 Agent 不同 Prompt 版本的流量对比实验
  • 自动评估:集成离线评估数据集,版本发布前自动跑分
  • 一键回滚:生产异常时可快速回退到任一历史版本

🔌 变量注入

  • 上下文变量:会话历史、用户信息、当前时间、环境参数
  • 外部数据变量:通过 API 或数据库查询动态注入
  • 工具结果变量:工具调用返回结果自动注入到后续 Prompt
  • 变量校验:定义变量类型和约束,注入前自动校验

A1.3 工具集成

Agent 通过 Function Calling 机制调用外部工具。平台提供丰富的内置工具库,支持自定义工具注册,并内置工具使用的审批工作流。

🧰 Function Calling

  • 原生支持 OpenAI 和 Anthropic 的 Function Calling / Tool Use 协议
  • 自动生成工具 JSON Schema(name、description、parameters)
  • 并行工具调用:单轮推理中执行多个独立工具调用
  • 递归工具调用:工具返回结果触发新的推理和工具调用链

📦 内置工具

  • 信息检索:Web 搜索、知识库搜索、文档问答
  • 数据处理:JSON/CSV/XML 解析、数据格式转换、文本分析
  • 代码执行:沙箱化 Python 脚本执行、SQL 查询引擎
  • 系统集成:邮件发送、日历操作、即时通讯通知

💻 自定义工具

  • OpenAPI/Swagger 导入:从 API 文档自动生成工具定义
  • 自定义代码工具:使用 Python/TypeScript 编写工具逻辑
  • Webhook 工具:通过 HTTP 回调与外部系统交互
  • MCP 工具:注册 MCP Server 暴露的工具(详见 MCP 平台章节)

🚧 审批工作流

  • 高风险操作审批:删除、修改、涉及敏感数据的工具调用需人工审批
  • 多级审批:按工具敏感度配置一级/二级审批流程
  • 审批超时:超时未审批自动拒绝或执行默认行为
  • 审计追踪:所有工具调用及审批记录完整留存

A1.4 记忆系统

平台采用分层记忆架构,支持短期对话记忆、长期向量记忆、工作记忆和用户记忆四种类型,覆盖 Agent 不同维度的记忆需求。

💭 短期对话记忆

  • 存储当前会话的完整对话历史
  • 支持滑动窗口:按 Token 数或消息数自动截断
  • 摘要压缩:长对话自动生成中间摘要替代原始内容
  • 会话过期自动清理(默认 TTL:24 小时)

📀 长期向量记忆

  • 基于向量数据库的关键信息持久化存储
  • 自动提取:Agent 从对话中自动提取重要信息存入长期记忆
  • 语义检索:根据当前上下文检索相关的历史记忆
  • 记忆衰减:未被访问的记忆自动降低权重,最终归档

⚙️ 工作记忆

  • 维护 Agent 当前任务的上下文状态(Task State)
  • 存储中间变量、步骤执行结果、待办子任务
  • 任务完成后自动清空,支持多任务切换
  • 会话恢复时自动重建工作记忆

👥 用户记忆

  • 用户偏好画像:语言、风格、专业领域、常用设置
  • 用户知识图谱:关注的实体、概念、关系
  • 历史行为模式:常见问题、操作偏好、交互习惯
  • 跨会话持久化,用户维度隔离

A1.5 规划策略

Agent 支持多种规划策略,可根据任务复杂度灵活选择和组合。平台内置五种策略模板,也支持自定义规划策略。

ReAct 基础

Reasoning + Acting 交替进行。模型在每一步输出思考 (Thought) 和行动 (Action),根据观察结果 (Observation) 循环直至任务完成。适用于工具调用类任务,如信息查询、数据操作。

Plan-and-Execute 结构化

先制定完整计划 (Plan),再按计划逐步执行 (Execute),每步执行结果反馈后可动态调整剩余计划。适用于多步骤、有依赖关系的复杂任务,如报告生成、数据分析流水线。

Tree of Thoughts 高级

在每一步探索多个可能的推理分支,形成树状结构。通过广度优先或深度优先搜索评估各分支,选择最优路径。适用于需要创造性推理的任务,如策略规划、数学证明。

Reflexion 自省

在 ReAct 基础上增加反思步骤。Agent 在每次失败后生成反思 (Reflection),总结错误原因和改进方案,存入记忆供后续参考。适用于需要试错学习的场景,如代码调试、策略优化。

自定义策略 扩展

支持通过策略接口自定义规划逻辑。开发者可编写 Python 代码实现 Prompt 模板链、外部规划器集成(如 LangGraph)、决策树等自定义策略。策略可作为插件热加载。

A1.6 安全护栏

Agent 平台内置多层安全护栏机制,覆盖输入过滤、行为控制和输出审查三个环节。

🛡️ 输入护栏

  • Prompt 注入检测:识别并拦截恶意 Prompt 注入攻击
  • 敏感信息检测:自动检测输入的身份证号、银行卡、密码等敏感信息
  • 内容合规审查:检测涉政、涉黄、暴力等违规内容
  • 输入长度限制:按 Token 和字符数双重限制

🎯 行为护栏

  • 工具调用白名单:仅允许调用已授权的工具集合
  • 操作频次限制:单位时间内工具调用次数上限
  • 递归深度限制:工具调用链最大递归深度
  • 资源消耗告警:Token 消耗超出阈值触发告警

💬 输出护栏

  • 输出内容过滤:基于规则和模型的双重过滤
  • 数据脱敏:自动替换输出中的敏感信息为掩码
  • 真实性验证:对事实性陈述进行引用溯源验证
  • 输出格式校验:确保输出符合预期的结构定义

A2. Agent Runtime 架构

Agent 运行时采用 Planner→Executor→Observer→Reflector 循环架构,支持决策分支和自适应调整。

Agent Runtime — Planner → Executor → Observer → Reflector 循环架构 用户输入 / 任务触发 🎯 Planner 分析输入 → 制定计划 → 生成下一步 Action 需要 工具? 🔧 Executor 调用工具 / 执行代码 / 访问外部 API 结果返回 🔍 Observer 观察结果 → 更新记忆 → 评估进展 任务 完成? 返回 Planner 重新规划 💭 Reflector 生成反思 → 更新策略 → 存入长期记忆 (虚线: 可选反馈回路) ✅ 最终输出 / 任务完成 💾 记忆存储 短期对话 · 长期向量 工作记忆 · 用户画像 🌐 外部工具 / API Web 搜索 · 数据库 · 企业系统 🛡️ 安全护栏贯穿全流程:输入过滤 → 工具权限验证 → 输出审查 Planner Executor Observer Reflector 决策节点 可选回路 安全护栏

A3. Agent 定义规范

以下为一个完整的 Agent YAML 配置示例,展示了 Agent 平台的配置规范:

# Agent 定义文件示例
apiVersion: ai-platform.io/v1
kind: Agent
metadata:
  name: customer-service-agent
  version: 2.1.0
  label: "智能客服助手"
  description: "处理客户咨询、工单创建和常见问题解答"
  tags: ["customer-service", "production", "zh-CN"]
spec:
  # ── 模型绑定 ──
  model:
    primary:
      provider: openai
      model: gpt-4o
      endpoint: "https://gateway.internal/v1"
      parameters:
        temperature: 0.3
        max_tokens: 4096
        top_p: 0.95
    auxiliary:
      classifier:
        provider: azure
        model: gpt-4o-mini
        parameters:
          temperature: 0.1
      summarizer:
        provider: internal
        model: qwen3-8b
    fallback:
      - provider: anthropic
        model: claude-3-5-sonnet
      - provider: internal
        model: qwen3-235b-a22b
  prompt:
    system_template: "templates/customer-service/v2/system.md"
    variables:
      - name: user_name
        type: string
        source: session.user.name
      - name: current_time
        type: datetime
        source: system.time
      - name: order_info
        type: object
        source: api.get_order
    few_shot:
      strategy: dynamic
      max_examples: 5
      similarity_threshold: 0.75
  tools:
    builtin:
      - web_search
      - calculator
      - current_datetime
    custom:
      - name: query_order
        ref: order-system/query-order@v2
        auth_required: true
      - name: create_ticket
        ref: ticketing-system/create-ticket@v1
        approval: required
    mcp_servers:
      - server: knowledge-base
        tools: [search, query]
  memory:
    short_term:
      strategy: sliding_window
      max_messages: 50
      max_tokens: 8192
    long_term:
      type: vector_store
      provider: milvus
      collection: agent_memories
      embedding_model: bge-m3
      top_k: 5
    user_profile:
      enabled: true
      fields: [language, preferences, history_topics]
  planning:
    strategy: react
    max_iterations: 20
    early_stopping: true
  guardrails:
    input:
      prompt_injection: true
      pii_detection: true
      content_moderation: strict
    output:
      sensitive_data_masking: true
      citation_check: true
    rate_limit:
      rpm: 100
      tpm: 100000
  observability:
    tracing: true
    logging: structured
    metrics:
      - response_time
      - token_usage
      - tool_call_count
      - planning_iterations

A4. Agent 生命周期

Agent 从创建到退役经过完整的生命周期管理,每个阶段都有对应的操作规范和审批流程。

💡
创建
🚧
测试
🚀
发布
📊
监控
🔄
更新
🔞
退役
创建 在管理控制台定义 Agent 配置(模型、Prompt、工具、记忆、规划策略),系统自动生成 Agent ID 和默认版本 v0.1.0。创建后进入沙箱环境。
测试 在沙箱环境中进行单元测试、回归测试和人工评估。支持基于测试数据集的自动评分,达标后提交发布审批。
发布 经过审批的 Agent 发布到生产环境。支持灰度发布:按 10% → 50% → 100% 逐步放量。发布同时生成版本快照。
监控 实时监控 Agent 的响应时间、成功率、Token 消耗、工具调用频率等指标。异常自动告警并触发降级。
更新 支持版本迭代,变更内容记录到版本更新日志。更新后自动触发回归测试,测试通过后走灰度发布流程。
退役 不再维护的 Agent 进入退役流程。先进入观察期(只读)持续 30 天,然后下线。下线前通知所有使用者,提供数据迁移窗口。

B

Dify Workflow 平台

Dify Workflow 平台基于自托管的 Dify 开源项目构建,提供可视化的 AI 应用开发工作流引擎。平台集成了 LLM 调用、知识检索、代码执行、API 集成等能力,支持通过拖拽方式编排复杂的 AI 工作流。

B1. 自托管 Dify 架构

Dify 平台采用微服务架构,核心组件包括:

📦 Web 前端

基于 React 的管理界面和工作流编辑器,提供拖拽式画布、实时预览和调试工具。

📄 API 服务

Python Flask 应用,处理所有业务逻辑、API 请求和工作流执行调度。

🧠 Worker 节点

异步工作节点,执行耗时的推理任务、代码运行和文件处理。支持水平扩展。

📛 PostgreSQL

主数据库,存储应用配置、用户数据、会话历史和工作流定义。

🗄️ Redis

缓存、消息队列(Celery Broker)和会话状态管理。

📡 向量数据库

可选的向量存储(如 Weaviate / Qdrant),用于知识库检索增强。

🌐 L4 网关适配

Dify 模型配置指向 L4 网关地址,所有模型请求通过网关转发,不直接连接 Provider。

🏗️ Storage

文件存储(S3/MinIO/本地),用于上传文档、图片和导出文件。

B2. 节点类型

Dify Workflow 提供丰富的节点类型,覆盖 AI 工作流的各个环节:

🧠
LLM
调用大模型进行文本生成、推理、对话等
🔍
Knowledge Retrieval
从知识库检索相关文档片段
💻
Code
执行 Python 或 JavaScript 代码逻辑
🌐
HTTP Request
发送 HTTP 请求调用外部 API
🧰
Condition
条件分支判断,路由到不同分支
🔁
Iterator
遍历列表,循环执行子流程
📊
Variable Aggregator
合并多个变量的值
🎨
Template Transform
使用 Jinja2 模板转换文本内容
🔧
Tool Call
调用 Agent/MCP 平台注册的工具

B3. 应用类型

Dify 平台支持四种应用类型,覆盖不同的业务场景:

💬 Chatbot

对话型应用,支持多轮对话、上下文记忆和知识库检索。适用于客服、智能问答、虚拟助手等场景。

📝 Text Generator

文本生成型应用,单次输入输出。适用于内容创作、摘要生成、翻译、报告撰写等场景。

🤖 Agent

智能体型应用,支持工具调用、推理规划和多步执行。适用于需要复杂推理和工具交互的场景。

🧰 Workflow

工作流型应用,可视化编排多节点流程。适用于自动化业务流程、数据处理流水线等场景。

B4. 自定义扩展

为满足平台特定需求,Dify 基础上扩展了以下自定义节点和功能:

👥 Multi-Agent 协作节点

连接 L6 多智能体管理层,在工作流中触发多个 Agent 协作完成任务。支持 Agent 分工、结果汇总和协调调度。

📡 MCP 客户端节点

直接调用 MCP 平台注册的 Server 工具,支持工具自动发现、参数校验和结果解析。

🧑‍💻 数字人驱动节点

与数字人系统集成,将工作流输出转化为数字人驱动的 TTS 和动作指令。

📦 业务系统集成节点

预置常用企业系统对接节点:ERP 订单查询、CRM 客户管理、OA 审批流程、工单系统等。

✍️ LLM 函数调用节点

基于 Function Calling 的扩展节点,支持结构化输出定义和验证。

📊 数据分析节点

集成 Pandas、NumPy 的数据分析能力,支持数据透视、统计分析和可视化输出。

B5. 示例流程:客服工单处理

以下为一个完整的客户服务工单处理工作流示例,展示各节点的协同工作方式:

1
输入处理
用户提交问题,系统自动判断问题类型和紧急程度。节点类型: LLM Condition
2
知识库检索
根据问题类型查询知识库(RAG 平台 API),检索相关 FAQ 和解决方案。节点类型: Knowledge Retrieval MCP Tool
3
相似度判定
判断检索结果与用户问题的相似度。若相似度 > 0.85,直接生成答案;否则进入下一步。节点类型: Condition
4
API 查询(分支 1 — 高频问题)
问题涉及订单/物流时,通过 HTTP Request 节点调用 L4 网关转外部业务系统 API 查询实时数据。节点类型: HTTP Request
5
升级到人工(分支 2 — 复杂问题)
复杂或投诉类问题通过 Multi-Agent 节点触发 L6 智能体,创建工单并分配给对应客服组。节点类型: Multi-Agent Tool Call
6
LLM 生成回复
将检索结果、API 数据和历史记录放入 Prompt 模板,调用 L4 生成最终回复。节点类型: LLM Template Transform
7
质量检查与发送
自动检查回复质量(相关性、完整性、礼貌度),通过后发送给用户,记录完整 Trace。节点类型: Condition Code

B6. DSL 版本管理

Dify 工作流使用 YAML/JSON DSL 定义流程拓扑。平台对接 Git 仓库进行 DSL 版本管理,实现以下核心流程:

版本管理最佳实践:每个工作流对应一个 DSL 文件目录,包含 workflow.yaml(主定义)、prompts/(Prompt 模板)、tests/(测试用例)。建议每次变更合并到 main 分支前运行自动化测试套件。

B7. 集成策略

Dify 平台与平台其他组件的集成遵循以下策略:

模型调用 → L4 Dify 的所有模型节点(LLM / Embedding / Reranker)均指向 L4 网关地址。在 Dify 的 "Model Provider" 配置中,将自定义端点设置为 https://gateway.internal/v1,API Key 使用网关颁发的统一密钥。
数据存储 Dify 使用平台提供的 PostgreSQL 作为主数据库、Redis 作为缓存和消息队列、向量数据库(Milvus/Qdrant)作为知识库存储。这些基础设施由 L1 层统一管理。
工具调用 → Dify / Agent / MCP Dify 的 Tool Call 节点可调用 MCP 平台注册的工具,也可通过 API 调用 Agent 平台构建的 Agent 能力。工具调用经过 L5 编排总线统一鉴权。
RAG 集成 Dify 的知识检索节点可选择使用 RAG 平台的检索 API(增强版检索策略)或 Dify 内置的简单检索(快速轻量)。

C

RAG 平台

RAG 平台提供从数据摄入到生成输出的全链路检索增强生成流水线,包含 6 个标准化阶段。平台采用流水线架构,每个阶段可独立扩展和替换,支持多种检索策略和 LLM 集成。

C1. 6 阶段 RAG 流水线

STAGE 1
数据摄入
30+ 格式文件上传
URL 抓取 · API 推送
STAGE 2
文档处理
格式解析 · 智能分块
元数据提取 · 多模态
STAGE 3
嵌入与索引
Embedding 模型 · 多向量
向量库 · 关键词索引
STAGE 4
检索与重排序
多路召回 · Reranker
查询增强 · 高级策略
STAGE 5
生成与后处理
上下文组装 · Prompt
LLM 生成· 引用溯源
STAGE 6
知识库管理
CRUD · 权限 · 更新
统计 · 质量监控

C1.1 Stage 1 — 数据摄入 (Data Ingestion)

📥 数据摄入 Stage 1

📁 文件上传
支持 30+ 文件格式:PDF、DOCX、XLSX、PPTX、TXT、Markdown、LaTeX、HTML、XML、JSON、CSV、EPUB、MOBI 等。单文件最大 100MB。
🌐 URL 抓取
自动抓取网页内容,支持 JS 渲染、分页遍历、Sitemap 解析。可配置爬取深度和频率。
📤 API 推送
提供 REST API 接口,支持程序化数据推送。批量推送支持并发和重试,单次最大 1000 条。
🔄 数据库同步
支持从 MySQL、PostgreSQL、MongoDB 等数据库定时同步数据。支持 CDC(变更数据捕获)实时同步。

C1.2 Stage 2 — 文档处理 (Document Processing)

🔨 文档处理 Stage 2

📖 格式解析
基于 docling、Unstructured、PyMuPDF 等引擎完成格式解析。自动识别文档结构(标题、段落、表格、列表、代码块)。
✂️ 智能分块
支持语义分块(Embedding 相似度分割)和递归分块(按分隔符层次切分)。可配置 chunk_size 200-2000 Token,overlap 10%-20%。
🔍 元数据提取
自动提取文档元数据:标题、作者、日期、章节层级、关键词、摘要、语言检测。支持自定义元数据注入。
🖼️ 多模态分块
对包含文本、表格和图片的文档进行多模态分块,保留图文关系。表格转为 Markdown/HTML 格式,图片提取描述。
📂 Parent Document
实现 Parent Document 索引:先对大块(Parent)做索引,检索时返回关联的完整上下文。检索精度和上下文完整性兼顾。

C1.3 Stage 3 — 嵌入与索引 (Embedding & Indexing)

🧩 嵌入与索引 Stage 3

🧠 嵌入模型
内置 bge-m3、jina-v3、text-embedding-3-large 等嵌入模型。统一通过 L4 网关调用,支持模型热切换。
🧬 多向量策略
支持 Dense(稠密向量)+ Sparse(稀疏向量)+ ColBERT(后期交互)的组合索引策略。根据场景选择最优组合。
📡 向量数据库
支持 Milvus(主选)、Qdrant、Weaviate、Pgvector。统一通过向量数据库代理层访问,切换无感。
📰 关键词索引
内置 BM25 索引,可选 Elasticsearch 用于大规模关键词检索。混合检索时与向量检索结果融合。

C1.4 Stage 4 — 检索与重排序 (Retrieval & Reranking)

🔎 检索与重排序 Stage 4

🔄 多路召回
同时执行向量检索 + 关键词检索 + 知识图谱检索,多路结果融合(RRF / 加权合并),提升召回率。
🔢 Reranker
使用 BGE-Reranker / Cohere Rerank 等交叉编码器对召回结果精排。支持多级 Reranker(快速粗排 + 精确重排)。
📝 查询增强
支持查询重写(Query Rewrite)、查询扩展(HyDE 假设文档)、查询分解(Sub-Query Decomposition)。
🧪 高级策略
HyDE: 先由 LLM 生成假设回答再用向量检索。Self-RAG: 检索结果自评估后决定是否使用。Corrective RAG: 对检索结果自动纠错补充。Graph RAG: 基于知识图谱的关系检索。

C1.5 Stage 5 — 生成与后处理 (Generation & Post-processing)

✍️ 生成与后处理 Stage 5

📋 上下文组装
对检索结果去重、按相关性排序、按上下限 Token 截断。自动处理上下文窗口超限问题。
📄 Prompt 模板
基于 RAG 场景预设 Prompt 模板,支持注入检索上下文、问题、历史记录。模板可自定义。
🧠 LLM 生成
调用 L4 网关统一 API 执行推理。支持流式/非流式输出,可选不同模型完成生成。
🔍 引用溯源
自动标注生成内容与检索源的对应关系,支持原文跳转和引用高亮。提升回答可信度。
⚠️ 幻觉检测
基于 NLI(自然语言推理)模型检测生成内容与检索上下文的一致性。发现幻觉自动触发重新生成或告警。
⭐ 质量评估
自动评估生成答案的相关性、完整性、忠实度。可配置人工评估标注流程,持续优化 RAG 效果。

C1.6 Stage 6 — 知识库管理 (Knowledge Base Management)

📚 知识库管理 Stage 6

📂 知识库 CRUD
完整的知识库创建、更新、删除、查询功能。支持知识库分类、标签管理和描述信息。
🔑 权限管理
团队级和用户级权限控制。支持只读、读写、管理三种角色。知识库访问可绑定 IAM 策略。
📊 统计分析
知识库使用统计:检索次数、热门查询、文档热度。质量统计:准确率、召回率、完整度。
🔄 更新策略
全量重建(定期重新索引)、增量更新(只处理变更文档)、定时同步(按 Cron 表达式定期更新)。

C2. RAG 质量指标

RAG 平台定义以下核心质量指标及目标值,用于持续监控和优化 RAG 流水线效果:

指标定义目标值测量方法
Recall@10前 10 个检索结果中包含相关文档的比例> 0.90预标注测试集评估
MRR第一个相关文档在检索结果中的平均排名倒数> 0.85预标注测试集评估
Faithfulness生成内容与检索上下文一致的比例> 0.95NLI 模型自动评估 + 人工抽检
Answer Relevance生成答案与问题的相关度评分> 0.90LLM-as-Judge 自动评估
Context Precision检索结果中相关文档占比> 0.80人工标注 + 自动评估
Answer Correctness生成答案的事实正确性> 0.85人工标注 + 自动评估
E2E Latency P95从查询到生成结果的 P95 延迟< 3s生产环境监控
质量优化建议:当 Recall@10 低于目标时,优先优化分块策略和嵌入模型;当 Faithfulness 低于目标时,优先优化 Prompt 模板和幻觉检测策略;当延迟超限时,考虑缓存热点查询或升级检索基础设施。

D

MCP 平台

MCP (Model Context Protocol) 平台提供模型上下文协议服务的全生命周期管理,包括 Server 注册中心、统一网关和管理控制台。MCP 平台为 Agent 和 Workflow 提供标准化的外部能力接入层,遵循 Model Context Protocol 规范。

D1. MCP Server 注册中心

MCP Server 注册中心集中管理所有已注册的 MCP 服务器,支持三种来源:

📦 内置服务器 内置

  • Web Search:接入搜索引擎 API,支持 Google/Bing 等
  • Database:统一数据库查询接口(MySQL、PostgreSQL、DuckDB)
  • Filesystem:文件系统操作(读/写/遍历,受沙箱限制)
  • API Call:通用 HTTP API 调用代理
  • Code Execution:沙箱化代码执行环境(Python/JS/SQL)
  • Enterprise Systems:预置企业系统适配器(ERP、CRM、OA)

🌐 社区服务器 社区

  • GitHub:仓库管理、Issue/PR 操作、代码搜索
  • Slack:消息发送、频道管理、搜索历史消息
  • Notion:页面创建、数据库查询、内容更新
  • Jira:Issue 创建/更新、看板查询、Sprint 管理
  • Confluence:页面管理、空间搜索、内容更新
  • Shopify:商品管理、订单查询、库存管理

💻 自定义服务器 自定义

  • MCP SDK:提供 Python / TypeScript / Go 的 MCP Server SDK
  • 开发模板:预设多种服务器模板,快速启动开发
  • 调试工具:MCP Inspector 工具,支持本地调试和远程测试
  • 一键发布:通过 CI/CD 流水线自动打包、发布到注册中心
  • 私有仓库:企业级服务器可发布到私有注册中心

D2. MCP 网关

MCP 网关是所有 MCP 工具调用的统一入口,提供协议转换、安全代理、负载均衡和审计能力。

📡 统一接入

所有 Agent 和工作流通过 MCP 网关调用工具,无需直接连接各 MCP Server。网关提供统一的 REST API 接口。

🔄 协议转换

支持 stdio(本地子进程)、SSE(Server-Sent Events)、Streamable HTTP 三种 MCP 传输协议。网关自动完成协议转换。

🛡️ 安全代理

工具级权限控制:每个工具可独立配置允许/禁止。参数校验、敏感数据脱敏、速率限制、高风险操作审批自动触发。

⚙️ 负载均衡与 HA

多副本 MCP Server 自动负载均衡。健康检查、熔断保护、幂等操作自动重试。

📜 审计日志

完整的工具调用记录:调用方、时间戳、入参、出参、耗时、状态。日志不可篡改,支持导出和检索。

D3. MCP 管理控制台

MCP 管理控制台提供可视化的 Server 和工具管理界面:

📦 Server 管理

Server 注册、启停、版本管理、配置更新,支持健康状态查看和告警配置。

🔍 工具浏览器

浏览所有已注册工具,查看工具描述、参数 Schema、调用示例和使用统计。

🔑 权限矩阵

按用户/角色/应用维度配置工具调用权限,支持白名单和黑名单模式。

📊 监控仪表盘

实时展示工具调用量、成功率、延迟分布、错误率等关键指标。

📈 用量统计

按时间维度统计工具调用趋势,按 Server 维度分析使用分布。

❤️ 健康检查

自动检测所有已注册 Server 的可用性,异常自动告警并触发恢复流程。

D4. MCP Server 注册配置示例

MCP Server 通过 JSON 配置文件注册到平台,以下为完整示例:

{
  "server": {
    "name": "enterprise-knowledge-base",
    "version": "2.1.0",
    "description": "企业知识库 MCP 服务器,提供文档检索和问答能力",
    "transport": "sse",
    "endpoint": "https://mcp-knowledge.internal:8443/sse",
    "health_check": "/health",
    "timeout_ms": 30000,
    "max_retries": 3
  },
  "capabilities": {
    "tools": [
      {
        "name": "search_documents",
        "description": "搜索知识库文档",
        "parameters": {
          "type": "object",
          "properties": {
            "query": { "type": "string", "description": "搜索关键词" },
            "top_k": { "type": "integer", "default": 10, "maximum": 50 },
            "filters": { "type": "object", "description": "过滤条件" }
          },
          "required": ["query"]
        },
        "permissions": { "roles": ["admin","editor","viewer"], "rate_limit": 100 },
        "risk_level": "low"
      },
      {
        "name": "update_document",
        "description": "更新知识库文档内容",
        "parameters": {
          "type": "object",
          "properties": {
            "doc_id": { "type": "string" },
            "content": { "type": "string" },
            "overwrite": { "type": "boolean", "default": false }
          },
          "required": ["doc_id", "content"]
        },
        "permissions": { "roles": ["admin","editor"], "approval_required": true },
        "risk_level": "medium"
      }
    ],
    "resources": [
      {
        "name": "document://{doc_id}",
        "description": "文档资源 URI 模板",
        "mime_type": "text/markdown"
      }
    ]
  },
  "auth": {
    "type": "api_key",
    "api_key_env": "KNOWLEDGE_BASE_API_KEY",
    "rotate_interval_days": 90
  },
  "observability": {
    "tracing": true,
    "metrics_port": 9090,
    "log_level": "info"
  },
  "deployment": {
    "replicas": 3,
    "resources": { "cpu": "2", "memory": "4Gi" },
    "scaling": {
      "min_replicas": 2,
      "max_replicas": 10,
      "target_cpu_utilization": 70
    }
  }
}

8. SLA/SLO 目标

L5 各子平台定义以下 SLA/SLO 目标:

🤖 Agent 平台

服务可用性99.95%
Agent 推理 P95 延迟< 3s
工具调用 P95 延迟< 1.5s
Agent 创建/更新延迟< 2s
并发 Agent 实例数5000+
最大迭代深度50

🔧 Dify Workflow

服务可用性99.9%
工作流触发延迟< 500ms
工作流执行成功率> 99.5%
画布操作响应< 200ms
并发工作流执行1000+
最大工作流节点数200

🔍 RAG 平台

服务可用性99.95%
检索 P95 延迟< 500ms
端到端 RAG P95 延迟< 3s
文档索引延迟< 1s/1000 chunks
最大知识库文档数10M+/库
并发检索 QPS2000+

📡 MCP 平台

服务可用性99.95%
工具调用 P95 延迟< 1s
网关转发额外延迟< 10ms
Server 注册生效时间< 30s
最大注册 Server 数500+
并发工具调用5000+

9. 技术选型

以下为 L5 各子平台的核心技术选型:

组件Agent 平台Dify WorkflowRAG 平台MCP 平台
运行时语言Python 3.12+Python 3.11 (Flask)Python 3.12+Python / TS / Go
API 框架FastAPIFlaskFastAPIFastAPI
AI FrameworkLangChain / LlamaIndexLangChain (内置)LlamaIndex / LangChainMCP SDK
向量数据库MilvusWeaviate / QdrantMilvus (主) / Qdrant
主数据库PostgreSQL 16PostgreSQL 15PostgreSQL 16PostgreSQL 16
缓存Redis 7.xRedis 7.xRedis 7.xRedis 7.x
消息队列RabbitMQ / Redis StreamRedis (Celery)RabbitMQKafka (审计)
搜索引擎Elasticsearch 8.xElasticsearch 8.x
文档解析Unstructureddocling / Unstructured
Embeddingbge-m3 / text-embedding-3通过 L4 网关bge-m3 / jina-v3
可观测OTel + Prom + Grafana + ELKOTel + Prom + GrafanaOTel + Prom + GrafanaOTel + Prom + Grafana
容器化Docker + KubernetesDocker + KubernetesDocker + KubernetesDocker + Kubernetes
CI/CDGitLab CI / ArgoCDGitLab CI / ArgoCDGitLab CI / ArgoCDGitLab CI / ArgoCD
架构设计原则:L5 各子平台遵循"共享基础设施、独立业务逻辑"的原则。公共组件(PostgreSQL、Redis、消息队列、监控、Kubernetes)由 L1 和 L2 层统一管理,各子平台专注于自身的业务逻辑。模型调用统一经过 L4 网关,确保安全性、可观测性和统一治理。
重要提醒:L5 各子平台严禁直接调用外部模型 Provider API 或直接连接内部模型推理服务。所有模型请求必须经过 L4 模型网关统一路由和治理。违反此规范可能导致安全漏洞、鉴权绕过和治理缺失。