模型基础应用平台
Model Application Platform — Agent 平台 · Dify Workflow · RAG 平台 · MCP 平台
2. 层级定位与边界
L5 模型基础应用平台是连接底层模型能力与上层业务应用的关键中间层。它向下调用 L4 模型网关的统一推理 API,向上对 L6 多智能体管理层提供封装好的单智能体能力、Dify API、RAG 检索接口和 MCP 工具集。L5 不直接与模型推理服务通信,所有推理请求均通过 L4 网关转发。
L5 包含四个独立的子平台:Agent 平台(智能体构建与运行时)、Dify Workflow 平台(低代码工作流编排)、RAG 平台(检索增强生成流水线)和 MCP 平台(模型上下文协议服务管理)。四个子平台各自独立部署和维护,通过 L5 编排总线进行数据交换和流程协同。
四个子平台的定位差异:
- Agent 平台:面向需要自主决策、工具调用和多轮记忆的复杂 AI 场景,提供完整的 Agent 构建和运行时环境。
- Dify Workflow 平台:面向需要可视化编排 AI 工作流的业务用户,提供低代码拖拽式开发和 LLMOps 能力。
- RAG 平台:面向知识密集型应用,提供从数据摄入到检索生成的全链路 RAG 流水线服务。
- MCP 平台:面向工具和 API 的统一管理,为 Agent 和工作流提供标准化的外部能力接入层。
3. 边界规范
4. 子平台导航
Agent 平台
Agent 平台提供从 Agent 构建、配置、测试到部署上线的全生命周期管理能力。平台采用模块化设计,核心组件包括模型绑定、Prompt 工程、工具集成、记忆系统和规划策略,所有组件均可独立扩展和替换。
A1.1 模型绑定
每个 Agent 必须绑定至少一个主模型用于推理决策,可选绑定辅助模型用于特定任务(如摘要、分类、工具调用验证等)。模型绑定通过 L4 网关的模型路由表完成,支持按环境和用途灵活切换。
主模型
- Agent 核心推理引擎,负责对话理解、决策生成
- 推荐使用高性能模型(如 GPT-4o、Claude 3.5 Sonnet、Qwen3-235B-A22B)
- 支持 Failover 配置:主模型不可用时自动切换到备用模型
- 每个 Agent 可配置多版本模型用于 A/B 测试
辅助模型
- 用于特定子任务的小模型,降低推理成本和延迟
- 常见用途:意图分类、实体抽取、摘要生成、安全内容审查
- 支持按规则路由:根据输入特征自动选择子任务模型
- 辅助模型独立扩缩容,不占用主模型推理配额
策略绑定
- 按 Agent 类型预设推荐模型组合(推理型/对话型/工具型)
- 支持环境维度绑定(开发/测试/生产使用不同模型)
- 模型变更可灰度发布,逐步放量验证
- 内置成本预算控制,防止模型滥用
A1.2 Prompt 工程
Prompt 工程模块提供系统 Prompt 的全生命周期管理能力,支持模板化、版本化、A/B 测试和变量注入。
模板管理
- 可视化 Prompt 编辑器,支持 Markdown 和变量占位符 {{variable}}
- 内置常用模板库:客服、翻译、代码生成、数据分析等
- 支持多语言模板配置,按用户语言自动选择
- 模板片段复用:定义可复用的 Prompt 片段(Persona、Task、Format、Constraint)
Few-Shot 管理
- 示例管理:增删改查 Agent 的 few-shot 示例对
- 动态示例注入:根据输入相似度从示例库动态选择最优示例
- 示例版本控制:每次更新保留历史版本,支持回滚
- 自动示例生成:对标注数据自动生成高质量 few-shot 示例
版本与实验
- 语义版本号:MAJOR.MINOR.PATCH,变更自动记录 Diff
- A/B 测试:同一 Agent 不同 Prompt 版本的流量对比实验
- 自动评估:集成离线评估数据集,版本发布前自动跑分
- 一键回滚:生产异常时可快速回退到任一历史版本
变量注入
- 上下文变量:会话历史、用户信息、当前时间、环境参数
- 外部数据变量:通过 API 或数据库查询动态注入
- 工具结果变量:工具调用返回结果自动注入到后续 Prompt
- 变量校验:定义变量类型和约束,注入前自动校验
A1.3 工具集成
Agent 通过 Function Calling 机制调用外部工具。平台提供丰富的内置工具库,支持自定义工具注册,并内置工具使用的审批工作流。
Function Calling
- 原生支持 OpenAI 和 Anthropic 的 Function Calling / Tool Use 协议
- 自动生成工具 JSON Schema(name、description、parameters)
- 并行工具调用:单轮推理中执行多个独立工具调用
- 递归工具调用:工具返回结果触发新的推理和工具调用链
内置工具
- 信息检索:Web 搜索、知识库搜索、文档问答
- 数据处理:JSON/CSV/XML 解析、数据格式转换、文本分析
- 代码执行:沙箱化 Python 脚本执行、SQL 查询引擎
- 系统集成:邮件发送、日历操作、即时通讯通知
自定义工具
- OpenAPI/Swagger 导入:从 API 文档自动生成工具定义
- 自定义代码工具:使用 Python/TypeScript 编写工具逻辑
- Webhook 工具:通过 HTTP 回调与外部系统交互
- MCP 工具:注册 MCP Server 暴露的工具(详见 MCP 平台章节)
审批工作流
- 高风险操作审批:删除、修改、涉及敏感数据的工具调用需人工审批
- 多级审批:按工具敏感度配置一级/二级审批流程
- 审批超时:超时未审批自动拒绝或执行默认行为
- 审计追踪:所有工具调用及审批记录完整留存
A1.4 记忆系统
平台采用分层记忆架构,支持短期对话记忆、长期向量记忆、工作记忆和用户记忆四种类型,覆盖 Agent 不同维度的记忆需求。
短期对话记忆
- 存储当前会话的完整对话历史
- 支持滑动窗口:按 Token 数或消息数自动截断
- 摘要压缩:长对话自动生成中间摘要替代原始内容
- 会话过期自动清理(默认 TTL:24 小时)
长期向量记忆
- 基于向量数据库的关键信息持久化存储
- 自动提取:Agent 从对话中自动提取重要信息存入长期记忆
- 语义检索:根据当前上下文检索相关的历史记忆
- 记忆衰减:未被访问的记忆自动降低权重,最终归档
工作记忆
- 维护 Agent 当前任务的上下文状态(Task State)
- 存储中间变量、步骤执行结果、待办子任务
- 任务完成后自动清空,支持多任务切换
- 会话恢复时自动重建工作记忆
用户记忆
- 用户偏好画像:语言、风格、专业领域、常用设置
- 用户知识图谱:关注的实体、概念、关系
- 历史行为模式:常见问题、操作偏好、交互习惯
- 跨会话持久化,用户维度隔离
A1.5 规划策略
Agent 支持多种规划策略,可根据任务复杂度灵活选择和组合。平台内置五种策略模板,也支持自定义规划策略。
ReAct 基础
Reasoning + Acting 交替进行。模型在每一步输出思考 (Thought) 和行动 (Action),根据观察结果 (Observation) 循环直至任务完成。适用于工具调用类任务,如信息查询、数据操作。
Plan-and-Execute 结构化
先制定完整计划 (Plan),再按计划逐步执行 (Execute),每步执行结果反馈后可动态调整剩余计划。适用于多步骤、有依赖关系的复杂任务,如报告生成、数据分析流水线。
Tree of Thoughts 高级
在每一步探索多个可能的推理分支,形成树状结构。通过广度优先或深度优先搜索评估各分支,选择最优路径。适用于需要创造性推理的任务,如策略规划、数学证明。
Reflexion 自省
在 ReAct 基础上增加反思步骤。Agent 在每次失败后生成反思 (Reflection),总结错误原因和改进方案,存入记忆供后续参考。适用于需要试错学习的场景,如代码调试、策略优化。
自定义策略 扩展
支持通过策略接口自定义规划逻辑。开发者可编写 Python 代码实现 Prompt 模板链、外部规划器集成(如 LangGraph)、决策树等自定义策略。策略可作为插件热加载。
A1.6 安全护栏
Agent 平台内置多层安全护栏机制,覆盖输入过滤、行为控制和输出审查三个环节。
输入护栏
- Prompt 注入检测:识别并拦截恶意 Prompt 注入攻击
- 敏感信息检测:自动检测输入的身份证号、银行卡、密码等敏感信息
- 内容合规审查:检测涉政、涉黄、暴力等违规内容
- 输入长度限制:按 Token 和字符数双重限制
行为护栏
- 工具调用白名单:仅允许调用已授权的工具集合
- 操作频次限制:单位时间内工具调用次数上限
- 递归深度限制:工具调用链最大递归深度
- 资源消耗告警:Token 消耗超出阈值触发告警
输出护栏
- 输出内容过滤:基于规则和模型的双重过滤
- 数据脱敏:自动替换输出中的敏感信息为掩码
- 真实性验证:对事实性陈述进行引用溯源验证
- 输出格式校验:确保输出符合预期的结构定义
A2. Agent Runtime 架构
Agent 运行时采用 Planner→Executor→Observer→Reflector 循环架构,支持决策分支和自适应调整。
A3. Agent 定义规范
以下为一个完整的 Agent YAML 配置示例,展示了 Agent 平台的配置规范:
# Agent 定义文件示例
apiVersion: ai-platform.io/v1
kind: Agent
metadata:
name: customer-service-agent
version: 2.1.0
label: "智能客服助手"
description: "处理客户咨询、工单创建和常见问题解答"
tags: ["customer-service", "production", "zh-CN"]
spec:
# ── 模型绑定 ──
model:
primary:
provider: openai
model: gpt-4o
endpoint: "https://gateway.internal/v1"
parameters:
temperature: 0.3
max_tokens: 4096
top_p: 0.95
auxiliary:
classifier:
provider: azure
model: gpt-4o-mini
parameters:
temperature: 0.1
summarizer:
provider: internal
model: qwen3-8b
fallback:
- provider: anthropic
model: claude-3-5-sonnet
- provider: internal
model: qwen3-235b-a22b
prompt:
system_template: "templates/customer-service/v2/system.md"
variables:
- name: user_name
type: string
source: session.user.name
- name: current_time
type: datetime
source: system.time
- name: order_info
type: object
source: api.get_order
few_shot:
strategy: dynamic
max_examples: 5
similarity_threshold: 0.75
tools:
builtin:
- web_search
- calculator
- current_datetime
custom:
- name: query_order
ref: order-system/query-order@v2
auth_required: true
- name: create_ticket
ref: ticketing-system/create-ticket@v1
approval: required
mcp_servers:
- server: knowledge-base
tools: [search, query]
memory:
short_term:
strategy: sliding_window
max_messages: 50
max_tokens: 8192
long_term:
type: vector_store
provider: milvus
collection: agent_memories
embedding_model: bge-m3
top_k: 5
user_profile:
enabled: true
fields: [language, preferences, history_topics]
planning:
strategy: react
max_iterations: 20
early_stopping: true
guardrails:
input:
prompt_injection: true
pii_detection: true
content_moderation: strict
output:
sensitive_data_masking: true
citation_check: true
rate_limit:
rpm: 100
tpm: 100000
observability:
tracing: true
logging: structured
metrics:
- response_time
- token_usage
- tool_call_count
- planning_iterations
A4. Agent 生命周期
Agent 从创建到退役经过完整的生命周期管理,每个阶段都有对应的操作规范和审批流程。
Dify Workflow 平台
Dify Workflow 平台基于自托管的 Dify 开源项目构建,提供可视化的 AI 应用开发工作流引擎。平台集成了 LLM 调用、知识检索、代码执行、API 集成等能力,支持通过拖拽方式编排复杂的 AI 工作流。
B1. 自托管 Dify 架构
Dify 平台采用微服务架构,核心组件包括:
📦 Web 前端
基于 React 的管理界面和工作流编辑器,提供拖拽式画布、实时预览和调试工具。
📄 API 服务
Python Flask 应用,处理所有业务逻辑、API 请求和工作流执行调度。
🧠 Worker 节点
异步工作节点,执行耗时的推理任务、代码运行和文件处理。支持水平扩展。
📛 PostgreSQL
主数据库,存储应用配置、用户数据、会话历史和工作流定义。
🗄️ Redis
缓存、消息队列(Celery Broker)和会话状态管理。
📡 向量数据库
可选的向量存储(如 Weaviate / Qdrant),用于知识库检索增强。
🌐 L4 网关适配
Dify 模型配置指向 L4 网关地址,所有模型请求通过网关转发,不直接连接 Provider。
🏗️ Storage
文件存储(S3/MinIO/本地),用于上传文档、图片和导出文件。
B2. 节点类型
Dify Workflow 提供丰富的节点类型,覆盖 AI 工作流的各个环节:
B3. 应用类型
Dify 平台支持四种应用类型,覆盖不同的业务场景:
💬 Chatbot
对话型应用,支持多轮对话、上下文记忆和知识库检索。适用于客服、智能问答、虚拟助手等场景。
📝 Text Generator
文本生成型应用,单次输入输出。适用于内容创作、摘要生成、翻译、报告撰写等场景。
🤖 Agent
智能体型应用,支持工具调用、推理规划和多步执行。适用于需要复杂推理和工具交互的场景。
🧰 Workflow
工作流型应用,可视化编排多节点流程。适用于自动化业务流程、数据处理流水线等场景。
B4. 自定义扩展
为满足平台特定需求,Dify 基础上扩展了以下自定义节点和功能:
👥 Multi-Agent 协作节点
连接 L6 多智能体管理层,在工作流中触发多个 Agent 协作完成任务。支持 Agent 分工、结果汇总和协调调度。
📡 MCP 客户端节点
直接调用 MCP 平台注册的 Server 工具,支持工具自动发现、参数校验和结果解析。
🧑💻 数字人驱动节点
与数字人系统集成,将工作流输出转化为数字人驱动的 TTS 和动作指令。
📦 业务系统集成节点
预置常用企业系统对接节点:ERP 订单查询、CRM 客户管理、OA 审批流程、工单系统等。
✍️ LLM 函数调用节点
基于 Function Calling 的扩展节点,支持结构化输出定义和验证。
📊 数据分析节点
集成 Pandas、NumPy 的数据分析能力,支持数据透视、统计分析和可视化输出。
B5. 示例流程:客服工单处理
以下为一个完整的客户服务工单处理工作流示例,展示各节点的协同工作方式:
B6. DSL 版本管理
Dify 工作流使用 YAML/JSON DSL 定义流程拓扑。平台对接 Git 仓库进行 DSL 版本管理,实现以下核心流程:
- DSL 导出:从 Dify 画布导出标准 DSL 文件,自动生成带时间戳的版本标签。
- Git 存储:DSL 文件存储在 Git 仓库中,支持分支管理(develop / staging / production)。
- Diff 对比:可视化对比两个版本的 DSL 差异,节点级变更一目了然。
- Code Review:DSL 变更通过 Pull Request 流程进行审查,审批后合并到目标分支。
- 自动部署:合并到 production 分支后自动触发 CI/CD,将 DSL 部署到生产 Dify 实例。
- 回滚机制:通过
git revert或将 DSL 恢复到历史版本即可完成回滚。
workflow.yaml(主定义)、prompts/(Prompt 模板)、tests/(测试用例)。建议每次变更合并到 main 分支前运行自动化测试套件。
B7. 集成策略
Dify 平台与平台其他组件的集成遵循以下策略:
https://gateway.internal/v1,API Key 使用网关颁发的统一密钥。
RAG 平台
RAG 平台提供从数据摄入到生成输出的全链路检索增强生成流水线,包含 6 个标准化阶段。平台采用流水线架构,每个阶段可独立扩展和替换,支持多种检索策略和 LLM 集成。
C1. 6 阶段 RAG 流水线
URL 抓取 · API 推送
元数据提取 · 多模态
向量库 · 关键词索引
查询增强 · 高级策略
LLM 生成· 引用溯源
统计 · 质量监控
C1.1 Stage 1 — 数据摄入 (Data Ingestion)
📥 数据摄入 Stage 1
C1.2 Stage 2 — 文档处理 (Document Processing)
🔨 文档处理 Stage 2
C1.3 Stage 3 — 嵌入与索引 (Embedding & Indexing)
🧩 嵌入与索引 Stage 3
C1.4 Stage 4 — 检索与重排序 (Retrieval & Reranking)
🔎 检索与重排序 Stage 4
C1.5 Stage 5 — 生成与后处理 (Generation & Post-processing)
✍️ 生成与后处理 Stage 5
C1.6 Stage 6 — 知识库管理 (Knowledge Base Management)
📚 知识库管理 Stage 6
C2. RAG 质量指标
RAG 平台定义以下核心质量指标及目标值,用于持续监控和优化 RAG 流水线效果:
| 指标 | 定义 | 目标值 | 测量方法 |
|---|---|---|---|
| Recall@10 | 前 10 个检索结果中包含相关文档的比例 | > 0.90 | 预标注测试集评估 |
| MRR | 第一个相关文档在检索结果中的平均排名倒数 | > 0.85 | 预标注测试集评估 |
| Faithfulness | 生成内容与检索上下文一致的比例 | > 0.95 | NLI 模型自动评估 + 人工抽检 |
| Answer Relevance | 生成答案与问题的相关度评分 | > 0.90 | LLM-as-Judge 自动评估 |
| Context Precision | 检索结果中相关文档占比 | > 0.80 | 人工标注 + 自动评估 |
| Answer Correctness | 生成答案的事实正确性 | > 0.85 | 人工标注 + 自动评估 |
| E2E Latency P95 | 从查询到生成结果的 P95 延迟 | < 3s | 生产环境监控 |
MCP 平台
MCP (Model Context Protocol) 平台提供模型上下文协议服务的全生命周期管理,包括 Server 注册中心、统一网关和管理控制台。MCP 平台为 Agent 和 Workflow 提供标准化的外部能力接入层,遵循 Model Context Protocol 规范。
D1. MCP Server 注册中心
MCP Server 注册中心集中管理所有已注册的 MCP 服务器,支持三种来源:
📦 内置服务器 内置
- Web Search:接入搜索引擎 API,支持 Google/Bing 等
- Database:统一数据库查询接口(MySQL、PostgreSQL、DuckDB)
- Filesystem:文件系统操作(读/写/遍历,受沙箱限制)
- API Call:通用 HTTP API 调用代理
- Code Execution:沙箱化代码执行环境(Python/JS/SQL)
- Enterprise Systems:预置企业系统适配器(ERP、CRM、OA)
🌐 社区服务器 社区
- GitHub:仓库管理、Issue/PR 操作、代码搜索
- Slack:消息发送、频道管理、搜索历史消息
- Notion:页面创建、数据库查询、内容更新
- Jira:Issue 创建/更新、看板查询、Sprint 管理
- Confluence:页面管理、空间搜索、内容更新
- Shopify:商品管理、订单查询、库存管理
💻 自定义服务器 自定义
- MCP SDK:提供 Python / TypeScript / Go 的 MCP Server SDK
- 开发模板:预设多种服务器模板,快速启动开发
- 调试工具:MCP Inspector 工具,支持本地调试和远程测试
- 一键发布:通过 CI/CD 流水线自动打包、发布到注册中心
- 私有仓库:企业级服务器可发布到私有注册中心
D2. MCP 网关
MCP 网关是所有 MCP 工具调用的统一入口,提供协议转换、安全代理、负载均衡和审计能力。
📡 统一接入
所有 Agent 和工作流通过 MCP 网关调用工具,无需直接连接各 MCP Server。网关提供统一的 REST API 接口。
🔄 协议转换
支持 stdio(本地子进程)、SSE(Server-Sent Events)、Streamable HTTP 三种 MCP 传输协议。网关自动完成协议转换。
🛡️ 安全代理
工具级权限控制:每个工具可独立配置允许/禁止。参数校验、敏感数据脱敏、速率限制、高风险操作审批自动触发。
⚙️ 负载均衡与 HA
多副本 MCP Server 自动负载均衡。健康检查、熔断保护、幂等操作自动重试。
📜 审计日志
完整的工具调用记录:调用方、时间戳、入参、出参、耗时、状态。日志不可篡改,支持导出和检索。
D3. MCP 管理控制台
MCP 管理控制台提供可视化的 Server 和工具管理界面:
📦 Server 管理
Server 注册、启停、版本管理、配置更新,支持健康状态查看和告警配置。
🔍 工具浏览器
浏览所有已注册工具,查看工具描述、参数 Schema、调用示例和使用统计。
🔑 权限矩阵
按用户/角色/应用维度配置工具调用权限,支持白名单和黑名单模式。
📊 监控仪表盘
实时展示工具调用量、成功率、延迟分布、错误率等关键指标。
📈 用量统计
按时间维度统计工具调用趋势,按 Server 维度分析使用分布。
❤️ 健康检查
自动检测所有已注册 Server 的可用性,异常自动告警并触发恢复流程。
D4. MCP Server 注册配置示例
MCP Server 通过 JSON 配置文件注册到平台,以下为完整示例:
{
"server": {
"name": "enterprise-knowledge-base",
"version": "2.1.0",
"description": "企业知识库 MCP 服务器,提供文档检索和问答能力",
"transport": "sse",
"endpoint": "https://mcp-knowledge.internal:8443/sse",
"health_check": "/health",
"timeout_ms": 30000,
"max_retries": 3
},
"capabilities": {
"tools": [
{
"name": "search_documents",
"description": "搜索知识库文档",
"parameters": {
"type": "object",
"properties": {
"query": { "type": "string", "description": "搜索关键词" },
"top_k": { "type": "integer", "default": 10, "maximum": 50 },
"filters": { "type": "object", "description": "过滤条件" }
},
"required": ["query"]
},
"permissions": { "roles": ["admin","editor","viewer"], "rate_limit": 100 },
"risk_level": "low"
},
{
"name": "update_document",
"description": "更新知识库文档内容",
"parameters": {
"type": "object",
"properties": {
"doc_id": { "type": "string" },
"content": { "type": "string" },
"overwrite": { "type": "boolean", "default": false }
},
"required": ["doc_id", "content"]
},
"permissions": { "roles": ["admin","editor"], "approval_required": true },
"risk_level": "medium"
}
],
"resources": [
{
"name": "document://{doc_id}",
"description": "文档资源 URI 模板",
"mime_type": "text/markdown"
}
]
},
"auth": {
"type": "api_key",
"api_key_env": "KNOWLEDGE_BASE_API_KEY",
"rotate_interval_days": 90
},
"observability": {
"tracing": true,
"metrics_port": 9090,
"log_level": "info"
},
"deployment": {
"replicas": 3,
"resources": { "cpu": "2", "memory": "4Gi" },
"scaling": {
"min_replicas": 2,
"max_replicas": 10,
"target_cpu_utilization": 70
}
}
}
8. SLA/SLO 目标
L5 各子平台定义以下 SLA/SLO 目标:
🤖 Agent 平台
| 服务可用性 | 99.95% |
| Agent 推理 P95 延迟 | < 3s |
| 工具调用 P95 延迟 | < 1.5s |
| Agent 创建/更新延迟 | < 2s |
| 并发 Agent 实例数 | 5000+ |
| 最大迭代深度 | 50 |
🔧 Dify Workflow
| 服务可用性 | 99.9% |
| 工作流触发延迟 | < 500ms |
| 工作流执行成功率 | > 99.5% |
| 画布操作响应 | < 200ms |
| 并发工作流执行 | 1000+ |
| 最大工作流节点数 | 200 |
🔍 RAG 平台
| 服务可用性 | 99.95% |
| 检索 P95 延迟 | < 500ms |
| 端到端 RAG P95 延迟 | < 3s |
| 文档索引延迟 | < 1s/1000 chunks |
| 最大知识库文档数 | 10M+/库 |
| 并发检索 QPS | 2000+ |
📡 MCP 平台
| 服务可用性 | 99.95% |
| 工具调用 P95 延迟 | < 1s |
| 网关转发额外延迟 | < 10ms |
| Server 注册生效时间 | < 30s |
| 最大注册 Server 数 | 500+ |
| 并发工具调用 | 5000+ |
9. 技术选型
以下为 L5 各子平台的核心技术选型:
| 组件 | Agent 平台 | Dify Workflow | RAG 平台 | MCP 平台 |
|---|---|---|---|---|
| 运行时语言 | Python 3.12+ | Python 3.11 (Flask) | Python 3.12+ | Python / TS / Go |
| API 框架 | FastAPI | Flask | FastAPI | FastAPI |
| AI Framework | LangChain / LlamaIndex | LangChain (内置) | LlamaIndex / LangChain | MCP SDK |
| 向量数据库 | Milvus | Weaviate / Qdrant | Milvus (主) / Qdrant | — |
| 主数据库 | PostgreSQL 16 | PostgreSQL 15 | PostgreSQL 16 | PostgreSQL 16 |
| 缓存 | Redis 7.x | Redis 7.x | Redis 7.x | Redis 7.x |
| 消息队列 | RabbitMQ / Redis Stream | Redis (Celery) | RabbitMQ | Kafka (审计) |
| 搜索引擎 | Elasticsearch 8.x | — | Elasticsearch 8.x | — |
| 文档解析 | — | Unstructured | docling / Unstructured | — |
| Embedding | bge-m3 / text-embedding-3 | 通过 L4 网关 | bge-m3 / jina-v3 | — |
| 可观测 | OTel + Prom + Grafana + ELK | OTel + Prom + Grafana | OTel + Prom + Grafana | OTel + Prom + Grafana |
| 容器化 | Docker + Kubernetes | Docker + Kubernetes | Docker + Kubernetes | Docker + Kubernetes |
| CI/CD | GitLab CI / ArgoCD | GitLab CI / ArgoCD | GitLab CI / ArgoCD | GitLab CI / ArgoCD |