AI 基础能力平台 · 平台概览与架构设计准则

版本 v1.0 日期 2026-06-02 作者 AI 基础平台架构组 层级 全平台概览

1. 平台定位与愿景

1.1 我们构建的是什么?

AI 基础能力平台是一套覆盖 「算力 → 模型 → 网关 → 应用 → 业务」 全链路的 AI 基础设施平台。它不是某一个具体的工具或产品,而是一个承上启下的能力基座

1.2 平台价值主张

🏭 算力集约管理

将分散的 GPU/NPU 资源池化为统一算力,按需分配、精细计费。目标:GPU 平均利用率从行业平均的 30% 提升至 70%+。

⚡ 模型敏捷交付

从模型选型到服务上线缩短至分钟级。一键部署、灰度发布、自动扩缩容、LoRA 热加载,消除运维瓶颈。

🔗 应用快速构建

通过 Agent 平台、Dify 工作流、RAG 平台、MCP 接入四大基座,业务团队无需关注底层模型细节,直接使用平台能力构建 AI 应用。

🛡️ 安全治理闭环

全链路审计、内容安全过滤、模型级访问控制、数据不出域,满足企业级安全合规要求。

1.3 平台使用角色

角色关注范围典型行为
运维工程师L1 基础设施层管理 GPU 集群、配置监控告警、处理故障节点
MLOps 工程师L2 部署层 + L3 市场层部署模型服务、配置扩缩容策略、管理模型版本
平台管理员L4 网关层 + 横切关注点配置路由策略、管理 API Key、设置安全策略
AI 应用开发者L5 基础应用层构建 Agent、编排 Dify 工作流、搭建 RAG 知识库
Agent 编排者L6 多 Agent 管理层设计多 Agent 协作流程、注册 Skill/Tool
业务产品经理L7 业务应用层使用智能问数、配置数字人、创建漫剧

2. 核心设计原则

架构设计准则:以下六条原则是本平台所有架构决策的元规则。任何层级的任何设计决策都应回溯到这些原则进行验证。
原则定义实施要求反模式 (不允许)
🔌 分层解耦 每层独立演进、独立部署,仅通过标准 API 交互 每层有自己的 API 契约、SLA、版本号;变更向下兼容 跨层直接调用数据库、跨层共享代码库、上层绕过网关直接调用推理服务
🌐 开放兼容 兼容主流开源生态,避免供应商锁定 API 遵循行业标准 (OpenAI-compatible、MCP Protocol);支持多引擎/多供应商可替换 私有协议、单一供应商绑定、无法替换的硬编码依赖
🔒 安全可控 数据不出域、模型本地化、全链路审计 每层独立鉴权、审计日志不可篡改、敏感数据加密存储 明文传输模型推理数据、跳过审计日志、共享 API Key
📈 弹性伸缩 从单机到千卡集群,按需扩缩容 所有服务支持水平扩展、支持 Scale to Zero、自动故障转移 硬编码单点、固定资源分配、无法自动恢复的故障模式
👁️ 可观测性 全链路追踪、指标采集、日志聚合 每层暴露 Metrics/Traces/Logs 三支柱、定义 SLI/SLO 黑盒服务、无健康检查、无告警定义
🧑‍💻 开发者友好 SDK/CLI/API/WebUI 多入口,降低接入门槛 OpenAPI 文档、多语言 SDK、交互式 Playground 仅内部 API、无文档、无示例代码

3. 总体架构

3.1 分层边界定义

平台采用严格的七层分层架构。每层有明确的职责边界对外接口依赖方向:依赖只允许从上层指向下层,不允许反向依赖或跨层穿透。

七层架构边界定义 · 依赖方向 (上层 → 下层) L7 · 业务应用层 — 对外接口: 业务 API | 依赖方向: ↓ L6职责: 面向最终用户的 AI 业务产品。调用 L6 的 Agent 编排能力,组合实现业务场景不允许: 直接调用 L4 模型网关、直接访问 L3 模型市场 边界 B6 L6 · 多 Agent 管理平台 — 对外接口: Agent Orchestration API | 依赖方向: ↓ L5职责: 多 Agent 编排协作,Skill/Tool 注册管理。调用 L5 的单 Agent 能力和工具接口不允许: 直接读写 Agent 推理上下文、绕过 L5 使用 MCP 工具 边界 B5 L5 · 模型基础应用平台 — 对外接口: Application API | 依赖方向: ↓ L4职责: 单 Agent 运行时、Dify 工作流编排、RAG 管线、MCP Server 管理。调用 L4 的模型推理接口不允许: 直接管理 GPU 资源、直接操作模型权重文件 边界 B4 L4 · 模型网关 — 对外接口: OpenAI-compatible API | 依赖方向: ↓ L3 (内部模型) / → 外部供应商职责: 统一模型访问入口、智能路由、鉴权限流、协议转换。调用 L3 获取内部模型路由信息不允许: 绕过 L3 直接发现推理服务端点、修改路由规则却不更新 L3 注册信息 边界 B3 L3 · 模型市场 — 对外接口: Model Registry API | 依赖方向: ↓ L2职责: 模型资产管理、评测、版本化。存储模型元数据和评测结果,向 L4 提供模型路由信息不允许: 存储模型权重本身 (权重存于 L1 对象存储)、直接启动/停止推理服务 边界 B2 L2 · 模型部署层 — 对外接口: Inference API (引擎原生) | 依赖方向: ↓ L1职责: 将模型权重转化为可调用的推理服务。管理推理引擎生命周期、扩缩容、灰度发布不允许: 直接操作物理 GPU 设备、直接配置网络/存储基础设施 边界 B1 L1 · 基础设施与算力管理层 — 对外接口: K8s API / IaaS API | 依赖方向: (最底层,无下层依赖)职责: 物理/虚拟化算力资源池化。GPU 集群管理、K8s 调度、存储网络、监控告警不允许: 感知上层业务逻辑、理解模型语义 横切关注点 (贯穿所有层) 🔒 安全鉴权 · 加密 · 审计 👁️ 可观测Metrics · Traces · Logs 🚀 CI/CDGitOps · MLOps · 灰度 💰 成本计费 · 预算 · 优化 🏢 多租户隔离 · 配额 · 计费 全层贯穿 边界设计规则: ① 每一层有且仅有一份 API 契约 ② 契约变更需版本化和评审 ③ 下层变更不得影响上层 SLA ④ 跨层通信仅通过 API,不共享DB ⑤ 数据所有权: 数据在产生层拥有 ⑥ 每层独立可测,不依赖上层Mock 反模式警示: ❌ L5 绕过 L4 直连推理服务 ❌ L2 绕过 L1 操作物理 GPU ❌ 上层直接访问下层数据库

3.2 数据流向

平台的请求链路(上行)和响应链路(下行)严格遵循层级顺序。同时有两个关键分支:内部模型推理路径和外部模型代理路径。

数据流向图 — 请求/响应路径 ▲ 请求流 (上行) L7 业务应用 L6 多Agent管理 L5 基础应用平台 L4 模型网关 路由 决策 L3 模型市场 L2 模型部署 L1 基础设施 外部模型路径 Anthropic / OpenAI / Google / 百度 / 阿里... ▼ 响应流 (下行) - 逐层回传 ① L1/L2 返回推理结果 → ② L3 返回模型元信息 → ③ L4 鉴权校验 + 格式转换 → ④ L5 后处理 (RAG结果组装/Agent反思) → ⑤ L6 多Agent结果聚合/投票 → ⑥ L7 业务层格式化 + UI 渲染 → 每层可在响应中添加本层元数据 Header 如: X-Cost, X-Model-Version, X-Latency

3.3 层间关联矩阵

下表定义了所有层级之间的直接依赖关系(U=上游使用,D=下游提供)、数据传递方向SLA 传递规则

L1L2L3L4L5L6L7
L1 D: 算力/存储/网络
通过 K8s API
禁止直接 禁止直接 禁止直接 禁止直接 禁止直接
L2 U: 调度资源
Pod/GPU请求
D: 推理服务端点
注册到 L3
禁止旁路 禁止直接 禁止直接 禁止直接
L3 禁止直接 U: 获取部署状态
注册模型版本
D: 模型路由表
查询接口
禁止直接 禁止直接 禁止直接
L4 禁止直接 禁止旁路 U: 查询路由信息
模型发现
D: 统一推理接口
OpenAI API
禁止直接 禁止直接
L5 禁止直接 禁止直接 禁止直接 U: 调用模型推理
Agent/RAG 调用
D: 单Agent能力
平台 API
禁止直接
L6 禁止直接 禁止直接 禁止直接 禁止直接 U: 编排单Agent
多Agent编排
D: 多Agent编排能力
编排 API
L7 禁止直接 禁止直接 禁止直接 禁止直接 禁止直接 U: 调用编排能力
业务集成
图例说明: U: 上游使用 (蓝色) = 上层调用下层提供的接口 | D: 下游提供 (绿色) = 下层暴露给上层的 API | 禁止直接/禁止旁路 (红色) = 违反分层解耦原则,不允许

4. 关键设计决策

决策选择理由
为什么是七层? 七层严格分层 vs 简化三/四层 每层的运维节奏负责团队不同。GPU 集群运维、模型部署、资产管理、网关治理、Agent 编排是不同的专业领域。合并层级会导致变更耦合、故障爆炸半径扩大。
L1-L2 为什么分离? 算力管理和推理服务独立 GPU 的采购/上架/故障替换(月级)与模型部署/扩缩容/灰度发布(分钟级)是完全不同的运维节奏。
L2-L3 为什么分离? 部署运行 vs 资产管理 一个模型可以在市场注册但未部署;也可以部署多个版本在市场管理。部署状态是运行时概念,模型版本是生命周期概念。
L3-L4 为什么分离? 模型市场 vs 模型网关 市场是"有什么模型",网关是"怎么访问模型"。网关需要处理鉴权/限流/路由等模型无关的横切逻辑。
L4-L5 为什么分离? 原始推理 vs 高阶应用 网关提供原始 token-in/token-out 推理接口;L5 提供 Agent 循环、RAG 管线、工作流编排等高阶能力。两类能力的用户角色和 SLA 不同。
L5-L6 为什么分离? 单 Agent vs 多 Agent 单 Agent 的构建/运行(L5)和多个 Agent 的编排协作(L6)是不同的复杂度。L6 解决的是 Agent 间通信、任务分配、结果聚合等更高维度的问题。
为什么用 OpenAI-compatible API? 统一协议 + 生态兼容 LangChain、LlamaIndex、Dify 等主流生态都使用此协议。采用它可以零适配接入大量工具,降低开发者迁移成本。

4.1 SLA 传递规则

上层 SLA 依赖于下层 SLA。各层需要保障自身的 SLO 以支撑上层的 SLO 目标:

层级关键 SLISLO 目标支撑的上层
L1GPU 集群可用性99.9%L2 推理服务可用性
L2推理服务可用性 / P99 延迟99.95% / <2s (7B), <5s (70B)L4 请求成功率
L3模型元数据查询延迟<10ms (P99)L4 路由决策延迟
L4网关可用性 / 路由延迟增量99.99% / <5ms (P99)L5 应用请求成功率
L5检索 Recall@5 / Agent 任务成功率>0.90 / >85%L6 编排成功率
L6编排执行成功率>80%L7 业务可用性
L7业务请求成功率 / P99 延迟>99% / 依业务而定最终用户体验
继续阅读:了解每一层的详细设计 → L1 · 基础设施与算力管理 · L2 · 模型部署层 · 返回文档中心