AI 基础能力平台 · 架构文档中心
覆盖算力 → 模型 → 网关 → 应用 → 业务全链路的七层 AI 基础设施平台,为企业提供统一的 AI 能力底座。
七层架构
点击每一层查看详细的设计文档,包括核心模块、API 规范、边界定义和依赖关系。
业务应用层
面向最终用户的 AI 业务产品:智能问数、数字人管理、漫剧生成、智能客服、AI编程助手等
多 Agent 管理平台
Agent 管理中心、Skill 市场、Tool 注册中心、多 Agent 编排引擎(6种模式)
模型基础应用平台
Agent 平台 (规划/执行/反思) · Dify 工作流 · RAG 平台 (6阶段管线) · MCP 接入平台
模型网关
统一 API 入口 (OpenAI-compatible)、智能路由 (5种策略)、外部供应商接入、流量治理
模型市场
模型资产管理中心:开源/自训/微调模型注册、评测平台、版本管理、Leaderboard
模型部署层
推理引擎矩阵 (vLLM/TGI/Triton/SGLang等)、一键部署、弹性伸缩、LoRA热加载
基础设施与算力管理层
GPU/NPU 集群管理、K8s 容器编排、分布式存储、高性能网络、运维监控告警
横切关注点
安全体系
四层安全防护:基础设施安全、数据安全、应用安全、运营安全。TLS 1.3、Vault/KMS、RBAC、DLP。
可观测性平台
Metrics (Prometheus) · Traces (Jaeger) · Logs (Loki)。全链路追踪、SLI/SLO 定义。
CI/CD · MLOps · GitOps
应用 CI/CD、模型 CI/CD(训练→评测→打包→部署)、GitOps 基础设施即代码。
成本管理
按卡时计费、成本路由、Scale to Zero、Spot实例、冷热数据分层、用量预算与预警。
多租户与数据治理
租户隔离、资源配额、SSO/OAuth/OIDC、数据分类分级、脱敏、血缘追踪、合规审计。
平台能力开放
RESTful API · SDK (Python/TypeScript) · WebSocket 流式 · Webhook · CLI · WebUI 管理控制台。
部署方案与演进路线
部署拓扑
生产环境部署架构、网络规划 (5个网段)、GPU 集群物理拓扑、高可用设计 (9大组件)。
技术选型总览
全层级 30+ 技术组件选型推荐、关键决策理由、备选方案对比。
演进路线图
Phase 1-4 分阶段实施计划、关键里程碑、18个月演进路径。