L7

业务应用层

Business Application Layer — 智能数据问答 · 数字人管理 · 动漫剧生成 · 智能客服 · AI 编程助手

层级编号 L7 核心产品线 3 大平台 + 8 大应用 向下依赖 ↓ L6 (多 Agent 编排 API / Skill API / Tool API) 向上提供 ↑ 最终用户 (Web / App / API / SDK) 关键用户 业务分析师 · 内容创作者 · 开发人员 · 客服人员 · 终端消费者 设计理念 产品化 · 可独立交付 · 乐高式组合 · 体验驱动 · 数据闭环

2. 层级定位

L7 业务应用层是 AI 基础能力平台的顶层,也是直接面向最终用户的"业务产品层"。与下层平台不同,L7 的每个业务应用都是独立的产品线——它们共享底层平台提供的基础能力(L1-L6),但各自拥有独立的产品体验、用户界面和业务逻辑。

L7 的核心设计理念可概括为 "产品化、可组装、体验驱动"

层级定位 — L7 业务应用层在架构中的位置 L7 · 业务应用层 (Business Application Layer) 智能数据问答平台 · 数字人管理平台 · 动漫剧生成平台 智能客服 · AI 编程助手 · 智能文档 · AI 培训 · 营销内容 · 合规审查 · 情感分析 · 知识管理 调用 L6 多 Agent 编排 API / Skill API / Tool API L6 · 多 Agent 管理平台 (Multi-Agent Management Platform) Agent 管理中心 | Skill 市场 | 工具注册中心 | 编排引擎 | 框架集成 调用单 Agent API / MCP Tools / RAG API L5 · 模型基础应用平台 (Model Application Platform) Agent 平台 · Dify Workflow · RAG 平台 · MCP 平台 L4 · 模型网关 · L3 · 模型市场 · L2 · 模型部署 · L1 · 基础设施 L7 关键设计原则 产品化:每个业务应用是独立产品线,拥有完整的产品体验和业务闭环 只调用 L6:L7 禁止直接调用单 Agent、L5 RAG 或 L4 模型网关 —— 一切通过 L6 编排 API 不暴露内部:业务应用从不将底层平台能力直接暴露给最终用户

3. 边界规范

下游 → L6 调用 L6 多 Agent 编排 API,绝不直接使用单 Agent 或 L4 模型网关 —— 所有业务应用通过 L6 编排 API 组合底层能力。业务应用不允许直接调用 L5 单 Agent API、L5 RAG 检索 API、L5 MCP Tool API 或 L4 模型网关 API,确保编排治理、安全审计和可观测性不中断。
内部 各业务应用相互独立,无跨应用依赖关系 —— 每个业务应用是独立的产品线,拥有独立的代码仓库、部署流水线和数据库。应用之间不允许直接调用彼此的内部 API。如需共享能力,应通过 L6 层的 Skill 市场或工具注册中心实现。
外部 面向最终用户提供业务 API 和 UI,不暴露内部平台细节 —— 业务应用对外暴露的是业务级别的 API(如"生成市场报告"、"查询销售数据")和面向用户的 Web/App 界面,从不暴露底层使用的模型名称、Agent 数量、编排流程、Token 消耗等技术细节。用户感知的是业务价值而非技术能力。
数据 业务数据与平台数据严格隔离,应用间数据不互通 —— 每个应用拥有独立的数据存储,不共享业务数据。应用如需访问平台层数据(如模型调用日志、Token 用量),通过平台提供的观测 API 读取,不得直接访问平台数据库。

A

智能数据问答平台

智能数据问答平台(Smart Data Q&A Platform)是 L7 层的核心产品之一,允许业务用户通过自然语言直接查询和分析企业数据,无需掌握 SQL、Python 等技术技能。平台以 NL2SQL(Natural Language to SQL)技术为核心,结合多轮对话、数据可视化和智能推荐能力,打造"用说话就能分析数据"的极致体验。

A1.1 NL2SQL 引擎架构

NL2SQL 引擎是智能数据问答平台的技术核心,采用六阶段流水线架构处理自然语言到 SQL 的转换:

🔄 六阶段 NL2SQL 流水线

自然语言问题经过以下六个阶段的逐步处理,最终转化为可执行的 SQL 查询并返回结果:
1
意图识别
2
语义解析
3
Schema 链接
4
SQL 生成
5
校验优化
6
执行展示
阶段一 · 意图识别 理解用户问题的类型、意图和业务上下文 —— 输入:用户自然语言问题(如"上个月各地区的销售额排名")。输出:意图分类(查询/对比/趋势/占比/预测)、业务领域(销售/财务/运营)、时间范围、聚合粒度。使用 Fine-tuned LLM 进行意图分类,准确率 > 98%。
阶段二 · 语义解析 将自然语言映射到业务语义层 —— 提取用户问题中的关键语义元素:业务指标(销售额、利润、增长率)、维度(地区、时间、产品类别)、条件(> 100 万、排名前 10)、排序和限制。语义解析结果以结构化 JSON 表示,作为后续 Schema Linking 的输入。
阶段三 · Schema 链接 将语义元素映射到数据库 Schema 对象 —— 使用向量检索和语义匹配将业务指标名称映射到数据库中的表名、列名和关联关系。例如"销售额"→ sales_revenue 列、"各地区"→ region 维度表。支持同义词识别("销售额"="销售收入"="营收")和模糊匹配。Schema 链接使用 Metadata RAG 加速。
阶段四 · SQL 生成 根据解析结果生成语法正确的 SQL 查询 —— 将语义解析和 Schema 链接结果作为 Prompt,调用 LLM 生成 SQL。采用"少样本 + 动态 Schema 上下文"策略:Prompt 中包含 3-5 个与当前查询类型最匹配的示例对,以及精简后的 Schema 定义。生成的 SQL 包含 SELECT、FROM、JOIN、WHERE、GROUP BY、ORDER BY、LIMIT 等子句。
阶段五 · 验证与优化 校验 SQL 正确性并进行查询优化 —— 自动校验:语法检查(SQL Parser)、Schema 验证(表和列是否存在)、安全规则检查(拒绝 DDL/DML、检测全表扫描、超大数据量检查)。优化:添加查询 Hint、索引推荐、聚合预计算匹配、查询重写(子查询展开、谓词下推)。
阶段六 · 执行与展示 执行查询并生成用户友好的结果展示 —— 执行 SQL、限制返回行数(默认 1000 行,可配置)、结果缓存。自动选择最佳展示方式:表格(多维数据)、柱状图(对比)、折线图(趋势)、饼图(占比)、散点图(相关性)、热力图(分布)。生成自然语言描述的结果摘要。

A1.2 NL2SQL 执行流水线示例

以下展示一个完整的 NL2SQL 查询流程,从用户输入到结果展示的全过程:

💬 用户问题

"今年第一季度各产品类别的销售额和同比增长率,按销售额降序排列"

用户通过自然语言输入业务问题,无需了解数据库结构和 SQL 语法。

⚙️ NL2SQL 转换

意图:数据查询 + 对比分析
业务领域:销售分析
时间范围:2026-01-01 ~ 2026-03-31
指标:销售额(sales_amount)、同比增长率(yoy_growth)
维度:产品类别(product_category)
排序:销售额降序

📄 生成的 SQL

SELECT
  pc.category_name,
  SUM(s.sales_amount) AS total_sales,
  (SUM(s.sales_amount) - SUM(sy.sales_amount)) / NULLIF(SUM(sy.sales_amount), 0) * 100 AS yoy_growth
FROM sales s
JOIN product_categories pc ON s.category_id = pc.id
LEFT JOIN sales_same_period_last_year sy ON s.category_id = sy.category_id
WHERE s.sale_date BETWEEN '2026-01-01' AND '2026-03-31'
GROUP BY pc.category_name
ORDER BY total_sales DESC;

📊 结果展示

自动渲染为柱状图(销售额对比)+ 折线图(增长率)组合图表,附带自然语言摘要:"第一季度电子类产品销售额最高,达 1,280 万元,同比增长 23.5%;服装类增长最快,同比增长 35.2%……"

A1.3 数据源支持

平台内置丰富的数据库连接器,支持多种数据源的统一查询。所有数据源通过 L6 工具注册中心注册管理,遵循统一的安全策略:

类型数据库协议支持特性查询限制
关系型MySQL 8.0+JDBCJOIN、子查询、窗口函数、CTE只读、LIMIT 1000 默认
关系型PostgreSQL 15+JDBCJSON 查询、全文检索、数组函数、扩展类型只读、LIMIT 1000 默认
列式存储ClickHouse 23+Native/JDBC物化视图、聚合函数、时序函数、近似计算只读、LIMIT 5000 默认
OLAP 引擎StarRocks 3.0+MySQL 协议物化视图、CBO 优化器、Colocation Join只读、LIMIT 5000 默认
大数据Hive 3.xHiveServer2/Thrift分区裁剪、ORC/Parquet 优化、UDF只读、LIMIT 1000 默认、超时 120s
大数据Spark SQL 3.xThrift JDBCDelta Lake、Iceberg、视图、物化视图只读、LIMIT 1000 默认、超时 180s
数据源管理:所有数据源连接信息(地址、端口、凭证)由平台统一管理,加密存储。用户不直接接触数据源凭据,通过平台授权后自动使用安全连接。数据源接入需经过 DBA 审批,确保不影响生产数据库性能。

A1.4 安全机制

智能数据问答平台内置多层安全防护机制,确保企业数据的安全合规使用:

🛡️ 只读强制

所有数据库连接使用 只读账户,在连接层面禁止 INSERT、UPDATE、DELETE、DROP、ALTER、TRUNCATE、CREATE 等写操作。SQL 校验阶段额外检测查询类型,拒绝任何非 SELECT 语句。双重保障确保数据安全。

📝 语句白名单

仅允许安全的 SQL 语句模式:普通 SELECT、聚合查询(GROUP BY)、子查询、CTE(WITH 语句)、JOIN(INNER/LEFT/RIGHT/FULL)、窗口函数。禁止:DDL、DML、存储过程、动态 SQL、系统函数调用(如 LOAD_FILE、xp_cmdshell)、文件 IO 操作。

🕵️ 敏感列脱敏

支持在数据源 Schema 级别配置敏感列:身份证号、手机号、邮箱、银行卡号、密码、密钥等。脱敏策略包括:完全隐藏(***)、部分掩码(123****8901)、保留格式脱敏。脱敏在查询结果返回前由平台执行,数据源无感知。

🧩 结果审计

所有查询请求和返回结果完整记录审计日志:查询用户、时间、原始问题、生成的 SQL、执行耗时、返回行数、Token 消耗。审计日志不可篡改,保留 365 天。支持按用户、时间、查询类型等多维度审计检索。

A1.5 结果展示与交互

平台提供丰富的结果展示方式和交互能力,让数据查询结果更加直观易用:

📝 自然语言解释

查询结果自动附带自然语言摘要,用业务语言描述查询发现:"本季度销售额同比增长 18.5%,主要增长来自华东地区(+32%)和新产品线(+45%)"。摘要基于查询结果和业务上下文自动生成,让非技术用户也能理解数据含义。

📊 自动图表选择

平台根据数据特征自动选择最佳可视化方式:对比分析→柱状图/条形图、趋势分析→折线图/面积图、占比分析→饼图/环形图、相关性→散点图/气泡图、分布→热力图/箱线图、地理→地图可视化。支持一键切换图表类型。

🔄 追问支持

支持多轮对话上下文:用户可以在当前查询结果基础上继续追问("按城市细分看看"、"只显示前 5 名"、"用百分比表示")。系统维护对话状态和查询上下文,理解指代("它们"、"这个"、"和刚才一样")和增量约束("再加上利润率")。

📥 结果导出

查询结果支持多种导出格式:CSV(原始数据)、Excel(含图表)、PDF(报告格式)、Markdown(嵌入文档)。支持定时报告:配置查询定时执行(每日/每周/每月),结果通过邮件或即时通讯自动推送到指定收件人。

A1.6 性能优化

为了在保证准确性的同时提供流畅的查询体验,平台采用以下性能优化策略:

🔍 Metadata RAG

将数据库 Schema 元数据(表结构、列描述、外键关系、业务术语映射)提前向量化并存储到向量数据库。NL2SQL 的 Schema 链接阶段通过向量检索快速定位相关表和列,避免将完整 Schema 灌入 Prompt,同时显著提升链接准确率和速度。

📥 查询缓存

两层缓存策略:结果缓存——完全相同的问题在缓存 TTL(默认 5 分钟)内直接返回缓存结果;SQL 缓存——相似的查询模式(如"各地区的销售额"和"各地区营收")命中同一 SQL 模板,仅替换参数。缓存命中率通常 > 40%。

🧩 预计算聚合

对高频查询的业务指标(日销售额、月活跃用户、季增长率等)提前建立物化视图或聚合表。NL2SQL 引擎自动识别查询是否为预计算可覆盖,将查询路由到聚合表而非详情表,查询速度提升 10-100 倍。

⚡ 查询超时控制

每个查询设置最大执行时间限制(默认 30s,复杂查询可调整到 120s)。超时查询自动终止并返回"查询时间过长,请缩小数据范围或使用更精确的筛选条件"提示。大数据源(Hive/Spark)设置更严格的超时限制。

设计要点:智能数据问答平台的设计核心是"让业务用户无障碍地访问数据"。平台不追求替代专业数据分析师,而是降低数据获取门槛——简单查询秒级响应,复杂查询分钟级完成。多轮对话能力使得用户可以逐步精确问题,而非一次性提出完美问题。平台适用于销售分析、财务报告、运营监控、用户行为分析等常见业务场景。

B

数字人管理平台

数字人管理平台(Digital Human Management Platform)是 L7 层的创新产品,提供从形象创建、语音克隆、大脑构建到驱动渲染的全链路数字人生产能力。平台定位为"数字人工厂"——用户只需提供最基础的素材(照片、音频样本、角色设定),平台即可自动化生成可用于直播、客服、培训等场景的智能数字人。

B1.1 第一阶段:形象建模

数字人的外观是用户的第一印象。平台提供多种形象创建方式,满足不同应用场景的差异需求:

🖼️ 2D 照片转数字人

  • 技术路径:上传 1-3 张正面/侧面照片 → 人脸关键点检测 → 面部重建 → 纹理映射 → 表情基绑定
  • 输出:高保真 2D 数字人形象,支持 52 组基础表情(Blend Shape),分辨率最高 4K
  • 适用:虚拟主播、客服助手、视频会议替身
  • 耗时:约 5-10 分钟

📽️ 3D 扫描建模

  • 技术路径:多角度照片/视频采集 → 结构光/SfM 三维重建 → 拓扑优化 → PBR 材质贴图 → 骨骼绑定
  • 输出:可动画 3D 模型(FBX/glTF/Blend),面数 5K-100K 可配置,支持 LOD
  • 适用:高端虚拟偶像、3D 直播、VR/AR 应用
  • 耗时:约 30-120 分钟(取决于精细度)

🧙‍♂️ AI 生成数字人

  • 技术路径:文本描述 → Stable Diffusion/DALL-E 生成形象 → Face Restore(GFPGAN)→ 表情基绑定
  • 输出:完全由 AI 生成的虚拟形象,不基于任何真实人物
  • 适用:品牌虚拟代言人、二次元角色、卡通形象、动物拟人
  • 耗时:约 3-8 分钟

🎨 卡通/风格化形象

  • 技术路径:真实照片 → 风格迁移(卡通化/手绘/水彩/3D 渲染风)→ 表情基适配
  • 输出:风格统一的表情素材序列,可用于 2D Live2D 或 Spine 动画
  • 适用:教育类数字人、儿童内容、轻松风格直播
  • 耗时:约 8-15 分钟

B1.2 第二阶段:语音克隆

语音是数字人"灵魂"的重要组成部分。平台集成多种语音合成引擎,支持声音克隆和情感化语音生成:

🎤 语音克隆引擎

CosyVoice:阿里通义实验室开源的语音克隆模型,支持 3-10 秒参考音频即可完成声音克隆。支持跨语言语音合成(中文/英文/日文混合)。
GPT-SoVITS:少样本语音克隆方案,仅需 1 分钟参考音频即可实现高相似度克隆。支持音色混合(融合多个人的声音特征)。
克隆效果评估指标:MOS 评分(Mean Opinion Score)> 4.0、说话人相似度 > 90%。

📣 TTS 引擎

ChatTTS:对话式文本转语音模型,支持自然停顿、语气变化、笑声、叹息等副语言特征。特别适合对话场景的数字人语音合成。
Edge-TTS:微软 Edge 浏览器内置 TTS 引擎的多语言支持,提供超过 400 种语音,覆盖 100+ 语言和地区。
Fish-Speech:基于 VQ-GAN 和 LLM 的 TTS 模型,支持零样本克隆和多种说话风格。

🎭 情感语音合成

支持 6 种基础情感的语音合成:高兴、悲伤、愤怒、惊讶、恐惧、平静。情感强度可调节(1-10 级)。通过以下方式实现:情感 Embedding 注入(在语音生成模型中添加情感向量)、韵律调节(调整语速、音高、音量参数)、副语言标注(在文本中插入笑声、停顿、重音等标签)。

🎵 背景音乐与音效

自动为数字人语音配置背景音乐(BGM):根据数字人风格和对话场景推荐 BGM(温馨/专业/激昂/轻松)。支持音效触发:在关键节点(表情变化、动作)自动添加音效。BGM 和语音自动均衡处理,确保语音清晰度。

B1.3 第三阶段:大脑构建

数字人的"大脑"决定其智能水平——包括对话能力、知识边界和人格特质。平台提供模块化的大脑构建工具:

🧠 LLM 角色设定

  • 人格:性格特质(外向/内敛、正式/幽默、专业/亲切)、说话风格(简洁/详细、口语化/书面语)、情绪基线(积极/中立/冷静)
  • 知识:专业领域(金融/医疗/教育/客服)、知识深度(入门/专家级)、知识边界(严格限定/开放讨论)
  • 行为准则:回复规则(不回答-X 问题、引导到-Y 方向)、安全策略(敏感话题过滤)、品牌一致性(符合品牌语调)
  • 人格模板:系统预设 20+ 角色模板(知性讲师、亲切客服、幽默主播、专业顾问),用户可自定义

📚 知识库(RAG)

  • 文档导入:支持 PDF/Word/Excel/TXT/Markdown/网页导入,自动解析和切片
  • 向量存储:文档切片后通过 Embedding 模型向量化,存入 Milvus/Qdrant 向量数据库
  • 混合检索:向量检索(语义匹配)+ 关键词检索(精确匹配)+ 重排序(Re-ranking),确保检索质量
  • 知识更新:知识库支持增量更新,无需重新索引全量数据。配置自动同步策略(按小时/天/周从源系统拉取更新)

🤖 Agent 能力

  • 任务执行:通过 L6 Agent 编排 API 调用 Skill 和 Tool,实现数据查询、工单处理、信息检索等操作
  • 多工具协同:在一次对话中组合使用多个工具——先查询数据、再分析、最后生成报告
  • 权限控制:数字人的工具调用权限受 RBAC 控制,不同用户看到的数字人能力可能不同
  • 操作确认:敏感操作(如工单关闭、订单修改)需要用户二次确认后才能执行

💬 多轮对话管理

  • 对话记忆:短期记忆(当前会话,滑动窗口 20 轮)+ 长期记忆(跨会话关键信息,向量存储)
  • 上下文管理:对话状态跟踪(当前话题、已获取的信息、待完成的任务)、指代消解("他"、"那个"、"上个月")
  • 对话策略:主动引导(当用户表达不清时提问澄清)、话题切换平滑过渡、对话结束检测与告别
  • 多语言混合:支持单会话内中英文混合对话,自动检测用户输入语言并匹配回复语言

B1.4 第四阶段:驱动与渲染

驱动与渲染层负责将形象、语音和大脑融合为鲜活的数字人,实现自然流畅的实时交互体验:

🧩 唇形同步

  • 音频驱动面部动画:将 TTS 生成的音频流实时映射为面部 Blend Shape 权重
  • Wav2Lip:高精度唇形同步模型,支持任何语言的唇形预测
  • 延迟:唇形同步延迟 < 200ms,与语音输出同步
  • 口型准确率:音素级别对齐准确率 > 95%

🧍‍♀️ 表情与动作

  • 情感驱动表情:根据语音情感分析结果自动触发对应面部表情
  • 自然微动作:眨眼(每 3-5 秒一次)、头部微动、手势(根据说话节奏生成)
  • 动作库:内置 100+ 预设动作(点头、挥手、指屏幕、思考状),按语义自动匹配
  • 动作生成:基于语音节奏和内容语义的动作生成模型(Co-Speech Gesture)

🎬 实时渲染

  • WebGL 渲染:基于 Three.js/PlayCanvas 的浏览器端实时渲染,无需安装客户端
  • 移动端优化:自动降级渲染质量(LOD),在手机端保持 30fps 流畅体验
  • UE 渲染:对高端场景(演唱会、发布会)使用 Unreal Engine 5 高保真渲染
  • 渲染质量:支持 PBR 材质、实时全局光照、次表面散射(皮肤质感)

📡 推流与分发

  • WebRTC:实时互动场景(1v1 对话、在线会议),端到端延迟 < 500ms
  • RTMP/SRT:直播推流,支持推送到抖音/B站/视频号/YouTube/Twitch
  • HLS/DASH:点播内容分发,录制数字人视频后通过 CDN 分发
  • 多平台同步:同一数字人同时推流到多个平台,支持各平台独立互动

B1.5 数字人生命周期

每个数字人从创建到退役经历完整的生命周期管理,平台提供每一阶段的管理工具和监控能力:

🎨
创建
🎵
训练
测试
🚀
发布
📊
监控
🔄
更新
🚫
下线
创建 选择形象建模方式(2D 照片 / 3D 扫描 / AI 生成 / 卡通风格),上传基础素材,系统自动完成形象生成。同时配置初始语音、大脑设定和场景模板。创建完成后生成数字人 ID。
训练 对语音模型进行声音克隆训练(通常需要 1-10 分钟参考音频),对大脑模型进行角色微调(System Prompt + 知识库注入 + 示例对话对)。训练完成后自动评估效果指标(语音相似度、回答准确率、角色一致率)。
测试 在沙箱环境中与数字人进行交互测试:语音交互测试、对话流畅度测试、知识库问答测试、表情动作自然度测试、多轮对话持久性测试。测试通过后发布到预发布环境。
发布 数字人正式上线。支持灰度发布:先发布到 10% 流量观察 24 小时,确认无问题后全量上线。发布时配置目标频道和交互方式(直播/实时对话/录制视频)。
监控 实时监控数字人运行指标:交互次数、平均对话轮数、用户满意度评分、响应延迟、唇形同步准确率、渲染帧率。异常指标自动告警。定期生成数字人运行报告。
更新 支持对数字人的任何组件进行独立更新:更新形象(换装、换发型)、更新语音(重新克隆、添加新语言)、更新大脑(优化 Prompt、更新知识库)、更新动作库。更新不影响在线服务。
下线 数字人不再使用后执行下线流程。下线前通知所有使用方,提供数据导出窗口(对话记录、用户反馈、行为日志)。下线后数字人数据保留 90 天,可随时恢复。

B1.6 应用场景

数字人管理平台覆盖四大核心应用场景,每个场景都有针对性的能力配置和性能要求:

📺 虚拟主播 — 7x24 小时直播带货

支持全天候不间断直播,自动介绍产品、回答观众问题、引导下单。内置电商话术库和产品知识库,支持实时弹幕互动和抽奖活动。与传统真人主播相比,虚拟主播可节省 80% 的人力成本,直播时长从每天 4-6 小时扩展到 24 小时。支持抖音、视频号、淘宝直播等多平台同时开播。

💬 智能客服 — Web / App / 大屏多端交互

以数字人形象替代传统文字客服或语音 IVR,提供"看得见"的客服体验。支持网站、手机 App、线下自助终端、智能大屏等多端接入。数字人客服可完成:产品咨询、订单查询、售后处理、投诉升级等常见客服任务。情感识别能力帮助数字人感知用户情绪并调整回复策略。客服满意度提升 30%+。

🎓 虚拟讲师 — 企业培训与教育

基于企业知识库的虚拟培训讲师,提供 7x24 小时在线培训服务。支持:新员工入职培训(自动介绍公司制度和文化)、产品知识考核(问答式互动教学)、合规培训(标准化内容输出)、技能实操模拟(模拟场景对话)。培训效果自动评估和统计,支持个性化学习路径推荐。

🤖 数字分身 — 个人 AI 助手

为每位员工创建个人数字分身——拥有员工本人的形象、声音和知识背景的数字人助手。功能包括:日程管理(语音查询和安排会议)、信息检索(基于企业知识库的问答)、工作流助手(发起审批、查询流程进度)、个人知识管理(记录会议要点、整理待办事项)。数字分身的权限与员工本人一致。


C

动漫剧生成平台

动漫剧生成平台(Comic-Drama Generation Platform)是 L7 层的另一创新型产品,实现从剧本到动画视频的端到端自动化生成。平台定位为"AI 动漫工厂"——用户只需提供主题或简要剧本梗概,即可自动生成完整的漫画或动画短视频,大幅降低动漫创作门槛和生产成本。

C1.1 第一阶段:剧本生成

剧本是动漫创作的基础。平台通过多 Agent 协作将粗略创意转化为结构化的完整剧本,包含场景划分、角色对话和镜头调度:

主题与梗概 用户输入:提供故事主题(如"一个 AI 机器人探索未来城市的冒险")、目标受众(儿童/青少年/成人)、风格偏好(热血/悬疑/温馨/搞笑)、预计时长或页数。系统自动分析主题并生成初始故事梗概供用户确认。
LLM 剧本生成 扩展与结构化:LLM(GPT-4o / Claude 3.5 Sonnet 等高级模型)根据确认的梗概自动生成完整剧本。剧本包含:幕(Act)——故事的三幕式/A/B 式结构划分;场景(Scene)——每个场景的地点、时间、人物和气氛描述;对白(Dialogue)——角色之间的逐句对话,附带情感指示;动作(Action)——角色动作、表情变化和反应描述。
分镜板生成 可视化分镜:剧本自动转为 Storyboard 格式——每个场景分解为若干镜头,每个镜头包含:镜头编号、景别(远景/中景/特写/过肩)、摄像机运动(固定/推拉/摇移/跟拍)、画面描述文本、参考构图。分镜板以 JSON 或 Markdown 格式存储,可人工编辑调整。
角色设定 角色卡片:自动提取剧本中的角色并生成详细设定:姓名、性别、年龄、外貌(身高/体型/发型/服装风格/标志性特征)、性格(MBTI/核心特质/弱点/成长弧线)、能力(武技/魔法/特殊技能)、口头禅和标志性台词。每个角色生成 2-3 个关键帧的参考形象。

C1.2 第二阶段:角色设计

角色设计阶段将剧本中的文字角色转化为视觉形象,确保角色在不同场景和角度中的视觉一致性:

🖼️ 文生图角色创建

使用 FLUX.1 / Stable Diffusion 3.5 等文生图模型,根据角色设定文本生成初始角色外观。支持迭代优化——用户可通过文本描述调整外貌特征("把头发改成银色长发"、"换成现代休闲服装")。每次生成产出多张变体供选择。

🔄 角色一致性保持

采用 IP-Adapter(图像 Prompt 适配器)将选定角色形象编码为可复用的 Image Prompt,确保同一角色在不同场景、角度和表情下保持外观一致。InstantID 技术提供身份保持(Identity-Preserving)生成,只需一张参考图即可在不同风格中保持角色身份。效果:跨场景角色相似度 > 95%。

🧐 多角度多表情资产

自动为每个角色生成多角度(正面、侧面 45°、侧面 90°、背面)和多表情(高兴、悲伤、愤怒、惊讶、害怕、厌恶、中立)的标准化形象资产。所有角度的角色使用统一的角色 Image Prompt,确保一致性。资产以分层 PSD/SVG 格式存储,支持后期编辑。

🎨 风格适配

支持多种美术风格:日式动漫、美式卡通、国风水墨、厚涂写实、Q 版可爱、像素风等。角色设计阶段即确定风格基调,后续所有场景和动画保持风格统一。风格通过 LoRA 模型或 Style Adapter 实现。

C1.3 第三阶段:场景生成

场景生成阶段根据剧本中的场景描述自动创建视觉背景和环境:

🏔️ 文生图背景生成

  • 场景类型:室内(办公室/客厅/教室/实验室)、室外(城市/森林/沙漠/海洋/太空)、抽象(梦境/记忆/数据空间)
  • 生成方式:场景描述文本 + 风格控制(与角色风格一致)+ 构图参考
  • 分辨率:背景图 2048×1152(16:9)、适配后续角色叠加和摄像机运动
  • 迭代优化:用户可通过文本调整场景细节("添加书架"、"变成黄昏"、"增加雾气")

🌄 场景一致性

  • 跨镜头一致性:同一场景在不同镜头中保持视觉统一(光照方向、色调、布局)
  • 场景 ID:每个场景生成唯一的 Scene ID,后续镜头生成时引用该 ID 保持一致性
  • 场景状态管理:支持场景状态变化(白天→黄昏→夜晚、完整→破损、晴天→雨天),不同状态的场景独立生成但风格一致
  • 背景深度:生成场景时附带深度图(Depth Map),用于后续角色遮挡关系和镜头移动效果

📷 多视角场景

  • 全景:展示场景全貌,用于建立空间关系(Establishing Shot)
  • 中景:展示局部区域,主角活动的主视角
  • 特写背景:聚焦特定物体或细节(如桌上的神秘信件)
  • 特殊视角:俯视/仰视/鱼眼/过肩视角,增强叙事张力

✨ 场景特效

  • 天气系统:雨、雪、雾、风、沙尘暴等自然特效
  • 光照系统:日光/月光/灯光/火光/霓虹光,动态光影变化
  • 粒子特效:花瓣飘落、萤火虫、魔法光芒、爆炸碎片
  • 后期处理:色调映射、景深模糊、运动模糊、噪点颗粒

C1.4 第四阶段:漫画分镜与布局

对于漫画(静态)输出格式,平台自动将角色、场景和对话组合为漫画分镜页面;对于动画输出,此阶段生成关键帧序列:

📐 自动网格规划

根据剧本内容的叙事节奏自动规划页面/时间线布局:漫画——将页面划分为网格(1 格到 12 格不等),重要场景分配更大区域,对话密集场景分配更多格子。动画——规划镜头时长和转场节奏(关键情节每镜 3-6 秒,日常对话可延长至 8-10 秒)。

➕ 角色+场景+对话合成

将角色(根据分镜指定角度和表情)、场景(根据镜头编号选择对应视角)和对话气泡/字幕自动合成。合成规则:角色位置根据构图原则(三分法、对称、引导线)自动放置;对话气泡根据阅读顺序(从左到右、从上到下)自动排列。支持中英文双语字幕自动生成。

✨ 效果线与速度线

自动为动作场景添加效果线:速度线——快速移动、冲刺、飞行场景;冲击线——碰撞、爆炸、打击场景;聚焦线——角色发现关键线索、震惊表情;背景效果——拟声词效果("轰"、"砰"、"嗖")、放射状背景。效果线样式与作品整体风格一致。

🎭 风格化后处理

整页/整段风格一致性处理:色调统一——所有格子/镜头使用一致的色调和饱和度;描边处理——统一的线条粗细和着色风格;对比度优化——根据内容调整明暗对比(戏剧场景增强对比,温馨场景降低对比);去瑕疵——自动检测并修复 AI 生成中的常见瑕疵(变形手指、多余物体、不合理结构)。

C1.5 第五阶段:动态动画(动漫剧动画化)

对于动画输出格式,平台将静态漫画帧转换为动态动画视频,添加运动、语音和音效:

🎥 从静态到动态

将静态漫画帧/关键帧序列转化为流畅的动画视频,涉及以下核心技术:
1
微动作
2
摄像机运动
3
旁白+音效
4
BGM 配乐
5
视频合成输出

🧘‍♂️ 微动作

  • 角色微动:眨眼(自动检测角色眼睛位置)、呼吸(胸部起伏、肩部微动)、口型(根据语音同步动嘴)
  • 肢体小动作:头发飘动(根据风力设置)、衣服纹理微动、手持物体的小幅晃动
  • AnimateDiff:使用 AnimateDiff 模型为静态图添加可控动画效果,保持角色一致性
  • SVD(Stable Video Diffusion):将关键帧扩展为视频片段,生成平滑的帧间过渡

📷 摄像机运动

  • 推(Zoom In):缓慢推近到角色面部,增强情感冲击力
  • 拉(Zoom Out):从特写拉出到全景,展示环境全貌
  • 摇(Pan):左右/上下摇摄,跟随角色移动或展示场景全貌
  • 移(Track/Dolly):平行移动摄像机,营造身临其境的移动感
  • 抖(Shake):爆炸/撞击/地震时的摄像机震动效果

🎙️ 语音与音效

  • 角色配音:根据角色设定自动分配语音模型,生成角色专属配音
  • 旁白:客观中立的旁白语音,用于叙事衔接和背景介绍
  • 音效(SFX):自动匹配场景动作音效(脚步声、关门声、风雨声、战斗音效)
  • 拟声词动画:漫画风格拟声词的动态效果(放大/缩小/闪烁/抖动)

🎵 BGM 与输出

  • 自动配乐:根据故事风格和场景情感自动生成/选择背景音乐
  • 情感匹配:紧张场景→快节奏鼓点、温馨场景→舒缓钢琴、战斗场景→激昂管弦
  • 输出格式:MP4(通用)、MOV(高质量)、GIF(动态表情包)、WebM(网页优化)
  • 尺寸规格:横版 16:9(1920×1080)、竖版 9:16(1080×1920,抖音/B站短视频)

C1.6 技术栈总览

动漫剧生成平台整合了以下核心技术和开源模型,形成一个端到端的内容生成管线:

阶段核心技术关键技术点开源模型/工具
剧本生成LLM 文本生成结构化剧本生成、分镜生成、角色设定、叙事节奏控制GPT-4o / Claude 3.5 Sonnet / Qwen3-235B-A22B
角色设计文生图 + 身份保持文生图角色创建、多角度一致性生成、表情素材FLUX.1 / SD 3.5 / IP-Adapter / FaceID / InstantID
场景生成文生图 + 风格控制背景生成、跨镜头一致、多视角、天气特效FLUX.1 / SD 3.5 / ControlNet (Canny/Depth/OpenPose)
漫画分镜自定义 Layout Engine网格规划、角色场景合成、效果线、风格后处理自研 Layout Engine / OpenCV / Pillow
动态动画视频生成 + 音频驱动微动作、摄像机运动、唇形同步、配音、音效、BGMAnimateDiff / SVD / CogVideo / Wav2Lip / CosyVoice / ChatTTS
工作流编排可视化工坊全流程串联、人工干预节点、版本管理、批量生产Dify / ComfyUI / 自研 Orchestrator
平台定位:动漫剧生成平台不致力于替代专业动画师,而是降低动漫内容的创作门槛——将一部 5 分钟动漫短片的制作周期从传统的 2-4 周(专业团队)缩短到 2-4 小时(半自动)或 10-30 分钟(全自动高质量模式)。平台特别适合:短视频动漫内容(抖音/B站/YouTube Shorts)、教育动画(科普/历史/文学解说)、营销动画(产品介绍/品牌故事)、个人创作(同人/原创故事)。

D

更多业务应用

除上述三大核心平台外,L7 层还包含以下 8 个业务应用产品线,每个应用都是独立可交付的产品,共享底层 L1-L6 平台能力:

🤖

智能客服系统

多渠道(Web/App/电话/微信)统一智能客服平台。支持语义理解自动应答、情感识别、工单自动创建分发、人机协作(AI 建议 + 人工确认)。提供全渠道客服工作台、知识库管理、运营数据分析面板。

L6 编排RAG多模态
💻

AI 编程助手

面向开发者的智能编程辅助平台。功能:代码自动补全、智能代码审查、Bug 自动检测与修复建议、重构建议、文档自动生成、代码注释翻译。支持 VSCode/JetBrains/WebStorm 等主流 IDE 插件集成。内置企业代码规范引擎,自动检查合规性。

L6 编排代码 RAG多 Agent
📄

智能文档处理

企业文档智能化平台。功能:文档自动分类与标签、OCR 识别(图片/PDF 转为可编辑文本)、文档摘要生成、关键信息提取(合同条款/发票信息/报告核心观点)、文档翻译(支持 30+ 语言)、文档格式转换、文档 QA(基于文档内容的问答)。

L6 编排OCRRAG
🎓

AI 培训平台

企业智能培训与学习平台。功能:个性化学习路径推荐(基于岗位/技能/学习历史)、AI 讲师(数字人授课)、智能考试(自动出题、批改、分析薄弱点)、模拟演练(销售话术/客服应对/管理情景模拟)、培训效果量化评估。支持 Web 和移动端学习。

L6 编排数字人RAG
🎨

营销内容生成

全渠道营销内容智能生产平台。功能:营销文案生成(公众号文章/微博/小红书/广告语/邮件营销)、图片与海报生成(文生图 + 模板合成)、视频脚本与短视频生成、A/B 测试(多版本内容效果对比)、品牌语调管理(品牌一致性的内容生成)。

L6 编排多模态文生图
⚖️

合规审查平台

企业内容合规智能审查平台。功能:合同条款审查(自动标注风险条款)、监管合规检查(对照最新法规检查)、广告法合规(检查违禁词/虚假宣传)、隐私合规审查(个人信息收集与处理合规性)、知识产权审查(版权/商标/专利引用检查)。

L6 编排安全合规
🧠

情感分析平台

多源文本情感智能分析平台。功能:情感分类(正面/负面/中性 + 细粒度情感:高兴/愤怒/悲伤/恐惧/惊讶)、情感趋势追踪(按时间维度分析情感变化)、热点事件情感分析、竞品口碑对比、客户心声挖掘(负面评论根因分析)。支持微博/小红书/知乎/电商评论等多源接入。

L6 编排NLP数据分析
📚

知识管理平台

企业知识全生命周期管理平台。功能:知识自动萃取(从文档/对话/会议记录中自动提取知识)、知识图谱构建(实体关系抽取与可视化)、智能搜索(语义搜索 + 关键词搜索 + 知识图谱搜索)、知识推荐(基于用户角色的知识推送)、知识问答(基于企业知识库的对话问答)。

L6 编排知识图谱RAG

E

业务应用开发指南

以下指南说明一个新的业务应用如何接入平台,利用 L1-L6 的基础能力快速构建 AI 原生产品:

🚀 新业务应用接入流程

  1. 产品立项:定义产品目标、目标用户、核心功能和业务指标。评估 AI 能力需求和可行性。确定是否可以通过 L6 编排 API 组合现有能力实现,还是需要定制化开发。
  2. 架构设计:设计应用的前后端架构。确定哪些能力通过 L6 编排 API 获取(标准流程),哪些能力需要自定义 Agent/ Skill(扩展流程)。遵循"只调 L6"原则——不绕过 L6 直接调用 L5 或 L4。
  3. 能力构建:通过 L6 Agent 管理中心注册所需的 Agent 或自定义 Agent。通过 L6 Skill 市场搜索和加载现有 Skill,或开发并发布新 Skill 到市场。通过 L6 工具注册中心注册需要的新工具(如第三方系统 API 封装)。
  4. 编排定义:使用 L6 编排引擎定义业务工作流——将多个 Agent 和 Skill 组合为完成业务任务的编排流程。选择最合适的编排模式(顺序/并行/对话/层级/辩论/投票)或组合模式。
  5. 前后端开发:开发业务应用的前端界面(Web/App)和后端 API。后端 API 调用 L6 编排 API,绝不直接调用 L5 或 L4 API。前端根据产品设计要求实现用户体验。
  6. 联调测试:在集成环境中进行端到端联调:前端 → 业务应用后端 → L6 编排 API → L5 Agent → 模型推理。验证各环节的正确性和性能指标。在 staging 环境中进行全链路压测。
  7. 审核上线:提交上线审批,包含:应用架构文档、L6 编排工作流定义、安全评估报告、性能测试报告、用户隐私合规声明。审批通过后通过 CI/CD 流水线部署到生产环境。
  8. 运营监控:上线后通过 L7 统一监控面板监控应用运行状态:用户使用量、响应延迟、错误率、业务转化指标。持续收集用户反馈,规划迭代优化。

🔗 通过 L6 编排 API 调用平台能力

业务应用的所有 AI 能力请求都通过 L6 编排 API 发出。典型调用流程:业务后端调用 L6 编排 API(传递业务参数)→ L6 编排引擎解析请求、查找匹配的编排工作流 → 编排引擎调度多个 Agent 协作执行 → 通过 L5 Agent Runtime 完成模型推理和工具调用 → L6 汇总结果返回给业务应用。
API 规范示例:POST /api/v1/orchestration/execute — 请求体包含 workflow_id、input_params、context;响应包含 execution_id、status、output、metadata。

🎁 利用 L5 能力(通过 L6 间接使用)

L5 层的各项能力(单 Agent、Dify Workflow、RAG API、MCP Tool)对 L7 业务应用是不可见的——业务应用只能通过 L6 编排 API 间接使用它们。这种间接使用模式的优势:统一的治理入口——所有推理请求都有审计和监控记录;能力可组合——编排工作流可灵活组合多个 L5 能力;故障隔离——L6 层的熔断和降级机制保护业务应用不受单点故障影响。

🤝 开发者入驻流程

新团队/开发者加入平台开发业务应用的流程:1 注册平台开发者账号,完成团队和应用信息登记。2 参加平台开发者培训(视频课程 + 实操练习),了解 L7 开发规范和安全要求。3 申请 dev 环境资源(命名空间、数据库、缓存、模型配额)。4 使用平台 SDK(Python/TypeScript/Java)开始开发。5 开发完成后提交代码审查和上线审批。6 持续监控和迭代。
完整开发文档和 SDK 下载可在平台开发者门户获取(internal.dev.ai-platform.com)。

🛡️ 安全与合规要求

所有 L7 业务应用必须遵守以下安全合规红线:不绕过 L6——禁止直接调用 L5 或 L4 API 进行模型推理。不暴露平台内部——UI 和 API 中不显示模型名称、Prompt 内容、Token 用量等技术细节。数据隔离——业务数据存储与平台数据存储严格分离。用户隐私——收集终端用户数据必须获得明确授权并符合数据保护法规。内容安全——AI 生成内容必须经过安全过滤和合规审查。


F. 技术选型

以下为 L7 各业务应用的核心技术选型,涵盖了 AI 模型、基础设施、开发框架和运维工具:

F1. 三大核心平台技术选型

组件智能数据问答平台数字人管理平台动漫剧生成平台
核心大模型GPT-4o / DeepSeek-V3 / Qwen3-235B-A22B (NL2SQL)GPT-4o / Claude 3.5 Sonnet (对话/GPT-SoVITS (语音克隆)GPT-4o / Claude 3.5 Sonnet (剧本) / FLUX.1 / SD 3.5 (图像)
向量/语义引擎Metadata RAG (Milvus + BGE Embedding)知识库 RAG (Milvus/Qdrant + bge-m3)角色一致性矢量库 (Faiss + IP-Adapter)
NL2SQL / 语音 / 视频自研 NL2SQL 引擎 + SQLGlot 校验CosyVoice / ChatTTS / Wav2Lip / Three.jsAnimateDiff / SVD / CogVideo / Wav2Lip
后端框架FastAPI + SQLAlchemy + PandasFastAPI + WebRTC + FFmpegFastAPI + Pillow + OpenCV + FFmpeg
前端框架React + ECharts + Ant DesignReact + Three.js (WebGL) + WebRTCReact + Canvas/SVG + HLS.js
数据库PostgreSQL + Redis + ClickHousePostgreSQL + Redis + MinIO (素材存储)PostgreSQL + Redis + MinIO + OSS
消息队列Kafka (异步查询结果通知)Kafka + RabbitMQ (实时消息路由)Kafka (批量任务分发)
编排调度L6 编排 API + TemporalL6 编排 API + TemporalL6 编排 API + ComfyUI (图像管线)
流媒体WebRTC / RTMP / SRT / HLSHLS / MP4 / WebM
GPU 需求推理: A10/4090, 向量: 无 GPU推理: A10, 渲染: RTX 4090/A6000推理: A10, 生成: A100/H800
部署方式K8s Deploy + HPAK8s Deploy + GPU 节点K8s Deploy + GPU 节点 + 任务队列

F2. 八款业务应用技术选型

应用核心模型关键框架 / 工具存储前端
智能客服GPT-4o / Qwen3-235B-A22BLangChain + RAG + 情感识别模型PostgreSQL + Milvus + RedisReact + WebSocket
AI 编程助手DeepSeek-Coder / CodeLlamaLSP 协议 + Tree-sitter + 静态分析PostgreSQL + ES (代码索引)IDE 插件 + React
智能文档处理GPT-4o / Qwen3-VL-32BPaddleOCR / Tesseract + UnstructuredPostgreSQL + MinIO + MilvusReact + PDF.js
AI 培训平台GPT-4o / Claude 3.5数字人 SDK + RAG + 自适应学习PostgreSQL + Redis + MinIOReact + WebRTC
营销内容生成GPT-4o / FLUX.1ComfyUI + LoRA + 模板引擎PostgreSQL + OSS + MilvusReact + Canvas
合规审查GPT-4o / 法律专项模型实体识别 + 规则引擎 + 知识图谱PostgreSQL + Neo4j + ESReact + 文档编辑器
情感分析Qwen3 / BERT 微调模型Transformers + 自研情感词典ClickHouse + Redis + ESReact + ECharts
知识管理GPT-4o / bge-m3 EmbeddingNeo4j + Milvus + 实体链接Neo4j + Milvus + PostgreSQLReact + D3.js (图谱)
架构设计总结:L7 业务应用层是 AI 基础能力平台的"门面"——最终用户通过 L7 感知平台的价值。L7 的设计哲学是"业务产品化":每个应用都是独立、可交付、拥有完整产品体验的业务系统。它们共享底层 L1-L6 的平台能力,但保持独立的产品演进节奏。L7 严格遵守"只调 L6"的原则,确保平台治理和安全策略不因业务应用的多样性而削弱。
重要提醒:L7 业务应用层严禁绕过 L6 直接调用 L5(Agent Runtime、RAG API、MCP Tool)或 L4(模型网关)及任何更低层级。违反此规范将破坏平台的统一治理体系——导致安全审计缺失、可观测性断裂、SLA 无法保障、成本不可控。L7 的每个业务应用在上线前必须通过架构审查,确认其只通过 L6 编排 API 与平台通信。