AI 数字人
AI 驱动的数字人一站式工具
简介
AI 数字人工作站覆盖形象克隆、声音克隆、口播视频、照片说话、数字人直播全链路,帮你用文字或音频驱动一个 24 小时在线的"你"。无论是短视频 IP 矩阵、企业宣讲,还是知识问答客服,都能批量复刻和产出。拥有 21 个专业技能。
能做什么
- 形象克隆 — 照片/视频 → 数字人形象模型,精品/极速两档可选
- 声音克隆 — 3 秒音频样本即可训练个人音色(CosyVoice/GPT-SoVITS)
- 口播视频 — 一段文字或音频 → 数字人说话视频,核心高频场景
- 照片说话 — 单张照片 + 任意音频 → 动态说话视频
- 批量视频矩阵 — 多条文案一次生成多条数字人视频,做短视频 IP 矩阵
- 视频口型翻译 — 同一视频换语言后重新驱动口型对齐
- 数字人直播 — 话术驱动 + OBS/RTMP 推流,7×24 小时不掉线
- 实时对话 — ASR + LLM + TTS + 唇形驱动,构建可交互数字人
- 知识问答 — 接入知识库 → 数字人客服 / 数字人讲师
- 资产管理 — 形象、声音、视频统一管理与版本追踪
使用示例
| 你说 | AI 生成 |
|---|---|
| "帮我做一个口播视频" | 数字人说话视频(默认形象 + 默认音色) |
| "克隆我的形象做数字人" | 形象模型(含精度/极速两档) |
| "让这张照片说话" | 照片驱动视频,嘴部与音频对齐 |
| "数字人直播配置" | OBS + RTMP 推流方案 + 话术驱动脚本 |
| "批量生成数字人视频" | 一次多条视频(短视频 IP 矩阵场景) |
| "视频换英文配音并对口型" | 视频口型翻译产出 |
核心技术栈
- 视频生成 — Seedance 2.0(全身动态 + 原生唇形同步)
- 语音合成 — edge-tts(免费)+ 火山引擎 TTS(高质量)
- 声音克隆 — CosyVoice 2.0(3 秒克隆)/ GPT-SoVITS
- 语音识别 — faster-whisper / SenseVoice
- 直播推流 — OBS + RTMP / FFmpeg
输出规格
- 视频输出为 MP4(1080P/720P 可选)
- 形象模型、声音模型统一资产目录管理
- 直播方案输出为 HTML + 话术脚本
- 所有文件自动归档到
output/数字人/目录