AI 数字人

AI 驱动的数字人一站式工具

简介

AI 数字人工作站覆盖形象克隆、声音克隆、口播视频、照片说话、数字人直播全链路，帮你用文字或音频驱动一个 24 小时在线的"你"。无论是短视频 IP 矩阵、企业宣讲，还是知识问答客服，都能批量复刻和产出。拥有 21 个专业技能。

能做什么

形象克隆 — 照片/视频 → 数字人形象模型，精品/极速两档可选
声音克隆 — 3 秒音频样本即可训练个人音色（CosyVoice/GPT-SoVITS）
口播视频 — 一段文字或音频 → 数字人说话视频，核心高频场景
照片说话 — 单张照片 + 任意音频 → 动态说话视频
批量视频矩阵 — 多条文案一次生成多条数字人视频，做短视频 IP 矩阵
视频口型翻译 — 同一视频换语言后重新驱动口型对齐
数字人直播 — 话术驱动 + OBS/RTMP 推流，7×24 小时不掉线
实时对话 — ASR + LLM + TTS + 唇形驱动，构建可交互数字人
知识问答 — 接入知识库 → 数字人客服 / 数字人讲师
资产管理 — 形象、声音、视频统一管理与版本追踪

使用示例

你说	AI 生成
"帮我做一个口播视频"	数字人说话视频（默认形象 + 默认音色）
"克隆我的形象做数字人"	形象模型（含精度/极速两档）
"让这张照片说话"	照片驱动视频，嘴部与音频对齐
"数字人直播配置"	OBS + RTMP 推流方案 + 话术驱动脚本
"批量生成数字人视频"	一次多条视频（短视频 IP 矩阵场景）
"视频换英文配音并对口型"	视频口型翻译产出

核心技术栈

视频生成 — Seedance 2.0（全身动态 + 原生唇形同步）
语音合成 — edge-tts（免费）+ 火山引擎 TTS（高质量）
声音克隆 — CosyVoice 2.0（3 秒克隆）/ GPT-SoVITS
语音识别 — faster-whisper / SenseVoice
直播推流 — OBS + RTMP / FFmpeg

输出规格

视频输出为 MP4（1080P/720P 可选）
形象模型、声音模型统一资产目录管理
直播方案输出为 HTML + 话术脚本
所有文件自动归档到 output/数字人/ 目录