数字人形象

开源 AI 数字人工具包，支持离线视频生成与数字人形象克隆，可本地部署做口播

类型库 13,628 星标更新 2026-04-21 许可 Other 原仓库主页

🔗 官方网站: www.duix.com

七年前，一群年轻的开拓者选择了一条非常规的技术路径，开发了一种使用真人视频数据训练数字人模型的方法。与传统的、成本高昂的 3D 数字人方案不同，我们利用 AI 生成技术打造超逼真的数字人，将制作成本从数十万美元降至仅 1000 美元。这一创新已赋能超过一万家企业，并为各行各业的专业人士——教育工作者、内容创作者、法律专家、医疗从业者和企业家——生成了超过 50 万个个性化数字人，极大地提升了他们的视频制作效率。然而，我们的愿景远不止于商业应用。我们相信这项变革性技术应该让每个人都能使用。为了让数字人制作普及化，我们开源了克隆技术和视频制作框架。我们的承诺始终如一：打破技术壁垒，让尖端工具惠及所有人。现在，任何人都可以用自己的计算机免费创建专属的 AI 数字人，并以零成本制作视频——这就是 Duix.Avatar 的核心所在。

2. 简介

Duix.Avatar 是一款专为 Windows 系统设计的完全离线视频合成工具，能够精确克隆您的相貌和声音，将您的形象数字化。您可以通过文本和语音驱动虚拟数字人进行视频创作。无需联网，在保护隐私的同时享受便捷高效的数字化体验。

核心功能
- 精确的相貌和声音克隆：利用先进的 AI 算法高精度捕捉人脸特征，包括五官、轮廓等，构建逼真的虚拟模型。同时能够精确克隆声音，捕捉并重现人声的细微特征，支持多种声音参数设置，实现高度相似度的克隆效果。
- 文本与语音驱动的虚拟数字人：通过自然语言处理技术理解文本内容，将文本转化为自然流畅的语音来驱动虚拟数字人。也可以直接使用语音输入，让虚拟数字人根据语音的节奏和语调做出相应的动作和表情，使虚拟形象的表现更加自然生动。
- 高效视频合成：实现数字人视频画面与声音的高度同步，唇形动作自然流畅，智能优化音视频同步效果。
- 多语言支持：脚本支持八种语言——英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
主要优势
- 完全离线运行：无需联网，有效保护用户隐私，让用户在安全独立的环境中进行创作，避免网络传输中可能的数据泄露风险。
- 用户友好：界面简洁直观，即使没有技术背景的新手也能轻松上手，快速掌握软件使用方法，开启数字人创作之旅。
- 多模型支持：支持导入多个模型，并通过一键启动包进行管理，方便用户根据不同创作需求和场景选择适合的模型。
技术支持
- 声音克隆技术：运用人工智能等先进技术，根据给定的语音样本生成相似或相同的声音，涵盖上下文、语调、语速等语音各方面的特征。
- 自动语音识别：将人类语音词汇内容转换为计算机可读输入（文本格式）的技术，使计算机能够“理解”人类语言。
- 计算机视觉技术：在视频合成中用于视觉处理，包括人脸识别和唇部运动分析，确保虚拟数字人的唇部动作与语音和文本内容相匹配。

3. 本地运行

Duix.Avatar 支持基于 Docker 的快速部署。部署前请确保您的软硬件环境满足指定要求。

Duix.Avatar 支持两种部署模式：Windows / Ubuntu 22.04 安装

依赖项

Nodejs 18
Docker 镜像
- docker pull guiji2025/fun-asr
- docker pull guiji2025/fish-speech-ziming
- docker pull guiji2025/duix.avatar

模式 1：Windows 安装

系统要求：

目前支持 Windows 10 19042.1526 及以上版本

硬件要求：

必须有 D 盘：主要用于存放数字人和项目数据
- 剩余空间要求：超过 30GB
C 盘：用于存放服务镜像文件
- 剩余空间要求：超过 100GB
- 如果 C 盘空间不足 100GB，安装 Docker 后可在下方位置选择其他剩余空间超过 100GB 的磁盘盘符
推荐配置：
- CPU: 13th Gen Intel Core i5-13400F
- 内存: 32GB
- 显卡: RTX 4070
确保您拥有 NVIDIA 显卡并已正确安装驱动

NVIDIA 驱动下载链接: https://www.nvidia.cn/drivers/lookup/

安装 Windows Docker

使用命令 wsl --list --verbose 检查 WSL 是否已安装。如果显示如下内容，则表明已安装，无需再次安装。
使用 wsl --update 更新 WSL。
下载适用于 Windows 的 Docker，根据您的 CPU 架构选择合适的安装包。
当看到此界面时，表示安装成功。
运行 Docker
接受协议，首次运行时跳过登录

安装服务器

使用 Docker 和 docker-compose 安装，步骤如下：

docker-compose.yml 文件位于 /deploy 目录下。
在 /deploy 目录下执行 docker-compose up -d。如果你想使用精简版，请执行 docker-compose -f docker-compose-lite.yml up -d。
耐心等待（大约半小时，速度取决于网络），下载将消耗约 70GB 流量，请确保使用 WiFi。
当你在 Docker 中看到三个服务时，表示成功（精简版只有一个服务 Duix.Avatar-gen-video）。

面向 NVIDIA 50 系列显卡的服务器部署方案

针对 50 系列显卡（经测试，30/40 系列搭配 CUDA 12.8 也可用），使用 PyTorch 官方预览版。

客户端

直接下载官方构建的安装包。
双击 Duix.Avatar-x.x.x-setup.exe 进行安装。

模式2：Ubuntu 22.04 安装

系统要求：

我们已在 Ubuntu 22.04 上完成全面测试。不过，理论上它也支持桌面 Linux 发行版。

硬件要求：

推荐配置
CPU: 第13代 Intel Core i5 - 13400F
内存：32G 或以上（必需）
显卡：RTX - 4070（确保你拥有 NVIDIA 显卡且显卡驱动已正确安装）
硬盘：可用空间大于 100G

安装 Docker：

首先，使用 docker --version 检查 Docker 是否已安装。如果已安装，请跳过以下步骤。

sudo apt update
sudo apt install docker.io
sudo apt install docker-compose

安装显卡驱动：

参考官方文档（https://www.nvidia.cn/drivers/lookup/）安装显卡驱动。

安装完成后，执行 nvidia-smi 命令。如果显示显卡信息，则安装成功。

安装 NVIDIA Container Toolkit

NVIDIA Container Toolkit 是 Docker 使用 NVIDIA GPU 的必要工具。安装步骤如下：

添加 NVIDIA 软件包仓库：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
  && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \
  && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

更新软件包列表并安装工具包：

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

配置 Docker 以使用 NVIDIA 运行时：

sudo nvidia-ctk runtime configure --runtime=docker

重启 Docker 服务：

sudo systemctl restart docker

安装服务器

cd /deploy
docker-compose -f docker-compose-linux.yml up -d

安装客户端

直接下载 Linux 版本的官方构建安装包。
双击 Duix.Avatar-x.x.x.AppImage 启动。无需安装。

提醒：在 Ubuntu 系统中，如果你以 root 用户进入桌面，直接双击 Duix.Avatar-x.x.x.AppImage 可能无效。你需要在命令行终端中执行 ./Duix.Avatar-x.x.x.AppImage --no-sandbox。添加 --no-sandbox 参数即可解决。

4. 开放 API

我们开放了模型训练和视频合成的 API。Docker 启动后，本地会暴露多个端口，可通过 http://127.0.0.1 访问。

具体代码参考：

src/main/service/model.js
src/main/service/video.js
src/main/service/voice.js

模型训练

将视频分离为无声视频 + 音频
将音频放置在

D:\duix_avatar_data\voice\data 与 guiji2025/fish-speech-ziming 服务约定一致，可在 docker-compose 中修改
调用

参数示例：响应示例：记录响应结果，后续音频合成会用到

音频合成

接口：http://127.0.0.1:18180/v1/invoke

// 请求参数
{
  "speaker": "{uuid}", // 唯一 UUID
  "text": "xxxxxxxxxx", // 待合成的文本内容
  "format": "wav", // 固定参数
  "topP": 0.7, // 固定参数
  "max_new_tokens": 1024, // 固定参数
  "chunk_length": 100, // 固定参数
  "repetition_penalty": 1.2, // 固定参数
  "temperature": 0.7, // 固定参数
  "need_asr": false, // 固定参数
  "streaming": false, // 固定参数
  "is_fixed_seed": 0, // 固定参数
  "is_norm": 0, // 固定参数
  "reference_audio": "{voice.asr_format_audio_url}", // 上一步"模型训练"的返回值
  "reference_text": "{voice.reference_audio_text}" // 上一步"模型训练"的返回值
}

视频合成

合成接口：http://127.0.0.1:8383/easy/submit

// 请求参数
{
  "audio_url": "{audioPath}", // 音频路径
  "video_url": "{videoPath}", // 视频路径
  "code": "{uuid}", // 唯一键
  "chaofen": 0, // 固定值
  "watermark_switch": 0, // 固定值
  "pn": 1 // 固定值
}

进度查询：http://127.0.0.1:8383/easy/query?code=${taskCode}

GET 请求，参数 taskCode 为上述合成接口输入中的 code

给开发者伙伴的重要说明

现在我们宣布两个并行的服务方案：

项目	Duix.Avatar 开源本地部署	数字人/克隆语音 API 服务
使用方式	开源本地部署	快速克隆 API 服务
推荐用户	技术用户	商业用户
技术门槛	具备深度学习框架经验/追求深度定制/希望参与社区共建的开发者	快速业务集成/专注于上层应用开发/商业场景需要企业级 SLA 保障
硬件要求	需要购买 GPU 服务器	无需购买 GPU 服务器
定制化程度	可根据需求修改和扩展代码，完全控制软件功能和行为	无法直接修改源码，仅能通过 API 提供的接口扩展功能，灵活性低于开源项目
技术支持	社区支持	动态扩展支持 + 专业技术响应团队
维护成本	维护成本高	维护简单
唇形同步效果	可用效果	惊艳且更高清的效果
商业授权	支持全球免费商用（用户数超过 10 万或年营收超过 1000 万美元的企业需签署商业许可协议）	允许商业使用
迭代速度	更新缓慢，bug 修复依赖社区	最新模型/算法优先上线，问题解决速度快

我们始终秉持开源精神，推出 API 服务是为了给不同需求的开发者提供更完整的解决方案矩阵。无论你选择哪种方式，都可以通过 https://duix.com 获取技术支持文档。

我们期待与你携手，共同推动数字人技术的普惠发展！

你可以在官网与 Duix.Avatar 数字人进行实时对话：https://duix.com/

我们还提供 DUIX Platform 的 API：https://docs.duix.com/api-reference/api/Introduction

5. 更新动态

[Nvidia 50 系列显卡版本说明]

已在 5090 GPU 上完成测试与验证
安装说明请参考 NVIDIA 50 系列显卡服务器部署方案

[新增 Ubuntu 版本说明]

Ubuntu 版本正式发布

已完成 Ubuntu 22.04 Desktop 版本（内核 6.8.0-52-generic）的适配和验证工作。其他 Linux 版本的兼容性测试尚未进行。
客户端程序界面新增国际化（英文）
修复了部分已知问题
- #304
- #292
Ubuntu22.04 安装文档

6. 常见问题

提问前请自查

检查三个服务是否都处于 Running 状态
确认你的机器是否搭载 NVIDIA 显卡且驱动已正确安装

本项目所有算力均在本地运行。如果没有 NVIDIA 显卡或驱动未正确安装，三个服务将无法启动。

确保服务器和客户端都已更新到最新版本。本项目刚开源，社区非常活跃，更新频繁。你遇到的问题可能在新版本中已经修复。
- 服务器：进入 /deploy 目录，重新执行 docker-compose up -d
- 客户端：pull 代码并重新 build
GitHub Issues 在不断更新，每天都有 issue 被解决和关闭。请多关注，你遇到的问题可能已有解决方案。

问题模板

问题描述

详细描述复现步骤，最好附上截图。

提供错误日志
- 客户端日志获取方式：
- 服务端日志：
  
  找到关键位置，或者点击我们的三个 Docker 服务，进行“复制”操作，如下图所示。

7. 如何实时交互

Duix.Avatar 数字人实现了数字人克隆和非实时视频合成。

如果你希望数字人支持交互，可以访问 duix.com 体验免费测试。

8. 联系方式

如有任何问题，请提 Issue 或发送邮件至 james@duix.com

9. 许可证

https://github.com/duixcom/Duix.Avatar/blob/main/LICENSE

10. 致谢

ASR 基于 fun-asr
TTS 基于 fish-speech-ziming

11. Star 历史

GitHub Star 历史

在 GitHub 查看完整项目

数字人形象

目录

1. 什么是 Duix.Avatar

2. 简介

3. 本地运行

依赖项

模式 1：Windows 安装

安装 Windows Docker

安装服务器

面向 NVIDIA 50 系列显卡的服务器部署方案

客户端

模式2：Ubuntu 22.04 安装

安装服务器

安装客户端

4. 开放 API

模型训练

音频合成

视频合成

给开发者伙伴的重要说明

5. 更新动态

[Nvidia 50 系列显卡版本说明]

[新增 Ubuntu 版本说明]

6. 常见问题

提问前请自查

问题模板

7. 如何实时交互

8. 联系方式

9. 许可证

10. 致谢

11. Star 历史