pappyAI的博客

抖音爆款口播智能体部署使用教程

2026年6月11日 / linwc / 0 Comments

口播智能体功能。

智能抓取与文案提取：分享抖音爆款视频链接，即可自动抓取视频并精准提取完整文案，无需手动下载。
AI文案改写+法务审核：接入先进AI大模型，智能改写文案风格，并自动完成法务合规性审核，规避侵权与违规风险。
声音克隆技术：基于深度神经网络的声音克隆，仅需少量样本即可生成高度逼真的个性化配音，让数字人“原声”再现。
数字人形象合成：上传个人照片或视频素材，系统自动匹配口型，生成自然流畅的口播数字人，支持多风格形象选择。
一键视频包装：内置海量模板，自动添加动态字幕、标题字幕条及背景音乐（BGM），支持自定义调整，提升视频质感。
封面智能生成/编辑：一键生成多款高点击率视频封面，并提供专业级编辑工具（裁剪、滤镜、文字、贴纸等），轻松打造吸睛封面。
全自动标题/简介/话题：AI自动生成爆款标题、SEO优化简介及热门话题标签，覆盖搜索推荐与社交裂变场景。
多平台一键发布：无缝对接抖音、视频号、快手、B站、小红书、百家号等主流平台，支持定时发布与批量分发，实现全网矩阵运营。

从文案到数字人，从包装到分发，全流程智能化，让你的口播内容生产效率提升10倍！

1. 下载客户端

下载地址：

通过网盘分享的文件：aigc-center-1.1.0-setup.exe
链接: https://pan.baidu.com/s/1bcSzxEhJOU0nMQLxVFKGFw?pwd=3pr8 提取码: 3pr8

2. 注册账号并登录

打开客户端，点击“账号”菜单，切换到邮箱登录标签
在邮箱登录页面中输入邮箱后，点击“验证码登录“，然后点击”发送验证码“按钮
登录邮箱获取验证码。最后点击”登录”按钮进行登录。

注意：登录成功后系统会给你邮箱发送登录密码，后期登录可以使用密码登录。登录密码请妥善保管，不要泄露。

3 大模型设置

点击“设置”-“模型设置”按钮，选择深度求索，然后去https://platform.deepseek.com/api_keys获取到一个你自己的deepseek API。

获取到API以后，在API KEY中粘贴你的APIkey，可以进行“测试连通性”进行测试。

连通性测试没有问题后，可以点击”保存设置“按钮保存

4. 账号管理

在账号管理增加需要发布的平台账号。

点击“设置”—“账号管理”按钮，进入页面

然后选择你要增加的平台，点击“登录新账号”按钮，在弹框中输入账号标识。点击”打开i终端登录“按钮。

在弹出的页面中扫码登录你的平台账号。

最后显示登录成功字样后，关闭弹框即可。

如果显示失效，可以点“刷新”按钮刷新状态。

5. 提示词管理。

提示词刚开始建议不改，在制作过程中觉得提示词达不到你的要求，可以修改，但注意，只能修改规则，输出格式不能修改。如下图，规则部分可以优化修改，其他ID，变量及输出格式不能修改。

6. 增加服务模型

注册云端账号

点击这里注册仙宫云账号并进行实名认证。
部署镜像

点击“部署GPU”，在搜索框输入“抖音爆款视频复制”，点击“检索” 按钮，在检索结果中选择“抖音爆款视频复制”镜像。具体参考下图。

选择一个GPU，随便选一个就行（最便宜的😃）。最后点击“确认部署”。

部署成功后如下图：

配置服务

复制链接

点击部署的实列右上角的heygem,funasr,indextts2,lstmsync四个按钮，会在浏览器里面打开四个链接，依次复制打开的链接。显示not found没关系。见下图。其中heygem和lstmsync选择其中一个就行。也可以两个都选。

粘贴链接

在客户端中点击“设置”--“服务模型”--“添加服务”，把复制的链接地址粘贴到弹出的输入框。点击“检查连接”按钮。

如果检测报错，就在等下，5分钟左右，等服务启动完成。如果5分钟还不行，联系客服，ivan117.  连接成功后，点击“添加”按钮添加即可。

服务器授权

联系客服获取：ivan117

授权完成后即可使用

7. 增加视频模型，bgm

点击“素材管理”—-“我的数字模特”菜单，在打开的页面中点击“创建视频”按钮。

在弹出的页面中上传你的视频模特，视频模特不要有多个人。如果要克隆视频中模特的声音的话，视频中不要有bgm，就只能有模特说话声音。

添加bgm：

点击“添加分类”菜单，在弹框中输入bgm分类

然后选择创建的fbm分类，上传bgm文件。

8. 增加克隆音色

点击“声音克隆”—“管理音色”按钮，在弹出的页面中上传需要克隆的音色文件，输入“音色名称”，音频长度10秒左右，不要有背景音。参考文本输入音频里说的文字，或者随便输入，目前没有用到这个文字。最后点击“添加音色”按钮就行。

至此，准备工作准备完毕。你可以使用视频工作室的全部功能了。

ltx2.3 图片数字人云端部署，本地使用教程。

2026年5月11日 / linwc / 0 Comments

今天分享一套ltx2.3可控分镜的“云端部署 + 本地客户端”的进阶方案，彻底解决硬件瓶颈！

注册云端账号

点击这里注册并进行实名认证。注册完账号并进行实名认证后，在评论区留下你的company id，以便于分享镜像给你。
服务器端的防火墙等设置设置，请查看这篇博客。

安装客户端

安装完服务端后下载客户端。
链接: https://pan.baidu.com/s/1QZ97-lE6H_xlh4uVFTi6gw?pwd=kbn3 提取码: kbn3

使用：

打开软件，点击”AI功能箱“，在打开的页面中点击“ltx2.3图生视频”

在打开的页面中

（1）选择部署的后端服务器

（2）选择数字人图片

（3）选择数字人语音，数字人语音可以选择系统克隆的语音。小于40秒。

（4）输入数字人全局提示词。

（5）输入分镜提示词，并调整分镜时长。

（6）视频宽度和高度可以默认

（7）视频帧率，默认即可。如果修改了，分镜要重新调整。

（8）点击“立即开始”即可。

Infinitetalk云端安装部署，本地使用。

2026年5月2日 / linwc / 0 Comments

还在为电脑配置不够卡死而发愁？本期带你深度体验InfiniteTalk最新改进：支持远程服务调用。只需安装客户端，即可跨越硬件限制，小白也能轻松玩上infititetallk！可以支持图片对口型，视频对口型以及双人对口型。还支持一键批量生成。

注册云端账号

点击这里注册并进行实名认证。注册完账号并进行实名认证后，在评论区留下你的company id。我把镜像分享给你。

部署

登录云端账号，点击“部署GPU实列”—“部署GPU实列”，选择私有镜像里面的“图片数字人“，实列类型选择：“独占式”，GPU型号选择：24G RTX40系，或者32G RTX50系或者，48G RTX40系。

基础网络中的ip地址记录一下，等下要用到。部署完成后检查一下防火墙，看是否放开8003端口。

如果没有放开就点击“编辑防火墙规则”，然后点击“添加规则”，在弹出框中的端口处输入“8003”，把8003端口放开。
安装客户端

点击这里下载客户端。提取码: wnbt。
配置远程服务器。点击“远程服务模型”

在打开的页面中点击“添加服务”，在服务器地址输入

http://ip地址:8003，IP地址在云端实例中能看到。

添加成功后进行授权。授权码：AIGC-7YXF-MCQE-AN6E，授权码先到先得。授权完就能使用了。

点击图片对口型进行做视频了。

部署步骤

目的，让heygem和indextts2在同一个云端机器上部署并在本地电脑调用，即使本地电脑配置不够也能使用heygem制作数字人，使用indextts2进行语音克隆，而且比本地电脑生成的速度更快。

注册云端账号

点击这里注册并进行实名认证。
注册完账号并进行实名认证后，如果不愿意折腾的一键三联并在评论区留下你的company id

愿意折腾的往下继续。
部署GPU实例

参考这篇博客，防火墙放开8383，8002端口。
登录实例

使用FinalShell SSH登录

步骤一：实例开机，找到服务器外网IP地址

步骤二：打开FinalShell，选择文件-新建会话，输入主机、端口号、用户名、密码，点击确定并连接

用户名：ubuntu 端口号：22 密码：SSH登录密码

步骤三：链接成功后，即可进行服务器管理或文件上传

部署服务

安装docker

执行以下命令

sudo -i

sudo apt update

apt-get install ca-certificates curl gnupg lsb-release

curl -fsSL http://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

sudo add-apt-repository "deb [arch=amd64] http://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"

sudo apt-get install docker-ce docker-ce-cli containerd.io

docker --version

安装镜像并启动服务

点击这里下载docker compose文件。下载完成后上传到实例。在docker compose文件所在目录执行
```
  docker compose -f docker-compose-linux.yml up -d
```
安装客户端

点击这里下载客户端并安装。
启动客户端并增加远程服务

参考这篇博客

部署步骤

注册云端账号

点击这里注册并进行实名认证。
注册完账号并进行实名认证后，如果不愿意折腾的一键三联并在评论区留下你的company id

愿意折腾的往下继续。
部署GPU实例

参考这篇博客，防火墙放开8383，8002端口。
登录实例

使用FinalShell SSH登录

步骤一：实例开机，找到服务器外网IP地址

步骤二：打开FinalShell，选择文件-新建会话，输入主机、端口号、用户名、密码，点击确定并连接

用户名：ubuntu 端口号：22 密码：SSH登录密码

步骤三：链接成功后，即可进行服务器管理或文件上传

部署服务

安装docker

执行以下命令

sudo -i

sudo apt update

apt-get install ca-certificates curl gnupg lsb-release

curl -fsSL http://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

sudo add-apt-repository "deb [arch=amd64] http://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"

sudo apt-get install docker-ce docker-ce-cli containerd.io

docker --version

安装镜像并启动服务

点击这里下载docker compose文件。下载完成后上传到实例。在docker compose文件所在目录执行
```
  docker compose -f docker-compose-linux.yml up -d
```
安装客户端

点击这里下载客户端并安装。
启动客户端并增加远程服务

参考这篇博客

Duix.avatar(heygem)声音模块换成indextts2教程

2026年3月17日 / linwc / 0 Comments

一、为什么要做这次替换？
在使用duix.avatar的时候，使用 Fish-Speech 引擎生成的克隆声音，在 40 系或 30 系显卡上很正常，但在 5090 上会变得非常沙哑、低沉，甚至带有严重的金属杂音。

二、安装步骤
配置要求：
硬盘：D盘200G
内存：32G及以上
显存：8G及以上

环境准备

请参考duix.avatar安装博客的环境准备部分，点这里。
安装docker

请参考duix.avatar安装这篇博客安装wsl和docker部分，点这里。
安装docker镜像

点击这里下载docker compose文件，保存docker compose文件的目录不要有特殊字符，中文之类的。然后再docker compose文件所在目录执行以下命令
```
docker compose up -d
```
下载客户端
点击这里下载客户端。
授权，免费获取。
参考这篇博客支持远程服务版本的heygem(duix.avatar)部署教程。

结语：
通过这次“换芯手术”，你的数字人不仅运行更快，而且声音表现力上了一个台阶。这也是自媒体人通过技术组合拳打造差异化内容的关键。

支持远程服务版本的heygem(duix.avatar)部署教程

2026年3月12日 / linwc / 0 Comments

对于很多想尝试 AI 数字人的创作者来说，最大的拦路虎往往不是技术，而是硬件配置。动辄 8G 甚至 12G 显存的要求，让很多拿着办公笔记本的小白望而却步。

但今天，魔改版的duix.avatar，彻底打破了这个僵局。

核心亮点：远程服务

不再受配置限制：只要你能联网，即便是 5 年前的旧电脑也能跑。

轻量化客户端：像安装普通软件一样简单，双击即用。

音频、视频同步生成：
远程服务，速度相比本地提升了数倍。

零基础友好：界面极其精简，没有复杂的参数，点几下就能出视频。

效率革命：远程生成意味着你可以在生成视频的同时，继续写文案、刷素材，完全互不干扰。

安装即用：避开了复杂的 Python 环境搭建，真的是“安装即用”。

部署步骤

注册云端账号并实名认证

点击这里进行注册并进行实名认证。
服务器部署
1.点击“部署GPU实列”—“部署GPU实列—ubuntu-nvidia—选择GPU（8G以上)–立即部署”

3. 防火墙设置
部署完服务器之后，点击“实列列表”，然后点击在部署的机器右上角的”更多操作“–"配置防火墙"

在打开的页面中点击“编辑防火墙”

然后在打开的页面中点击“编辑规则”.

源IP输入0.0.0.0/0，端口输入：8383.参考图片进行配置。

微信联系ivan117进行部署。

4.使用远程工具（putty，xshell等）登录服务器。
IP和密码直接从实列列表里面复制即可。用户名是ubuntu。

5.登录成功后执行以下命令。

sudo -i

sudo apt update

apt-get install ca-certificates curl gnupg lsb-release

curl -fsSL http://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

sudo add-apt-repository "deb [arch=amd64] http://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"

sudo apt-get install docker-ce docker-ce-cli containerd.io


curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg




curl -s -L https://nvidia.github.io/libnvidia-container/ubuntu22.04/libnvidia-container.list | \
 sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
 sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list


sudo apt update

sudo apt install -y nvidia-container-toolkit

sudo mkdir -p /etc/cdi

sudo nvidia-ctk cdi generate --output=/etc/cdi/nvidia.yaml

sudo tee /etc/docker/daemon.json <<EOF
{
 "runtimes": {
   "nvidia": {
     "path": "nvidia-container-runtime",
     "runtimeArgs": []
   }
 }
}
EOF

docker pull crpi-i70cvg5caxqwvolh.cn-hangzhou.personal.cr.aliyuncs.com/linwc/heygem:v3

docker run -d \
 --name linwcheygem \
 -p 8383:8383 \
 --gpus all \
 -e LICENSE_SERVER_URL="https://api.ineeds.top" \
 -e TZ="Asia/Shanghai" \
 -v /data/voice/data:/app/outputs \
 -v /data/aigc_cache:/root/.aigc \
 -v /etc/machine-id:/etc/machine-id:ro \
 crpi-i70cvg5caxqwvolh.cn-hangzhou.personal.cr.aliyuncs.com/linwc/heygem:v3 \
 python /code/app.py

或者从这里下载脚本，提取码: 8zdp,把下载的脚本上传的服务器。具体命令如下

sudo -i
sudo apt install lrzsz
rz 
然后选择下载的脚本文件（install_gpu_docker.sh）
chmod +x install_gpu_docker.sh
./install_gpu_docker.sh

3.下载客户端

点击这里下载heygem客户端。

提取码: 1jiq

4.配置远程服务
启动客户端后，切换到远程服务模型标签。

在弹出框输入服务器地址。服务器地址是：http://服务器ip地址:8383,

添加成功后，点击授权按钮进行授权。授权码：AIGC-MRYD-CNQL-G2P3

在弹出框中输入授权码即可做视频了。点击模型下方的“做视频”按钮，在做视频页面选择音频合成，选择音频，渲染模式选择刚新建的远程服务，不要选本地渲染。点击合成视频即可。目前还不支持音频克隆。下期给大家带来支持音频克隆的功能，把duix.avatar的声音克隆换成indextts2.大家敬请期待。

duix.avatar安装

2026年3月8日 / linwc / 0 Comments

环境准备

查看windows系统版本

你需要是 Windows 10 或者 Windows 11 系统。太老的系统不行哦。windows版本号是22H2及以上才能安装。执行winver命令查看windows系统版本。
检查显卡和显存

这是绝对必要的！你需要有一块英伟达（Nvidia）的显卡，比如四零，五零系列等等。A卡和集成显卡不支持！而且，最好确保你的Nvidia显卡驱动程序是最新版！打开电脑任务管理器查看（右击任务栏—-任务管理器—性能—GPU0（1）），专用cpu最少8G
检查内存和硬盘。

任务管理器—性能—内存，内存最少32G

硬盘：C盘要有最少20G空间，D盘最少120G空间，必须要有D盘。（docker镜像保存到这D盘）
查看cpu状态是否开启虚拟化

任务管理器—性能—cpu，cpu的虚拟化功能要开启。如果没有其他，需要到bios里面开启，具体开启方式不同品牌的电脑开启方式不一样，具体开启可以问AI。问了AI还不会的可以在评论区留言。
开启windows功能

开启windows的

✅适用于 Linux 的 Windows 子系统

✅虚拟机平台

这两个功能开启，否则安装wsl不成功。具体开启方式，同时按下win+R键。然后输入**optionalfeatures,在打开的页面中滑倒底，把子系统和虚拟机平台前面的勾加上。**

如果没有看到这两个功能，以管理员在cmd命令行（win+R后输入cmd），在打开的黑框中输入以下两个命令。

dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all

dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all

如果命令还不行，重新安装系统。

开启这两个功能后重启电脑。

环境都检查确定没问题后在进行安装，

安装

安装wsl和docker
- wsl安装
  
  检查wsl是否已经安装,在cmd命令行执行以下命令。
  
  wsl --list --verbose
  
  如果显示如下之类的内容就是已经安装好了。
  
  NAME STATE VERSION
  
  docker-desktop Running 2
  Ubuntu-22.04 Stopped 2
  
  如果没有安装就使用wsl --install命令进行安装。网络最好能访问github之类的网站。要是安装不成功，点击如下图的wsl2.6.1.0×64.msi直接进行安装。这是整理好的百度网盘资源，需要的请一键三连私信我。
安装完以后在cmd命令行执行一下以下命令：

wsl --set-default-version 2
- docker安装

从这个地址（https://www.docker.com/products/docker-desktop/）下载docker安装文件。

docker安装直接下一步就行，安装完后要进行设置一下。

设置镜像存储位置

c盘存储够（至少150G）的不设置也行，要是不够就要设置下镜像存储位置。方法如下图。
设置docker镜像源

{ "registry-mirrors": [ "https://docker.mirrors.ustc.edu.cn", "https://hub-mirror.c.163.com", "https://mirror.baidubce.com" ] }

设置完成后把docker重启一下。

安装docker镜像
- 显卡是50系列显卡
  
  docker compose -f docker-compose-5090.yml up -d
- 显卡是40及以下显卡
docker compose up -d

注意： docker-compose.yml文件所在目录只能有数字和字母，不要有中文之类的。

安装镜要有梯子，如果没有会安装失败，或者要很久才能安装完成。

如果40系及以下显卡，可以执行如下图中的init_base.bat.先把下图中的4个文件下载到本地，然后执行init_base.bat即可。需要资源的请一键三连私信我。

安装完成后在docker里面能看到三个服务。
安装heygem客户端应用

从https://github.com/duixcom/Duix-Avatar/releases下载最新版本即可，安装没难度。

如果是跟着教程操作到这里应该可以正常使用了，如果安装过程中有问题，评论区见。

Fish-Speech：零基础也能用的开源AI语音合成工具

2025年6月11日 / linwc / 0 Comments

在当今数字内容创作的时代，高质量的语音合成已经成为自媒体创作者、开发者和内容生产者的刚需。无论是为视频配音、制作有声书，还是开发语音助手，一个好的语音合成工具都能大幅提升工作效率和内容质量。今天，我要向大家介绍一款强大的开源语音合成工具——Fish-Speech，它不仅功能强大，而且零基础也能轻松上手。

Fish-Speech是什么？

Fish-Speech是GitHub上备受欢迎的开源语音合成工具，目前已获得超过21K的Star。它由Fish Audio团队开发，基于VQ-GAN、Llama和VITS等前沿AI技术，能够将文本转换成极其逼真的语音。与市面上其他语音合成工具相比，Fish-Speech的最大特点是其卓越的声音克隆能力和多语言支持。

Fish-Speech的核心优势

零样本语音克隆：只需10-30秒的语音样本，就能生成高质量的语音输出。想象一下，你只需录制一小段自己的声音，AI就能学会用你的声音说任何内容。
多语言支持：Fish-Speech支持中文、英文、日文、韩文、法语、德语、阿拉伯语和西班牙语等多种语言，而且还支持跨语言合成，比如用中文声音说英文，效果也很自然。
无需音素依赖：很多语音合成工具需要复杂的音素设置，而Fish-Speech不需要，直接输入文本就能合成，大大降低了使用门槛。
高准确度：对于5分钟的英文文本，错误率只有约2%，几乎可以媲美专业配音了。
速度快：在RTX 4060笔记本上，实时因子约为1:5，意味着生成5分钟语音只需1分钟；在RTX 4090上，这一比例可达1:15。
易于使用的界面：Fish-Speech提供基于Gradio的Web界面，兼容主流浏览器，操作简单直观。

本地安装部署指南

下面，我将一步步指导大家如何在本地安装部署Fish-Speech。本教程以Windows系统为例，使用conda创建虚拟环境，安装目录为e:/tmp/Fish-Speech。

1. 环境准备

首先，确保你的电脑满足以下基本要求：

GPU内存：推理至少需要4GB，微调需要8GB
已安装Anaconda或Miniconda（用于创建虚拟环境）
已安装Git（用于克隆代码库）

如果你还没有安装Python、git或者Miniconda，可以去这里下载安装。

2. 克隆代码库

创建安装目录并克隆Fish-Speech代码库：

mkdir -p e:/tmp
cd e:/tmp
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

2. 创建虚拟环境

打开Anaconda Prompt，执行以下命令创建一个Python 3.10的虚拟环境：

conda create -p e:/tmp/fish-speech\env python=3.10 -y
conda activate e:/tmp/fish-speech\env

4. 安装依赖

安装PyTorch和其他必要依赖：

pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
pip install -e .

对于Windows用户，还可以安装triton-windows加速推理：

pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

5. 下载预训练模型

Fish-Speech需要预训练模型才能运行。使用huggingface-cli工具下载：

huggingface-cli download fishaudio/fish-speech-1.5 –local-dir checkpoints/fish-speech-1.5



pip install huggingface_hub

huggingface-cli login
huggingface-cli login --token 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
huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini

6. 启动Web界面

模型下载完成后，启动Fish-Speech的Web界面：

python tools/run_webui.py

启动后，打开浏览器访问http://localhost:7860，就能看到Fish-Speech的操作界面了。

使用指南

Fish-Speech的使用非常简单，主要有两种模式：

1. 文本转语音

在文本框中输入你想转换的文本
选择语言（中文、英文等）
调整参数（如果需要）
点击"生成"按钮

几秒钟后，你就能听到AI生成的语音了。

2. 声音克隆

上传一段10-30秒的语音样本（WAV或MP3格式）
在文本框中输入你想用这个声音说的内容
选择语言
点击"生成"按钮

Fish-Speech会学习语音样本中的声音特征，并用这个声音来合成新的语音内容。

实用场景

Fish-Speech在很多场景都能派上用场：

自媒体创作：为视频添加专业配音，不用再担心自己的声音不好听或者找不到合适的配音员。
内容本地化：将内容翻译成不同语言并配上相应的语音，轻松实现内容的国际化。
有声书制作：快速将文本转换为有声读物，大大节省制作时间和成本。
语音助手开发：为你的应用添加自然的语音交互，提升用户体验。
教育培训：制作多语言教学材料，帮助学习者更好地理解内容。

使用技巧

选择合适的语音样本：声音克隆的效果很大程度上取决于语音样本的质量。尽量选择清晰、无背景噪音的录音，语速适中，情感自然。
调整参数：Fish-Speech提供了多种参数调整选项，如温度（temperature）、top_k、top_p等。适当调整这些参数可以获得更自然的语音效果。
分段处理长文本：对于很长的文本，建议分段处理，然后再合并，这样可以避免生成过程中出现错误。
保存常用声音配置：如果你经常使用某些特定的声音，可以保存这些配置，下次直接加载使用。

结语

Fish-Speech作为一款开源的语音合成工具，不仅功能强大，而且易于上手，非常适合自媒体创作者和AI爱好者使用。通过本文的指导，相信大家已经能够成功安装部署并开始使用Fish-Speech了。

随着AI技术的不断发展，像Fish-Speech这样的工具将会变得越来越强大，为我们的创作带来更多可能性。如果你对AI语音合成感兴趣，不妨试试Fish-Speech，体验一下它带来的便利和乐趣。

记得在使用过程中遵守相关法律法规，不要将AI合成的语音用于欺骗或其他不当用途。希望这篇文章对你有所帮助，祝你使用愉快！

Spark-TTS：零基础入门指南 – 本地部署与使用教程

2025年5月22日 / linwc / 0 Comments

在当今数字内容创作的时代，高质量的语音合成工具已成为许多创作者不可或缺的助手。无论是视频配音、有声书制作，还是开发语音应用，一个好的文本转语音(TTS)工具都能大大提升效率和质量。今天，我要向大家介绍一款革命性的开源语音合成工具——Spark-TTS，它不仅完全免费，而且效果堪比甚至超越市面上的付费产品。

Spark-TTS是什么？

Spark-TTS是一个基于大语言模型(LLM)的高级文本转语音系统，由SparkAudio团队开发并开源。它最大的特点是能够实现高度准确和自然的语音合成，特别是在零样本声音克隆方面表现出色。所谓零样本声音克隆，就是只需提供一段短短的参考音频（通常只需3秒以上），就能模仿出几乎一模一样的声音来朗读任何文本。

与传统TTS工具不同，Spark-TTS完全基于Qwen2.5构建，无需额外的生成模型如流匹配。它不依赖单独的模型来生成声学特征，而是直接从LLM预测的代码重建音频，这种方法简化了流程，提高了效率，降低了复杂性。

Spark-TTS的核心优势

在众多语音合成工具中，Spark-TTS凭借以下优势脱颖而出：

完全开源免费：与需要付费订阅的商业TTS服务不同，Spark-TTS完全开源，你可以在自己的电脑上免费部署使用。
超高质量声音克隆：基于大语言模型技术，声音克隆的自然度和相似度极高，几乎可以以假乱真。
低资源需求：只需3秒以上的语音样本就能实现高质量克隆，不需要大量训练数据。
中英双语支持：完美支持中文和英文，甚至可以实现跨语言的声音克隆，例如用中文声音说英文。
可控制的语音生成：可以调整性别、音调、语速等参数，创建个性化的虚拟说话人。
本地部署保护隐私：所有处理都在本地完成，不需要上传数据到云端，保护你的隐私安全。

这些优势使得Spark-TTS成为创作者、开发者和普通用户的理想选择，无论是制作视频配音、有声书、虚拟助手，还是个人娱乐，都能派上用场。

本地安装部署指南

接下来，我将带大家一步步完成Spark-TTS的本地安装和部署。整个过程并不复杂，即使是技术小白也能轻松上手。

环境准备

首先，我们需要准备以下环境：

操作系统：Windows、Mac或Linux都可以
Python环境：需要Python 3.10或以上版本
Git：用于克隆代码库
Anaconda/Miniconda: 这是一个 Python 环境管理工具。
显卡：虽然不是必须的，但有NVIDIA显卡会大大提升处理速度

如果你还没有安装Python,git或者Miniconda，可以去这里下载安装。

安装完成后，打开命令提示符或终端，输入以下命令来确认安装成功：

python --version
git --version

如果显示版本号，说明安装成功了。

克隆代码和创建环境

接下来，我们需要克隆Spark-TTS的代码库。在命令行中输入：

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

这样我们就下载了Spark-TTS的所有代码，并进入了项目目录。

然后，我们需要创建一个虚拟环境来安装依赖：

conda create -p E:\tmp\Spark-TTS\env python=3.10 -y

这会在当前目录下创建一个名为env的虚拟环境。

接着，我们需要激活这个虚拟环境：

 conda activate E:\tmp\Spark-TTS\env

激活后，命令行前面会出现(E:\tmp\Spark-TTS\env)的标志，表示我们已经在虚拟环境中了。

然后，我们安装所有依赖：

pip install -r requirements.txt

这可能需要一些时间，取决于你的网络速度。如果你在中国大陆，可能需要使用镜像源来加速下载：

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

下载预训练模型

安装完依赖后，我们需要下载Spark-TTS的预训练模型。有两种方式：

方式一：通过Python代码下载：

from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

方式二：通过Git LFS下载：

mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

下载可能需要一些时间，因为模型文件比较大。如果下载速度太慢，你也可以去Hugging Face网站手动下载模型文件。

下载模型报错

解决方法1：

(1)：保持网络稳定，换梯子

(2):删掉Spark-TTS-0.5B目录后重新下载

解决方法2：

(1):在命令行输入python,这时候命令行会输出python的版本号，然后在命令行接着输入以下语句。
(2):from huggingface_hub import snapshot_download
(3):snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

注意事项：执行python命令需要在项目根目录；激活虚拟环境

使用Spark-TTS

模型下载完成后，我们就可以开始使用Spark-TTS了。有两种使用方式：命令行和Web UI界面。

命令行使用

如果你喜欢命令行操作，可以使用以下命令进行语音合成：

python -m cli.inference \
    --text "要合成的文本内容。" \
    --device 0 \
    --save_dir "保存音频的路径" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "参考音频的文本内容" \
    --prompt_speech_path "参考音频的路径"

其中，--device 0表示使用第一张GPU，如果你没有GPU或者GPU内存不足，可以使用--device cpu切换到CPU模式。

Web UI使用

对于大多数用户来说，使用Web UI界面会更加直观和方便。在命令行中输入：

python webui.py --device 0

或者CPU模式：

python webui.py --device cpu

启动时候报错

错误1

解决方法：把本地其他使用7860端口应用关掉后重新启动

错误2：

解放方法：更新gradio

pip install --upgrade gradio

如果更新gradio时候报错

执行以下命令

pip install --upgrade gradio  -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

这会启动一个本地Web服务器，然后自动打开浏览器，显示Spark-TTS的Web界面。

在Web UI中，我们可以看到两个主要功能：声音克隆和声音创建。

声音克隆功能允许你上传一段参考音频，或者直接录制一段语音，然后在文本框中输入你想要合成的文本，点击"生成"按钮，就可以得到用克隆声音朗读的音频了。

声音创建功能则允许你通过调整参数来创建新的虚拟说话人。你可以调整性别、音调、语速等参数，创建出独特的声音效果。

实用技巧与常见问题

在使用Spark-TTS的过程中，以下技巧和问题解决方法可能会对你有所帮助：

提高声音克隆质量：
- 使用清晰、无背景噪音的参考音频
- 参考音频时长最好在5-10秒之间
- 确保参考音频的文本内容与实际语音一致
解决GPU内存不足问题：
- 使用CPU模式：--device cpu
- 减小批处理大小：--batch_size 1
- 关闭其他占用GPU的程序
优化中文语音合成：
- 中文文本中避免使用特殊符号
- 长句子可以尝试分段生成，然后合并
- 对于包含生僻字的文本，可以尝试用同音字替代
跨语言声音克隆技巧：
- 使用发音清晰的参考音频
- 尝试调整音调和语速参数
- 对于某些语言特有的发音，可能需要多次尝试

应用场景与创意用法

Spark-TTS的强大功能可以应用于多种场景：

内容创作：为视频、播客、有声书等创建专业配音，无需请专业配音演员。
教育培训：制作教学视频，用不同的声音讲解不同的内容，增加趣味性。
软件开发：将Spark-TTS集成到应用中，提供个性化的语音交互体验。
辅助工具：为视障人士创建有声读物，或者将文章转换为语音便于通勤时收听。
创意娱乐：模仿名人声音，创建有趣的内容（请注意合法合规使用）。

一键部署包

点击这里下载
验证码：9PQ5

结语

Spark-TTS作为一款开源的高质量语音合成工具，为我们提供了前所未有的语音创作可能性。它不仅完全免费，而且效果堪比甚至超越市面上的付费产品。通过本文的指导，相信你已经能够成功部署和使用Spark-TTS，开始你的语音创作之旅。

记得，虽然Spark-TTS功能强大，但请合法合规使用，不要用于欺诈或其他不良目的。如果你在使用过程中遇到任何问题，可以查阅官方GitHub页面的文档和Issues，或者在评论区留言交流。

希望这篇教程对你有所帮助，祝你创作愉快！

口播智能体功能。

1. 下载客户端

2. 注册账号并登录

3 大模型设置

4. 账号管理

5. 提示词管理。

6. 增加服务模型

7. 增加视频模型，bgm

8. 增加克隆音色

注册云端账号

安装客户端

部署步骤

部署步骤

核心亮点：远程服务

部署步骤

环境准备

安装

Fish-Speech是什么？

Fish-Speech的核心优势

本地安装部署指南

1. 环境准备

2. 克隆代码库

2. 创建虚拟环境

4. 安装依赖

5. 下载预训练模型

6. 启动Web界面

使用指南

1. 文本转语音

2. 声音克隆

实用场景

使用技巧

结语

Spark-TTS是什么？

Spark-TTS的核心优势

本地安装部署指南

环境准备

克隆代码和创建环境

下载预训练模型

使用Spark-TTS

命令行使用

Web UI使用

实用技巧与常见问题

应用场景与创意用法

一键部署包

结语

近期文章

近期评论

归档

分类