作者: linwc (Page 2 of 2)

零基础AI小白的福音:index-tts本地部署与使用全攻略,轻松拥有专属AI配音!

Video: index-tts保姆级教程,附一键安装包,本地AI配音自由

在内容创作日益繁荣的今天,无论是制作引人入胜的视频,还是录制专业水准的播客,高质量的配音都扮演着至关重要的角色。然而,传统的真人配音成本高昂且耗时,而市面上许多在线AI配音工具,要么效果生硬不自然,要么需要付费订阅,且往往对使用次数有所限制。对于初入AI领域的小白用户而言,找到一款既免费、效果又好,还能在自己电脑上稳定运行的AI配音工具,似乎成了一个不小的挑战。但别担心,今天,我就要向大家隆重介绍一款开源的、强大的文本转语音(TTS)神器——index-tts!通过本篇详尽的教程,你将学会如何在自己的电脑上轻松部署和使用index-tts,彻底告别配音烦恼,解锁个性化、高品质的AI语音合成新体验。

index-tts:你的专属本地AI配音工作室

那么,index-tts究竟是何方神圣呢?简单来说,它是一个开源的文本转语音项目,允许用户在本地计算机上运行,将输入的文本转换成自然流畅的语音。与众多依赖云端服务器的在线TTS服务不同,index-tts赋予了用户前所未有的自由度和控制权。它的核心优势可以概括为以下几点:

完全免费。作为一款开源软件,你无需支付任何订阅费用即可使用其全部功能,这对于预算有限的个人创作者或小型团队来说无疑是巨大的福音。

本地化运行。所有的数据处理和语音生成都在你的个人电脑上完成,这意味着你无需担心网络连接的稳定性,更重要的是,你的文本数据不会上传到任何第三方服务器,隐私安全得到了充分保障。

效果惊艳。得益于先进的深度学习模型,index-tts生成的语音质量非常高,发音自然、语调丰富,在许多场景下甚至能够媲美真人配音,远超市面上一些效果生硬的机器人腔。

对于希望提升内容质量、追求高效创作流程的AI小白而言,掌握index-tts的本地部署与使用,无疑是为自己的技能库增添了一项强大的工具。接下来,就让我们一步步深入了解如何将这个神奇的工具安装到你的电脑中,并让它为你服务。

安装前的准备工作

在正式开始我们的index-tts安装之旅前,确保你的“装备”齐全是非常重要的。不过请放心,这些准备工作对于大多数用户来说都相当简单,并不会涉及过于复杂的技术操作。以下是你需要关注的几个方面:

操作系统。虽然index-tts理论上可以在Windows、Linux和macOS等多种操作系统上运行。

Python环境。对于index-tts,通常推荐使用Python 3.8至Python 3.10之间的版本,以确保最佳的兼容性。。

Git。版本控制工具。Git主要用于从项目的代码仓库(通常是GitHub)下载index-tts的源代码。Git不仅能帮助我们获取最新的项目文件,也方便后续可能的代码更新。

Anaconda/Miniconda: 这是一个 Python 环境管理工具。AI 项目经常需要特定版本的 Python 和库,用 Conda 可以创建独立的环境,避免和你电脑上其他 Python 程序冲突。

足够的磁盘空间。index-tts本身的代码文件不大,但其运行依赖的预训练模型文件可能会占用一定的存储空间,。因此,在开始安装前,检查一下目标安装盘符的剩余空间是明智之举。

=硬件配置。一般来说,近几年主流的家用电脑或笔记本电脑的配置都足以流畅运行index-tts。当然,如果你的电脑拥有性能更强的CPU,或者配备了NVIDIA的独立显卡(GPU),那么语音生成的效率会显著提升,等待时间也会相应缩短。对于没有独立显卡的用户,index-tts同样可以使用CPU进行计算,只是速度会稍慢一些,但完全不影响其核心功能的使用。

当以上这些准备工作都确认无误后,我们就可以信心满满地进入下一阶段——index-tts的本地安装与部署实战了!

核心实战:手把手教你本地安装与部署index-tts

准备工作就绪,现在让我们卷起袖子,正式开始index-tts的安装与部署。请仔细跟随以下步骤操作,相信即使是AI小白也能顺利完成。

第一步:获取index-tts的源代码

源码地址:https://github.com/index-tts/index-tts

你有两种主要的方式来完成这一步:

  • 方式一:通过浏览器直接下载ZIP压缩包。 这是对新手最友好的方式。打开你的网页浏览器,访问index-tts在GitHub上的官方项目页面(具体的项目地址通常会在相关的分享帖或官方说明中给出,你也可以通过搜索引擎查找“index-tts GitHub”)。在项目主页,你会看到一个通常是绿色的按钮,上面写着“Code”或者类似的字样。点击这个按钮,会弹出一个下拉菜单,选择其中的“Download ZIP”选项。浏览器会将整个项目的源代码打包成一个ZIP文件下载到你的电脑。下载完成后,找到这个ZIP文件,将其解压到你希望存放index-tts的文件夹中。建议选择一个路径不包含中文或特殊字符的文件夹,例如 D:\AI_Tools\index-tts,这样可以避免后续可能出现的编码问题。

  • 7

  • 方式二:使用Git命令行克隆项目。 如果你已经按照前面的准备工作安装了Git,并且对命令行操作有一定了解,那么这种方式会更高效,也便于后续更新。首先,打开你的命令行工具(在Windows上可以是CMD命令提示符,也可以是PowerShell)。然后,使用cd命令切换到你计划存放index-tts的父文件夹。例如,如果你想把项目放在D:\AI_Tools目录下,就输入 cd /d D:\AI_Tools。接着,输入克隆命令:

    git clone https://github.com/index-tts/index-tts.git
    

    这个链接同样可以在项目GitHub页面的“Code”按钮下找到。按下回车,Git就会自动从远程仓库拉取所有项目文件到你指定的本地文件夹中,并创建一个与项目同名的子文件夹。

    无论采用哪种方式,成功执行后,你的电脑上就会拥有index-tts完整的项目文件了。

第二步:创建并激活Python虚拟环境

在Python开发中,为了避免不同项目之间的库版本冲突,以及保持全局Python环境的整洁,强烈推荐为每个项目创建一个独立的虚拟环境。index-tts也不例外。虚拟环境就像一个隔离沙箱,你在其中安装的所有库都只对当前项目生效。

  1. 打开命令行工具:确保你的命令行工具(CMD或PowerShell)正处于你刚刚下载并解压(或克隆)的index-tts项目文件夹的根目录下。你可以使用cd命令来切换目录,例如

    cd E:\tmp\index-tts
    
  2. 创建虚拟环境:在项目根目录下,输入以下命令来创建一个名为env的虚拟环境:

    conda create -p E:\tmp\index-tts\env python=3.10 -y
    

    执行完毕后,你会在项目文件夹下看到一个新增的env子文件夹,这里面就包含了虚拟环境所需的文件。

  3. 激活虚拟环境:虚拟环境创建后,需要激活才能生效。

    conda activate E:\tmp\index-tts\env
    

第三步:安装项目依赖库

index-tts的运行依赖于一系列其他的Python库,这些库提供了诸如Web框架、数值计算、音频处理等基础功能。项目开发者通常会将所有必需的依赖库及其版本信息记录在一个名为requirements.txt的文件中,这个文件位于项目根目录下。

在确保虚拟环境已激活的前提下,我们在命令行中输入以下命令,pip(Python的包管理工具)就会自动读取requirements.txt文件,并从Python包索引(PyPI)下载并安装所有列出的依赖库:

pip install -r requirements.txt

这个过程可能需要一些时间,具体取决于你的网络速度和依赖库的数量。安装过程中出现的错误.

错误一:
1
出现这种错误需要更换梯子。

错误二:
5
解放方法:

  1. 把requirements.txt里面的WeTextProcessing删掉,如下图
    24

第四步:下载并配置预训练模型

模型文件应该放置在项目中checkpoints文件夹下,在项目当前目录执行以下命令。

huggingface-cli download IndexTeam/IndexTTS-1.5 config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab --local-dir checkpoints

第五步:启动index-tts服务

经过前面一系列的准备和配置,我们终于来到了激动人心的时刻——启动index-tts!
启动命令

python webui.py

但是启动报错了,如下图所示,
2

解决方法,执行以下命令

conda install -c conda-forge pynini=2.1.5
pip install WeTextProcessing==1.0.3

最终终于启动了,在浏览器打开http://127.0.0.1:7861/
6

这时候index-tts可以用了,不过使用的是cpu模式。看启动时候日志,日志显示是cpu mode

3

解决方法:

  1. 先把torch,torchaudio卸载掉

    pip uninstall torch torchaudio
    
  2. 可以到这个网站适合你本地显卡的torch https://pytorch.org/get-started/locally/

  3. 执行以下命令

    pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu121
    
    
  4. 重新启动,这时候就是使用的gpu模式了。

  5. deepspeed安装

    点击这里下载deepspeed

    pip install "deepspeed-0.16.8+unknown-cp310-cp310-win_amd64.whl"
    

常见安装与运行问题排查:

  • 依赖安装失败(pip install报错):这是新手最常遇到的问题之一。首先检查你的网络连接是否正常。其次,可以尝试更换pip的下载源到国内镜像(如清华大学、阿里云的PyPI镜像),以提高下载速度和稳定性。再次,确认你的Python版本是否符合项目的要求。某些库可能对特定Python版本有依赖。最后,仔细阅读错误信息,它通常会给出失败的原因,根据提示搜索解决方案或在社区求助。
  • 程序启动失败或报错:如果程序无法启动,或者启动后WebUI无法访问,首先检查命令行是否有详细的错误日志输出。常见的错误原因包括:
    • 模型文件未正确放置:再次确认你下载的预训练模型是否按照项目文档的要求,放在了正确的文件夹路径下,并且文件名无误。
    • 端口冲突:如果错误提示端口已被占用(Port already in use),说明index-tts试图使用的网络端口(如7860)正被其他程序占用。你可以尝试关闭占用该端口的程序,或者在index-tts的配置文件或启动参数中修改为另一个未被占用的端口。
    • 依赖库版本冲突或缺失:虽然requirements.txt旨在解决此问题,但偶尔仍可能出现。可以尝试在虚拟环境中重新安装核心依赖,或根据错误提示检查特定库的状态。
  • 语音生成速度慢:如果你的电脑没有NVIDIA独立显卡,或者显卡性能较低,语音生成完全依赖CPU计算时,速度可能会比较慢,尤其是处理长文本时。这是正常现象。可以尝试分段生成,或者在非工作时间进行批量处理。升级硬件是提升速度最直接的方式,但对于AI小白来说,耐心等待也是一种选择。
  • GitHub项目访问或下载问题:如果遇到GitHub访问缓慢或无法下载的情况,可能是网络原因。可以尝试使用科学上网工具,或者查找国内的代码托管平台是否有项目的镜像。

结语:开启你的AI配音创作之旅

通过本篇详尽的图文教程,相信你已经对index-tts这款强大的本地AI配音工具有了全面的认识,并掌握了从环境准备、下载安装、部署运行到基本使用和问题排查的全流程。index-tts以其免费开源、本地运行、效果出色等诸多优点,为广大AI小白和内容创作者打开了一扇通往高质量、个性化语音合成的大门。它不仅仅是一个工具,更是一个能够激发你创作潜能、提升内容品质的得力助手。

AI技术日新月异,index-tts及其相关开源项目也在不断发展和完善中,未来可期。希望你能将今天学到的知识运用到实际的创作中,无论是为你的科普视频配上清晰的解说,为你的游戏角色赋予生动的声音,还是为你的有声读物注入丰富的情感,index-tts都能助你一臂之力。不要害怕尝试,勇于探索,积极利用这些唾手可得的AI工具,让你的创意插上声音的翅膀,在数字内容的世界里自由翱翔!

如果你在学习和使用过程中有任何心得体会,或者遇到了新的问题,欢迎在评论区留言交流。让我们共同学习,共同进步,一起探索AI赋能内容创作的无限可能!

一键部署包

点击这里下载

提取码:xMSM

B站地址:
Video: index-tts保姆级教程,附一键安装包,本地AI配音自由

F5-TTS安装部署

Video: 5分钟搞定!手把手教你本地部署F5-TTS。附一键本地部署包

F5-TTS 是一款开源的文本转语音 (TTS) 工具,以其快速克隆声音、支持多种语言以及能够表达情感等特点受到关注。本文将为您提供 F5-TTS 的本地部署指南和使用技巧。

F5-TTS 简介

F5-TTS 是一款基于深度学习技术的声音克隆工具,能够在短时间内(仅需2秒或15秒的音频样本)精确克隆目标声音的音色、语调和情感表达。它是 E2-TTS 的改进版本,推理速度更快。该工具开源免费,用户可以根据需求进行定制和优化。

主要特点:

  • 快速克隆能力:仅需少量参考音频即可复刻音色。
  • 高质量音频:生成的语音在音色细腻度和情感传达上效果逼真。
  • 多语言支持:支持中英文混合输入及多种其他语言,如法语、意大利语、日语等。
  • 情感和风格调整:支持调整语速、音高、情感(如“Shouting”风格)。
  • 用户友好的操作界面:提供 Gradio WebUI,方便操作。
  • 低资源占用:部分资料提及显存占用较低,适合本地部署。
  • 零样本生成能力:无需特定训练样本即可生成高质量语音。

安装部署

本地部署 F5-TTS 通常涉及环境准备、代码克隆、依赖安装和模型下载等步骤。以下是综合性的安装指南:

前置条件

  • Python 环境:强烈建议使用 Python 3.10 版本。
  • Git:用于克隆项目代码。
  • Conda (推荐):用于创建和管理独立的 Python 虚拟环境,避免依赖冲突。
  • NVIDIA GPU 及 CUDA (推荐):为了获得更好的性能和加速,建议使用 NVIDIA 显卡并安装相应的 CUDA 工具包。
  • 科学上网环境:F5-TTS 需要从 Hugging Face 等网站下载模型,国内用户可能需要配置代理。
  • Pinokio
    对于咱们小白用户,我强烈推荐一个“神器”——Pinokio!它就像一个AI软件的“应用商店”,可以帮我们一键安装很多复杂的AI工具,自动处理那些烦人的环境配置问题。
    你需要先去 Pinokio 的官网 下载Pinokio
    如果你不想用 Pinokio,或者之后 Pinokio 安装失败了,也可以选择手动安装。但这需要你对 Python (需要 3.10 版本)、Git 和 命令行 有一定的了解。还需要自己配置 PyTorch 环境。

方法一:使用 Pinokio (小白首选)

  1. 打开 Pinokio: 安装好后,启动 Pinokio。第一次打开里面可能是空的。
  2. 发现 F5-TTS: 点击 "Discover" (发现) 按钮。在搜索框里输入 F5-TTS 或者 E2F5 TTS。
  3. 下载和安装: 找到 F5-TTS (可能会显示为 E2F5 TTS),点击它,然后点击 "Download" (下载),再点击 "Install" (安装)。
  4. 等待安装: 接下来,Pinokio 会自动帮你下载所有需要的东西,包括 F5-TTS 本身和它依赖的库。这个过程可能需要一些时间,取决于你的网络和电脑配置。
    中途可能会弹出一些提示框,比如问你是否要下载 CUDA (如果你的 N 卡需要),或者其他组件。通常,你只需要一直点 "Yes" 或 "OK" 或 "下一步" 就行了,让 Pinokio 帮你搞定一切!
  5. 启动 F5-TTS: 安装完成后,F5-TTS 会出现在 Pinokio 的主界面列表里。选中它,然后点击 "Launch" (启动)。
  6. 打开Web界面: 等待一小会儿 (可能一两分钟),Pinokio 窗口里会加载出 F5-TTS 的操作界面 (基于 Gradio)。为了方便操作,你可以点击界面右上角通常会有的“在新窗口/标签页中打开”的按钮,把它在你的浏览器里打开,界面更大更清晰!

通用安装步骤

  1. 克隆 F5-TTS 仓库 在合适的目录下打开终端,执行以下命令克隆项目代码:

    Bash

    git clone https://github.com/SWivid/F5-TTS.git
    cd F5-TTS
    
  2. 创建并激活 Conda 虚拟环境 (推荐)

    Bash

    conda create -n f5-tts python=3.10
    conda activate f5-tts
    
  3. 安装 PyTorch 及相关库 根据您的 CUDA 版本选择合适的 PyTorch 安装命令。例如,使用 CUDA 11.8:

    Bash

    pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
    

    或者使用PyTorch 2.4 版本(例如,配合 CUDA 12.4):

    Bash

    pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
    

    注意: PyTorch 版本和 CUDA 版本的兼容性非常重要,请根据您的硬件和驱动情况选择。

  4. 安装项目依赖 在项目根目录下,执行以下命令之一安装所需的依赖包:

    Bash

    pip install -r requirements.txt
    

    或者,进行可编辑安装 (editable install):

    Bash

    pip install -e .
    
  5. 安装 FFmpeg (如果需要) PyTorch 可能需要 FFmpeg 来处理非 WAV 格式的音频文件。如果系统中未安装,请根据您的操作系统进行安装并确保其在系统路径中。

    • macOS (使用 Homebrew): brew install ffmpeg
    • Windows: 从 FFmpeg 官网下载,解压并将 bin 目录添加到系统环境变量 Path 中。
    • Linux (例如 Ubuntu/Debian): sudo apt update && sudo apt install -y ffmpeg
  6. 下载预训练模型 首次启动时,F5-TTS 会尝试从 Hugging Face 下载所需的预训练模型。确保您的网络环境可以访问 Hugging Face。议手动下载模型到本地指定路径,以避免启动时报错。

    • 可以配置环境变量 HF_ENDPOINT=https://hf-mirror.com 来使用 Hugging Face 的国内镜像。

特定平台和部署方式

  • macOS:安装步骤与通用步骤类似,注意 Python 和 FFmpeg 的安装方式。
  • Windows:安装时需注意文件路径不要包含中文或空格。FFmpeg 的安装和环境变量配置也需特别留意。
  • Linux (包括腾讯云 GPU):可以参照通用步骤。在腾讯云等 GPU 云服务器上部署时,可能需要先卸载预装的 PyTorch,再安装指定版本。
  • Docker 和 Kubernetes (k8s):F5-TTS 也支持通过 Docker 部署,甚至可以在 Kubernetes 环境中运行。这对于需要容器化部署的用户来说非常有用。部署时需要注意 GPU 的正确配置和访问权限,例如在 k8s 中配置 nvidia-device-plugin

启动 WebUI 服务

安装完成后,可以使用以下命令启动 Gradio WebUI:

Bash

f5-tts_infer-gradio

可以指定端口和主机,例如:

Bash

f5-tts_infer-gradio --port 7860 --host 0.0.0.0

如果希望生成一个公开的分享链接 (通过 Gradio Live),可以使用:

Bash

f5-tts_infer-gradio --share

也可通过运行 Python 脚本来启动,例如:

Bash

python gradio_app.py

或在特定路径下运行:

Bash

cd src/f5_tts/infer/
python infer_gradio.py

启动成功后,终端会显示本地访问 URL (通常是 http://127.0.0.1:7860)。

使用技巧

基本使用 (WebUI)

  1. 文本输入 (Text):在文本框中输入想要转换为语音的文本,支持中英文混合。
  2. 参考音频上传 (Reference Audio):上传一段清晰的人声作为声音克隆的参考,建议时长在 2-15 秒之间。支持 WAV、MP3 等常见格式。
  3. 生成语音 (Generate):点击按钮开始生成语音,完成后可在线播放或下载。

高级功能与技巧

  • 批量处理 (Batch Processing):上传包含多行文本的 TXT 文件进行批量语音生成。
  • 长文本处理:对于较长的文本,建议按自然段落分割处理以获得更佳效果。
  • API 使用:可以通过添加 --api 参数启动服务,以便通过 API 调用 F5-TTS。
  • 多语言模型切换:默认模型主要支持中英文。如需使用其他语言(如法语、日语等),需要修改 src/f5_tts/infer/infer_gradio.py 文件中的 DEFAULT_TTS_MODEL_CFG 配置,指向对应语言的模型和词汇表文件路径 (通常托管在 Hugging Face)。修改后需重启服务,并确保网络畅通以下载新模型。
  • 与 pyVideoTrans 对接:可以将 F5-TTS 与 pyVideoTrans 等视频翻译配音软件对接。需要在 F5-TTS 启动后,在 pyVideoTrans 中配置 F5-TTS 的 API 地址,并指定参考音频文件及其对应文字。
  • 局域网访问:默认情况下,Gradio 服务可能只允许本机访问。若需在局域网内其他设备访问,可能需要修改 infer_gradio.py 文件以允许外部访问,例如设置 share=True 或在启动命令中指定 --host 0.0.0.0,并可能需要修改代码以正确处理临时文件路径。
  • 内网穿透 (Ngrok):如果需要在公网访问本地部署的 F5-TTS 服务,可以使用 Ngrok 等内网穿透工具。

常见问题与故障排查

  • 模型下载失败/Hugging Face 连接问题
    • 确保科学上网环境配置正确,并开启全局或系统代理。
    • 配置 Hugging Face 镜像地址,例如 export HF_ENDPOINT=https://hf-mirror.com
    • 检查 Git SSL 验证设置:git config --global http.sslVerify false (临时解决方法,注意安全风险)。
    • 可以修改 utils_infer.py 中的 snapshot_downloadhf_hub_download 函数调用,添加 local_files_only=True 参数,以在模型已下载到本地后禁止程序再次尝试从网络下载 (需确保模型已完整下载)。
  • 端口冲突:如果端口 7860 已被其他程序占用,F5-TTS 将无法启动。关闭占用该端口的程序或在启动 F5-TTS 时指定其他端口。
  • PyTorch 版本与 CUDA 不兼容 / GPU 无法使用
    • 确保安装的 PyTorch 版本与您的 CUDA驱动版本兼容。
    • 在容器化部署 (如 Docker, k8s) 时,确保容器已正确配置以访问宿主机的 GPU。
  • conda: command not found:通常是 Conda 的路径未正确添加到系统环境变量中。需要找到 Miniconda/Anaconda 的安装路径,并将其下的 bin (Linux/macOS) 或 Scripts (Windows) 目录添加到 PATH 环境变量中,然后重新加载配置文件 (如 .zshrc, .bashrc) 或重启终端。
  • 缺少 ffmpeg 工具:按照前述安装步骤为您的操作系统安装 FFmpeg。
  • 路径问题:在 Windows 系统上,避免在包含中文或空格的路径下安装或运行 F5-TTS。
  • gradio_client 问题:如果 API 对接出现问题 (如 detail: "Not found"),尝试更新 gradio_clientpip install --upgrade gradio_client
  • 启动命令差异:不同的安装方式或版本可能对应不同的启动命令 (如 f5-tts_infer-gradio vs python gradio_app.py),请参考您所使用的具体教程或项目文档。

注意事项

  • 法律与道德:在使用声音克隆技术时,请务必遵守相关法律法规和道德规范,尊重他人隐私权和知识产权,不要用于非法或不当目的。
  • 参考音频质量:参考音频的清晰度和质量直接影响克隆效果。
  • 终端窗口:通过 API 使用时,即使关闭了 WebUI 浏览器界面,也不能关闭启动 F5-TTS 服务的终端窗口。
  • 定期更新:建议定期从 GitHub 拉取最新代码 (git pull) 以获取最新功能和 bug 修复。

希望本文档能帮助您顺利部署和使用 F5-TTS。具体细节可能因 F5-TTS 版本更新而有所不同,建议同时参考官方 GitHub 仓库获取最新信息。

一键部署包

点击这里下载一键部署包

提取码yeuX

B站视频
Video: 5分钟搞定!手把手教你本地部署F5-TTS。附一键本地部署包

megatts3安装步骤

Video: 零基础5分钟部署!MegatTS3本地安装全攻略

环境准备:

  1. 操作系统: 推荐使用 Linux 或 Windows
  2. Git: 这是个代码版本管理工具,我们需要用它从 GitHub 下载 MegaTTS 3 的代码。点击这里下载安装
  3. Anaconda/Miniconda: 这是一个 Python 环境管理工具。AI 项目经常需要特定版本的 Python 和库,用 Conda 可以创建独立的环境,避免和你电脑上其他 Python 程序冲突。点击这里下载安装
  4. Python 版本: 注意!官方 Readme 指定需要 Python 3.10 版本 。后面我们会用 Conda 来创建这个特定版本的环境。点击这里下载安装
  5. (可选) NVIDIA 显卡 & CUDA: 如果你有 N 卡,并且想用 GPU 加速,需要确保安装了合适的显卡驱动和 CUDA 工具包。但这不是必须的,CPU 用户跳过即可!
  6. 魔法上网

第一步:下载代码。点击这里下载安装。

git clone https://github.com/bytedance/MegaTTS3

下载完成后:

cd MegaTTS3

第二步:创建并激活 Conda 环境。

conda create -n megatts3-env python=3.10

创建好后,激活这个环境:

conda activate megatts3-env

(注意看命令行前面的环境名变化) "看到命令行前面出现了 (megatts3-env) 就表示成功进入环境了!"
1

第三步:安装依赖库。

(针对 Windows 用户特别说明),安装前需要先手动打开 requirements.txt 文件,找到 WeTextProcessing==1.0.4.1 这一行,在前面加个 # 号把它注释掉**,保存文件。然后再执行下面的 pip 安装命令。

pip install -r requirements.txt`

如果中途遇到红色报错,可能是网络问题或者特定库安装失败,可以尝试更换国内 pip 镜像源再试一次。

  • (针对 Windows 用户补充)Windows 用户在 pip 安装完后,还需要额外执行这两条命令:
    conda install -y -c conda-forge pynini==2.1.5
    conda install -y WeTextProcessing==1.0.3
    
  • 如果遇到 ffprobe 或 ffmpeg 相关的错误,可以尝试
    conda install -c conda-forge ffmpeg
    

第四步:设置 PYTHONPATH (非常重要!)。

  • Linux/Mac 用户:

    export PYTHONPATH="/path/to/MegaTTS3:$PYTHONPATH
    

    /path/to/MegaTTS3 替换成你实际存放 MegaTTS3 文件夹的完整路径!不知道路径?在 MegaTTS3 文件夹里打开终端,输入 pwd 就能看到。

  • Windows 用户 (CMD):

    set PYTHONPATH="C:\path\to\MegaTTS3;%PYTHONPATH%"
    

    C:\path\to\MegaTTS3 替换成你实际存放 MegaTTS3 文件夹的完整路径!比如 D:\AI_Tools\MegaTTS3。路径里不要有中文

  • Windows 用户 (PowerShell):

    $env:PYTHONPATH="C:\path\to\MegaTTS3;$env:PYTHONPATH"
    

第五步:下载预训练模型。

huggingface-cli download bytedance/MegaTTS3 --local-dir ./checkpoints --repo-type model

"模型文件不大,应该很快就能下好。"

第六步:(可选) 指定 GPU。如果你有 N 卡并且想用 GPU 跑,执行:"

  • Linux/Mac:
    export CUDA_VISIBLE_DEVICES=0
    
  • Windows:
    • CMD
      set CUDA_VISIBLE_DEVICES=0
      
    • powershell
      $env:CUDA_VISIBLE_DEVICES=0
      

如果只想用 CPU,就不要执行这一步!CPU很慢,我本地5s的声音要差不多5分钟才能生成,不同cpu时间不一样。

第七步:启动MegaTTS3

python -m tts.gradio_api

启动成功后在浏览器访问http://127.0.0.1:7929/
2

5
报错解决方法

pip uninstall torch torchvision torchaudio

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

一键部署包

点击这里下载一键部署包

提取码:z7f3

直接启动
3
一键部署包已经下载好了模型及官方的声音。直接使用即可。一键部署包启动过程:
4
一键部署包启动成功之后跟部署包效果一样。

Newer posts »

© 2026 pappyAI的博客

Theme by Anders NorenUp ↑