简介

IndexTTS是一款由B站开源的文本转语音(TTS)模型,基于XTTS和Tortoise架构开发,专注于中文语音合成的优化,通过拼音纠正、精准停顿控制等技术显著提升发音准确性和自然度.

  • 改进了小说文本解析器(Novel Text Parser)的功能

    • 增加了对预格式化文本的检测和处理

    • 优化了对话检测和角色识别算法

    • 改进了中文角色名称的识别

    • 支持引号中的对话自动识别

多角色小说文本解析

本项目包含一个专门用于解析小说文本的节点(Novel Text Structure Node),可以将普通小说文本解析为多角色对话结构,以便生成更加自然的多声音TTS效果。

  • 节点会尝试自动识别小说中的角色对话和旁白部分

  • 对话部分会标记为<CharacterX>形式(X为数字,最多支持5个角色)

  • 旁白部分会标记为<Narrator>

  • 解析后的文本可直接用于多声音TTS生成

总结

这是一个ComfyUI 节点。

使用起来非常丝滑,把要读的文本用Deepseek打上标记,然后扔进去,选择好对应的音频。生成即可。

稳定性也不错,基本上不太用抽卡。

目前最大支持7个声音。 1个旁白+6个角色。

工作流

测试-三小只盗墓笔记

生成效果

5个声音源

  • 旁白 = 方块猴

  • 主角 = 圆圆鼠

  • 三叔 = 羊爷爷

  • 闷油瓶 = 三角兔

  • 大奎 = AI男

七星鲁王,第九章,古墓。

那手机应该是刚丢下不久,我捡起来一看,上面沾着血水,就觉得不妙,说道:“看样子这里不止我们一批人,好象还有人受伤了,这手机肯定不会是从天上掉下来的”。

我打开手机的电话本,看到里面就几个号码,都是国外的电话,其他就什么信息都没有了,三叔说:“不管怎么样,我们不可能去找他们,还是赶路要紧。”
我看了看四周,也没有什么线索,只好开路继续走。但是在这荒郊野外看到一只这么现代化的东西,总觉得有点不可思议,就问那老头子,除了我们最近还有人进过这林子吗?

那老头子呵呵一笑:“两个星期前有一拨人,大概10几个,到现在还没出来呢。这地方凶险着呢,几位爷爷,咱现在回头还来的及。”

大奎说:“不就是个妖怪嘛?”

“告诉你,我们这位小爷爷,连千年的僵尸都要给他磕头,有他在,什么妖魔鬼怪,都不在话下,对不?”他问闷油瓶,闷油瓶一点反应也没有,好象根本当他是空气一样。大奎碰了个钉子,不由不爽,但也没办法。

测试-随便读读

生成效果

声音源

少女时就站在院墙那边,她有一双杏眼,怯怯弱弱。

院门那边,有个嗓音说:“你这婢女卖不卖?”

宋集薪愣了愣,循着声音转头望去,是个眉眼含笑的锦衣少年,站在院外,一张全然陌生的面孔。

锦衣少年身边站着一位身材高大的老者,面容白皙,脸色和蔼,轻轻眯眼打量着两座毗邻院落的少年少女。

老者的视线在陈平安一扫而过,并无停滞,但是在宋集薪和婢女身上,多有停留,笑意渐渐浓郁。

宋集薪斜眼道:“卖!怎么不卖!”

那少年微笑道:“那你说个价。”

少女瞪大眼眸,满脸匪夷所思,像一头惊慌失措的年幼麋鹿。

宋集薪翻了个白眼,伸出一根手指,晃了晃,“白银一万两!”

锦衣少年脸色如常,点头道:“好。”

宋集薪见那少年不像是开玩笑的样子,连忙改口道:“是黄金万两!”

锦衣少年嘴角翘起,道:“逗你玩的。”

宋集薪脸色阴沉。

项目地址

https://github.com/chenpipi0807/ComfyUI-Index-TTS

安装方法

cd ComfyUI/custom_nodes
git clone https://github.com/chenpipi0807/ComfyUI-Index-TTS.git

cd ComfyUI-Index-TTS
.\python_embeded\python.exe -m pip install -r requirements.txt

git pull # 更新很频繁你可能需要

需要的模型

https://huggingface.co/IndexTeam/IndexTTS-1.5/tree/main

ComfyUI/models/IndexTTS-1.5/
├── .gitattributes
├── bigvgan_discriminator.pth
├── bigvgan_generator.pth
├── bpe.model
├── config.yaml
├── configuration.json
├── dvae.pth
├── gpt.pth
├── README.md
└── unigram_12000.vocab