简介
IndexTTS是一款由B站开源的文本转语音(TTS)模型,基于XTTS和Tortoise架构开发,专注于中文语音合成的优化,通过拼音纠正、精准停顿控制等技术显著提升发音准确性和自然度.
改进了小说文本解析器(Novel Text Parser)的功能
增加了对预格式化文本的检测和处理
优化了对话检测和角色识别算法
改进了中文角色名称的识别
支持引号中的对话自动识别
多角色小说文本解析
本项目包含一个专门用于解析小说文本的节点(Novel Text Structure Node),可以将普通小说文本解析为多角色对话结构,以便生成更加自然的多声音TTS效果。
节点会尝试自动识别小说中的角色对话和旁白部分
对话部分会标记为
<CharacterX>
形式(X为数字,最多支持5个角色)旁白部分会标记为
<Narrator>
解析后的文本可直接用于多声音TTS生成
总结
这是一个ComfyUI 节点。
使用起来非常丝滑,把要读的文本用Deepseek打上标记,然后扔进去,选择好对应的音频。生成即可。
稳定性也不错,基本上不太用抽卡。
目前最大支持7个声音。 1个旁白+6个角色。
工作流
测试-三小只盗墓笔记
生成效果
5个声音源
旁白 = 方块猴
主角 = 圆圆鼠
三叔 = 羊爷爷
闷油瓶 = 三角兔
大奎 = AI男
七星鲁王,第九章,古墓。
那手机应该是刚丢下不久,我捡起来一看,上面沾着血水,就觉得不妙,说道:“看样子这里不止我们一批人,好象还有人受伤了,这手机肯定不会是从天上掉下来的”。
我打开手机的电话本,看到里面就几个号码,都是国外的电话,其他就什么信息都没有了,三叔说:“不管怎么样,我们不可能去找他们,还是赶路要紧。”
我看了看四周,也没有什么线索,只好开路继续走。但是在这荒郊野外看到一只这么现代化的东西,总觉得有点不可思议,就问那老头子,除了我们最近还有人进过这林子吗?
那老头子呵呵一笑:“两个星期前有一拨人,大概10几个,到现在还没出来呢。这地方凶险着呢,几位爷爷,咱现在回头还来的及。”
大奎说:“不就是个妖怪嘛?”
“告诉你,我们这位小爷爷,连千年的僵尸都要给他磕头,有他在,什么妖魔鬼怪,都不在话下,对不?”他问闷油瓶,闷油瓶一点反应也没有,好象根本当他是空气一样。大奎碰了个钉子,不由不爽,但也没办法。
测试-随便读读
生成效果
声音源
少女时就站在院墙那边,她有一双杏眼,怯怯弱弱。
院门那边,有个嗓音说:“你这婢女卖不卖?”
宋集薪愣了愣,循着声音转头望去,是个眉眼含笑的锦衣少年,站在院外,一张全然陌生的面孔。
锦衣少年身边站着一位身材高大的老者,面容白皙,脸色和蔼,轻轻眯眼打量着两座毗邻院落的少年少女。
老者的视线在陈平安一扫而过,并无停滞,但是在宋集薪和婢女身上,多有停留,笑意渐渐浓郁。
宋集薪斜眼道:“卖!怎么不卖!”
那少年微笑道:“那你说个价。”
少女瞪大眼眸,满脸匪夷所思,像一头惊慌失措的年幼麋鹿。
宋集薪翻了个白眼,伸出一根手指,晃了晃,“白银一万两!”
锦衣少年脸色如常,点头道:“好。”
宋集薪见那少年不像是开玩笑的样子,连忙改口道:“是黄金万两!”
锦衣少年嘴角翘起,道:“逗你玩的。”
宋集薪脸色阴沉。
项目地址
https://github.com/chenpipi0807/ComfyUI-Index-TTS
安装方法
cd ComfyUI/custom_nodes
git clone https://github.com/chenpipi0807/ComfyUI-Index-TTS.git
cd ComfyUI-Index-TTS
.\python_embeded\python.exe -m pip install -r requirements.txt
git pull # 更新很频繁你可能需要
需要的模型
https://huggingface.co/IndexTeam/IndexTTS-1.5/tree/main
ComfyUI/models/IndexTTS-1.5/
├── .gitattributes
├── bigvgan_discriminator.pth
├── bigvgan_generator.pth
├── bpe.model
├── config.yaml
├── configuration.json
├── dvae.pth
├── gpt.pth
├── README.md
└── unigram_12000.vocab