Index TTS 再度进化多人语音本地跑

简介 IndexTTS是一款由B站开源的文本转语音(TTS)模型,基于XTTS和Tortoise架构开发,专注于中文语音合成的优化,通过拼音纠正、精准停顿控制等技术显著提升发音准确性和自然度. 改进了小说文本解析器(Novel Text Parser)的功能 增加了对预格式化文本的检测和处理 优化了


音频To字幕文件

简介 使用FunAsr进行语音识别,并转为文本或字幕文件。 功能 语音识别 语音时间戳预测 语音转字幕


AI生图修图工具后端效果

功能介绍 (目前能实现的) 生图 - 传统提示词生图 Prompt 几张图 1-4 图片尺寸 # 1024x1024, 1536x1024, 1024x1536 秋天森林里一只狗的照片 2张图


Nunchaku 正式版发布了!

简介 发布 v0.3.0 版本! 本次更新新增了对多批次推理的支持,集成了 ControlNet-Union-Pro 2.0 并初步整合了 PuLID。 Nunchaku FLUX 模型作为单个文件加载,升级后的 4位 T5 编码器 在质量上已可媲美 FP8 T5!


OpenAI深夜又开大,2天放出来5个强有力的模型

简介 昨天,OpenAI 推出 o3和o4-mini 据说是迄今为止最智能、功能最强大的模型,具有完整的工具访问权限。 可追踪长上下文到达 100万token. 这将巨大提升代码能力。 https://openai.com/index/introducing-o3-and-o4-mini/ http


VideoLingo 效果测试

简介 目前 Star 7.1K 官方地址:https://github.com/Huanshere/VideoLingo Netflix级字幕切割、翻译、对齐、甚至加上配音,一键全自动视频搬运AI字幕组 VideoLingo 是一站式视频翻译本地化配音工具,能够一键生成 Netflix 级别的高质量