Z-Image 又炸了

简介 官方地址: https://github.com/Tongyi-MAI/Z-Image https://huggingface.co/Tongyi-MAI/Z-Image-Turbo


Banana Pro 到底神不神?

简介 目前最新,最强的模型,banana pro 版本是Gemini3Pro的原生多模态模型。 所以它同时具有,推理能力、搜索能力、文字生成能力。 Pro 较比之前还提升了 一致性、画面质感。 Pro 可以添加 14张参考图。 测试环境 1.推理生图能力 <


SoulX-Podcast TTS 新宠

简介 SoulX-Podcast,这是一个专为播客式多轮、多说话人对话语音生成而设计的系统,同时还在传统的文本转语音 (TTS) 任务中实现了最先进的性能。 SoulX-Podcast 集成了一系列副语言控制,支持普通话和英语,以及多种中国方言,包括四川话、河南话和粤语,从而实现更个性化的播客风格语


Wan2.2 LightX2V 模型实测

简介 这个模型是 wan2.2 作为底模型蒸馏出来的,所以具备了 wan22 的所有能力,对视频一致性把握非常好。 依然高噪声+低噪声模型。 ⚡ 超快速生


Qwen-image-Edit 它来了。

简介 官方地址 https://huggingface.co/Qwen/Qwen-Image-Edit 总结: 效果确实依然炸裂,但是官方模型太大。4090 跑不动,杂七杂八的模型加起来大概要40G左右显存了。。 跑了 量化 q4模型并加载了 4步LoRA, 13秒出图。速度起飞。效果也是很棒的。


Index TTS 再度进化多人语音本地跑

简介 IndexTTS是一款由B站开源的文本转语音(TTS)模型,基于XTTS和Tortoise架构开发,专注于中文语音合成的优化,通过拼音纠正、精准停顿控制等技术显著提升发音准确性和自然度. 改进了小说文本解析器(Novel Text Parser)的功能 增加了对预格式化文本的检测和处理 优化了


音频To字幕文件

简介 使用FunAsr进行语音识别,并转为文本或字幕文件。 功能 语音识别 语音时间戳预测 语音转字幕


AI生图修图工具后端效果

功能介绍 (目前能实现的) 生图 - 传统提示词生图 Prompt 几张图 1-4 图片尺寸 # 1024x1024, 1536x1024, 1024x1536 秋天森林里一只狗的照片 2张图


Nunchaku 正式版发布了!

简介 发布 v0.3.0 版本! 本次更新新增了对多批次推理的支持,集成了 ControlNet-Union-Pro 2.0 并初步整合了 PuLID。 Nunchaku FLUX 模型作为单个文件加载,升级后的 4位 T5 编码器 在质量上已可媲美 FP8 T5!