FireRedASR小红书FireRed 团队发布并开源的基于大模型的语音识别模型,它在中文普通话语音识别领域取得了新的SOTA,FireRedASR支持方言、英语及歌词识别。 710GitHub/AI开源
TryOnDiffusionTryOnDiffusion就谷歌推出的一项新虚拟试穿功能,能够实现高度逼真的虚拟试穿,用户能够直观地看到不同体型的人穿着不同尺寸的衣服效果如何。 670GitHub/AI开源
AIdeaAIdea 是一款支持 GPT 以及国产大语言模型通义千问、文心一言等,支持 Stable Diffusion 文生图、图生图、 SDXL1.0、超分辨率、图片上色的全能型完全开源APP。 640GitHub/AI开源
Whisper语音识别模型Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。 750AI大模型GitHub/AI开源
易魔声EmotiVoice易魔声EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。 700GitHub/AI开源
Notebook Copilot有了 Notebook CoPilot,开发笔记本的过程变得更加容易。这个简单的工具可以毫不费力地根据您的输入生成代码和 Markdown 单元格,从而显着简化您的工作流程。 570GitHub/AI开源
Deepfakes CreatorDeepfakes Creator,可以通过文本输入生成逼真的会说话的真人视频。用户只需要上传想要化身模仿的人的照片,并写一个剧本,工具就能创建出逼真的人物化身视频,模拟人物说话。 570GitHub/AI开源
InvokeAIInvokeAI 是一个开源项目,是 Stable Diffusion 模型的领先创意引擎,它为使用 Stable Diffusion 模型生成高质量图像提供了简化的过程。 600GitHub/AI开源
LiveSketchLiveSketch是一款AI生成视频工具,用户通过文本提示将静态素描转化为动画,它提供了一种简单直观的方法,使他们的素描变得生动活泼。 730GitHub/AI开源# animation# sketch# Text-to-Video
ComfyUI Portrait Master简体中文版ComfyUI Portrait Master 肖像大师简体中文版。超详细参数设置!再也不用为不会写人像提示词发愁!重新优化为ison列表更方便自定义和扩展。 630GitHub/AI开源
HandRefiner解决AI图像生成中手部畸形的问题 目前的图像生成模型,再生成图像方面已经非常出色,但在生成人类手部的图像时却常常出现问题,比如手指数量不对或者手形怪异。 610GitHub/AI开源
DreamTalk一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。 690GitHub/AI开源
IP-Adapter-FaceID该模型利用面部识别模型的面部ID嵌入,可以更准确地捕捉和再现特定人物的面部特征。IP-Adapter-FaceID结合文本描述生成可以生成高度个性化且与原始面部特征一致的图像。 600GitHub/AI开源
QAnything AI网易有道一个开源的本地知识库问答系统,旨在支持多种文件格式和数据库,允许离线安装和使用。 ,电子邮件(eml),TXT(txt),图像(jpg,jpeg,png),CSV(csv),网页链接(html)630AI大模型GitHub/AI开源# QAnything# RAG引擎# 企业内部知识管理
Personalized Restoration一个面部图像精准恢复和个性编辑技术工具,不仅能复原受损图像细节,同时能精准捕捉和重现个人独特的面部特征。同时它还支持换脸。 610GitHub/AI开源# identity-aware image restoration# Personalized diffusion
MotionshopAI角色动画工具,通过先进的视频处理和3D渲染技术,MotionShop能够高效地将视频中的某个角色替换为3D人物,同时不改变视频中的其他场景和人物。 620GitHub/AI开源# modelscope# 模型# 魔搭社区
Diffuse to Choose一种基于扩散的图像修复模型,主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节,适用于在线购物等虚拟试穿场景中的图像修复任务。 800GitHub/AI开源# Diffuse to Choose# diffusion# virtual try-all
Open WebUI一个可扩展、功能丰富且用户友好的自托管 WebUI,适用于各种 LLM 运行器,支持的 LLM 运行器包括 Ollama 和 OpenAI 兼容的 API。 620GitHub/AI开源
Animagine XL 3.1一个开源的文本生成图像动漫模型,通过整合新的数据集,Animagine XL 3.1扩展了对广泛动漫作品和风格的理解,从经典作品到最新发布的动漫,覆盖了从古老到现代的各种艺术风格。 720GitHub/AI开源