热门

Moshi

2个月前发布 76 00

一个多流实时语音生成 Transformer 模型，支持全双工语音对话，同时语音输入和输出，以及处理复杂对话场景的能力，包括重叠语音、中断和情绪表达等非语言信息。

所在地：

新加坡

收录时间：

2025-10-31

打开网站手机查看

Moshi

Moshi

Moshi 是一个多流实时语音生成 Transformer 模型，支持全双工语音对话。其主要特点是同时语音输入和输出（全双工），以及处理复杂对话场景的能力，包括重叠语音、中断和情绪表达等非语言信息。

这意味着它可以同时听和说，旨在解决传统对话系统中的一些问题，例如延迟、非语言信息（例如情绪）丢失以及对话轮流的僵化结构。

数据统计

相关导航

录音转文字助手

录音转文字助手是一款专业的在线语音转文字、文字转语音软件,提供在线免费录音转文字、文字转语音、主播配音、语音翻译等服务,转换速度快,准确率高,为用户解决语音和文本之间互转的难题.

Spark-TTS

SparkAudio团队开发的文本转语音（TTS）系统，基于 Qwen2.5 构建，能够生成自然、高质量的语音。并支持零样本语音克隆和多语言合成。

Free Subtitles

Free Subtitles，免费AI在线字幕生成工具，免费将音频和视频转录为文本，支持111种语言，102种语言的翻译。

naturalreaders

NaturalReader: Free Text to Sp...

Voicepen

一款语音转博客AI工具，使用VoicePen可以在几分钟内将音频、视频、语音备忘录和网站转换为博客文章。

Article.Audio

Article.Audio是一种允许您将文章转换为高质量的语音的工具。凭借超过140种可用语言和自然流畅的人声，您可以轻松将任何书面内容转换为音频格式。

Media.io

Unlock the power of AI with ou...

MyEdit

一款在线图片编辑和音频剪辑工具，用户可以使用AI照片编辑器来增强照片、去除人物和文字，甚至生成图像和场景。还提供强大的音频编辑工具，包括文本转语音、语音转文本和背景噪音去除功能。

退出移动版