Moshi

11小时前发布 4 00

一个多流实时语音生成 Transformer 模型,支持全双工语音对话,同时语音输入和输出,以及处理复杂对话场景的能力,包括重叠语音、中断和情绪表达等非语言信息。

所在地:
新加坡
收录时间:
2025-10-31

Moshi 是一个多流实时语音生成 Transformer 模型,支持全双工语音对话。其主要特点是同时语音输入和输出(全双工),以及处理复杂对话场景的能力,包括重叠语音、中断和情绪表达等非语言信息。

这意味着它可以同时听和说,旨在解决传统对话系统中的一些问题,例如延迟、非语言信息(例如情绪)丢失以及对话轮流的僵化结构。

数据统计

相关导航