Moshi

289 00

一个多流实时语音生成 Transformer 模型，支持全双工语音对话，同时语音输入和输出，以及处理复杂对话场景的能力，包括重叠语音、中断和情绪表达等非语言信息。

Moshi

Moshi 是一个多流实时语音生成 Transformer 模型，支持全双工语音对话。其主要特点是同时语音输入和输出（全双工），以及处理复杂对话场景的能力，包括重叠语音、中断和情绪表达等非语言信息。

这意味着它可以同时听和说，旨在解决传统对话系统中的一些问题，例如延迟、非语言信息（例如情绪）丢失以及对话轮流的僵化结构。