Tarsier

2个月前发布 66 00

字节跳动推出的一系列大规模视觉语言模型(LVLM),专注于视频理解任务,包括视频描述、问答、视频定位、幻觉测试等功能。

所在地:
新加坡
收录时间:
2025-11-05
比特指纹浏览器

Tarsier是字节跳动推出的一系列大规模视觉语言模型(LVLM),专注于视频理解任务,包括视频描述、问答、定位和幻觉测试等功能。

数据统计

相关导航