阿里云发布新一代多模态模型Qwen2.5-Omni [复制链接]

33
 

ChMkK2fknnuIHO1MAAJ3LSDPkFMAAqeVQHoPkwAAndF339.png

ChMkK2fknnuIHO1MAAJ3LSDPkFMAAqeVQHoPkwAAndF339.png

3月27日,阿里云宣布推出新一代端到端多模态旗舰模型Qwen2.5-Omni。这款模型专注于全方位多模态感知能力的提升,能够高效处理文本、图像、音频和视频等多样化的输入形式,并以实时流式响应的方式生成文本及自然语音合成输出。
据官方介绍,Qwen2.5-Omni采用了创新的Thinker-Talker双核架构。其中,Thinker模块负责对文本、音频、视频等多种模态输入进行深度处理,生成高层次的语义表征以及相应的文本内容,类似于“大脑”的功能;而Talker模块则承担了类似“发声器官”的角色,通过流式方式接收来自Thinker模块的实时输出语义表征与文本,进而流畅地完成离散语音单元的合成。
在测试中,Qwen2.5-Omni在图像、音频、音视频等多个模态场景下的表现均优于规模相近的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro,展现出其在多模态处理领域的卓越性能。
33
举报

本版积分规则

创意玩法 更多玩法>
玩家测评 加入测评>
统计
本周明星用户
  • admin
    发帖达人
    admin

    每天发N帖,记录在社区成长的点滴

  • 嘉嘉嘉
    火爆写手
    嘉嘉嘉

    敏锐洞察者,产品达人,激情小马达,新晋大神。

  • 彭明
    人文骚客
    彭明

    博古通今,人肉百科全书,文人气息浓郁的本宝宝。

发表主题 回复

加入贴单

贴单,为家庭互联网而生

Copyright 2015-2025 贴单网 陕ICP备2023003579号 All Rights Reserved