阶跃星辰与吉利汽车携手开源两款多模态大模型,或将引发AI视频生成领域新变革
近日,阶跃星辰和吉利汽车集团联合宣布,将双方合作研发的两款Step系列多模态大模型——Step-Video-T2V和Step-Audio——向全球开发者开源。这一举动或将对AI视频生成和语音交互领域产生深远影响,为全球开发者提供强大的工具,并加速相关技术的创新与应用。
Step-Video-T2V是一个参数量高达300亿的视频生成模型,能够直接生成204帧、540P分辨率的高质量视频。这在业界实属领先水平,意味着生成的视频不仅画面清晰流畅,而且信息密度高,内容一致性强。据介绍,该模型在复杂运动场景、人物刻画、视觉创意、文字生成、中英双语输入以及镜头语言运用等方面均展现出强大的生成能力,并能精准理解语义、遵循指令,高效助力视频创作者实现创意构想。
另一款开源模型Step-Audio则是一款语音交互大模型。其在LlaMA Question、Web Questions等五大主流公开测试集中均取得了领先地位,性能超越同类型开源模型,排名第一。值得关注的是,Step-Audio在HSK-6(汉语水平考试六级)评测中的表现尤为突出,这表明该模型对中文的理解能力已达到相当高的水平,堪称“最懂中国话”的开源语音交互大模型。
此次开源的两款模型均可在跃问APP内体验。此举不仅降低了AI技术应用的门槛,也为开发者提供了更便捷的学习和研究途径。可以预见,Step-Video-T2V和Step-Audio的开源,将吸引更多开发者参与到AI视频生成和语音交互领域,促进技术的不断迭代升级,并催生出更多创新应用,例如更高效的视频内容创作工具、更智能的语音助手等。
然而,大模型的开源也带来了一些挑战。例如,如何确保模型的安全性,防止被恶意利用;如何平衡开源与商业利益;以及如何应对模型可能存在的偏见和误差等问题,都需要开发者和相关机构共同努力解决。但这并不妨碍我们对这次开源事件的积极评价,它标志着AI技术正朝着更加开放、共享的方向发展,也将为未来的科技创新注入新的活力。未来,我们或许会看到更多基于Step系列大模型的创新应用,改变我们生活和工作的方式。
本文 ethergome.com 原创,转载保留链接!网址:https://www.ethergome.com/post/1561.html
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。
