阶跃星辰与吉利汽车携手开源两款多模态大模型，或将引发AI视频生成领域新变革

author 阅读：76 2025-02-23 07:33:13 评论：0

近日，阶跃星辰和吉利汽车集团联合宣布，将双方合作研发的两款Step系列多模态大模型——Step-Video-T2V和Step-Audio——向全球开发者开源。这一举动或将对AI视频生成和语音交互领域产生深远影响，为全球开发者提供强大的工具，并加速相关技术的创新与应用。

Step-Video-T2V是一个参数量高达300亿的视频生成模型，能够直接生成204帧、540P分辨率的高质量视频。这在业界实属领先水平，意味着生成的视频不仅画面清晰流畅，而且信息密度高，内容一致性强。据介绍，该模型在复杂运动场景、人物刻画、视觉创意、文字生成、中英双语输入以及镜头语言运用等方面均展现出强大的生成能力，并能精准理解语义、遵循指令，高效助力视频创作者实现创意构想。

另一款开源模型Step-Audio则是一款语音交互大模型。其在LlaMA Question、Web Questions等五大主流公开测试集中均取得了领先地位，性能超越同类型开源模型，排名第一。值得关注的是，Step-Audio在HSK-6（汉语水平考试六级）评测中的表现尤为突出，这表明该模型对中文的理解能力已达到相当高的水平，堪称“最懂中国话”的开源语音交互大模型。

此次开源的两款模型均可在跃问APP内体验。此举不仅降低了AI技术应用的门槛，也为开发者提供了更便捷的学习和研究途径。可以预见，Step-Video-T2V和Step-Audio的开源，将吸引更多开发者参与到AI视频生成和语音交互领域，促进技术的不断迭代升级，并催生出更多创新应用，例如更高效的视频内容创作工具、更智能的语音助手等。

然而，大模型的开源也带来了一些挑战。例如，如何确保模型的安全性，防止被恶意利用；如何平衡开源与商业利益；以及如何应对模型可能存在的偏见和误差等问题，都需要开发者和相关机构共同努力解决。但这并不妨碍我们对这次开源事件的积极评价，它标志着AI技术正朝着更加开放、共享的方向发展，也将为未来的科技创新注入新的活力。未来，我们或许会看到更多基于Step系列大模型的创新应用，改变我们生活和工作的方式。

本文 ethergome.com 原创，转载保留链接！网址：https://www.ethergome.com/post/1561.html

标签:DeFi NFT 元宇宙 Web3 区块链技术

可以去百度分享获取分享代码输入这里。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。