在当今数字化时代,多模态技术正以前所未有的速度改变着世界。而在这场科技浪潮中,国产视频大模型正悄然走在前列,成为全球科技创新的重要力量。
2025 年 3 月 29 日,在全球科技创新交流合作的国家级平台――中关村论坛上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授,发布的高可控视频大模型Vidu Q1成为焦点,这一关键科技成果的发布标志着国产视频大模型迈向了新的高度,为AI视频生成走向“高可控”时代指明路径。
中关村论坛作为汇聚全球顶尖科技资源与创新智慧的重要平台,一直以来都是前沿科技展示与交流的绝佳舞台。2024 年 4 月,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布了中国首个全面对标Sora的视频大模型 Vidu,这一创举在当时便引起了业界的广泛关注,开启了国产视频大模型发展的新篇章。时隔一年,生数科技再次回归中关村论坛,带来了更为强大的 Vidu Q1模型,它在高可控方面的进展不仅是对自身技术实力的又一次突破,更是国产大模型在全球舞台上崛起的重要标志。
在本次中关村论坛上,朱军教授发表了主题为《中国多模态生成的全球引领》主旨演讲。演讲中,朱军教授强调了国产视频大模型在全球科技竞争中所扮演的关键角色及取得的多次技术突破,同时也分享了作为先行者的生数科技基于实际探索和预测的Vidu未来发展路径,可以清晰地看到多模态技术在虚实结合、与物理世界交互等方面的更多可能。此次 Vidu Q1 模型的发布,不仅展现了中国在视频大模型领域的深厚技术积累,更彰显了国产大模型在全球范围内的引领实力。
Vidu Q1 作为业内首个高可控 AI 视频大模型,其在多主体细节可控(特别是动作、布局可控)、音效同步可控、画质增强等方面均取得显著成效,这使得它在众多视频大模型中脱颖而出。
以多主体细节可控为例,在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1支持对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控,对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整。用户能够明显体验到用更低的抽卡率实现更高质量的可控生成。
音效同步可控功能则确保了随着视频环境与画面转场,Vidu Q1能够输出生成相应音效,并可精准控制每段音效的长短区间,精准设置每段音频出现的时间点,如0-2s风声、3-5s雨声等,节省时间的同时,也大大增强了视频的沉浸感与感染力。
Vidu Q1模型通过进一步增强画质,则能够为用户带去更加清晰、细腻、逼真的视觉体验。
Vidu Q1 的发布,不仅为视频内容创作领域带来了革命性的变革,也为众多行业的AI重构提供了全新的思路与解决方案。
一直以来,AI视频生成过程中的随机性都是老大难问题,Vidu Q1针对AI视频生成的痛点,通过技术手段引入多元素控制,它不再是没有头绪的乱生成,而是到了人为可控,这就让AI视频生成与当下精益求精制作逐渐趋向一致,对于追求极致的人来说,这是一个新的里程碑。
在动漫领域,通过对角色、物体、场景等的精确控制,能够让创作者快速生成高质量动画。日前好莱坞知名动漫工作室Aura Productions选择与Vidu合作,计划制作50集动画短剧,其背后正是看重了Vidu在多主体一致性等可控生成方面的世界领先优势。
在广告领域,传统广告制作流程复杂,通过视频大模型的高可控性,可以精准呈现品牌元素和创意概念。
在影视短剧领域,Vidu的高可控生成能力则可确保短剧画面中角色和场景的连贯性。在更多领域,Vidu正在重构千行百业,创造更多可能。
此次生数科技Vidu Q1的发布,使世界看到中国科技创新公司通过坚持科技自立自强赋能新质生产力的发展。期待中国的AI视频生成赛道玩家能够持续在世界舞台上舞出风采,在百家争鸣中,实现中国多模态技术的极大发展和人人可感知到的现实应用。
【免责声明】【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:
有话要说...