
取消


#可灵 AI3.0 全模态升级 #15 秒视频生成黑科技 #多模态创作引擎 #AI 赋能内容生产2026 年 2 月,可灵 AI 正式推出 3.0 系列多模态模型,首次实现文本、图像、音频、视频全模态输入输出的一体化整合,最长支持 15 秒视频生成,以 All-in-One 架构重构 AI 创作流程,让 “一人剧组” 从概念走向现实,百度搜索量单日激增 2100%,成为 AI 内容生产领域的现象级突破。该系列包含视频 3.0、视频 3.0 Omni、图片 3.0 及图片 3.0 Omni 四大核心模型,覆盖从前期分镜到后期合成的全链路创作,目前已向黑金会员开放,预计短期内全量上线,为专业创作者与普通用户带来创作效率的革命性提升。

全模态输入输出的深度整合,让创作摆脱工具切换的繁琐,实现 “端到端” 的高效生产。创作者可同时上传文本脚本、参考图像、配音音频及视频片段,模型通过统一架构无缝衔接理解、生成、编辑三大环节,直接输出具备专业质感的影像内容。例如,广告从业者只需输入产品文案、品牌 LOGO 图像、宣传音频及 3 秒产品演示片段,模型就能自动生成 15 秒完整广告视频,包含智能分镜、角色口型匹配、文字信息清晰呈现等专业效果,全程无需额外工具辅助,创作周期从传统的 3 天缩短至 15 分钟。这种一体化创作模式,彻底改变了以往多工具协作、多轮修正的低效流程,让创意快速落地成为可能。

15 秒视频生成能力的突破,标志着 AI 视频创作从碎片化走向完整叙事,满足多元场景的内容需求。视频 3.0 模型支持 3-15 秒灵活时长设置,内置 Multi-Shot 智能分镜系统,可自动理解文本叙事逻辑,输出多机位、多镜头的连续画面,减少后期剪辑依赖。同时,模型强化主体一致性控制,通过多图或视频作为 “视觉锚点”,避免角色漂移,音频方面支持中英日韩西多语言口型匹配,多人场景中可区分角色发声,文字生成清晰度也得到重点优化,解决广告、招牌类内容的 “乱码痛点”。而视频 3.0 Omni 进一步引入视频主体特征库,用户可上传 3-8 秒素材提取角色外形与音色,实现跨场景复用,大幅提升内容生产的连贯性与个性化。

图片 3.0 系列模型则聚焦静态内容的质感与效率提升,为视频创作提供高质量素材支撑。图片 3.0 新增组图生成能力,支持单张或多张输入图像批量生成逻辑连贯的系列画面,输出分辨率提升至 2K 与 4K 级别,适配影视预演图、场景设定等专业需求。通过强化学习与视觉思维链 vCoT 技术,模型改善细节一致性与电影质感,降低 AI 痕迹,同时提升对构图、视角等元素的控制精度,让静态图像更符合专业创作标准。图片 3.0 Omni 则主打 4K 超清叙事感与批量生成能力,助力创作者快速完成分镜设计、场景搭建等前期工作,为后续视频创作奠定坚实基础。

可灵 AI 3.0 系列模型的推出,不仅是技术的升级,更是创作生态的重塑。其 All-in-One 架构与全模态整合能力,打破了专业影视创作的技术与资金门槛,让普通用户也能轻松制作高质量内容,开启 “人人皆可导演” 的新时代。目前,该技术已在广告营销、短视频创作、影视预演等领域得到应用,帮助用户降低创作成本、提升产出效率。未来,随着模型的全量开放与持续优化,可灵 AI 有望进一步拓展应用场景,推动 AI 内容生产向更高效、更专业、更个性化的方向发展,为整个行业注入新的活力。
物联网,让世界更精彩;
斯迈尔,让物联网更智能!
