互联网资讯 · 2025年8月11日 0

昆仑万维技术周开幕:SkyReels模型革新内容创作基础设施

2025年8月11日,昆仑万维宣布启动一场覆盖五大技术领域的SkyWoRk AI技术发布周,8月11日至8月15日,每天将发布一款新模型,从视频生成模型(SkyReels)、世界模型,到生图一体化模型、智能体(Agent)模型,再到AI音乐创作模型(MuReka),连续五天发布覆盖多模态AI核心场景的前沿模型,集中展示技术突破的最新成果。

这标志着昆仑万维AI技术全面迈入商业化应用阶段。前期重投入的研发成果加速转化为产品矩阵,技术变现飞轮高效运转。

技术周首日,全球首个支持分钟级长视频生成的音频驱动模型SkyReels-A3正式亮相。该模型通过四大技术创新锚定直播电商万亿市场痛点,可实现长视频连贯生成、影视级运镜控制与自然动作交互,为全球内容创作产业提供新一代技术基石。

昆仑万维技术周启幕:SkyReels模型重塑内容创作基建 -

技术突破:构建多模态协同的生成范式

传统视频生成技术受限于误差累积效应,面临长视频画面崩坏与动作僵硬的行业瓶颈。模型SkyReels-A3的创新在于构建了多模态协同的生成范式,保证了画面的一致性,基于DIT视频扩散模型框架构建,通过三路输入处理系统实现文本、图像与音频的深度融合,突破了误差控制机制,创新采用分段插帧策略,通过确定起始帧和终止帧生成视频片段,并取用尾帧作为插帧监督信号,成功将180秒长视频的画面稳定度控制在较高值,彻底解决行业顽疾。

在艺术创作的高阶美感表达维度,模型首创基于ContRolNet的镜头控制模块,支持固定镜头、推镜、拉镜、左摇、右摇、抬升、下降、手持镜头等8种运镜参数,且强度可自由连续调节。该技术使非专业用户也能精准控制镜头语言,这种能力源自对影视镜头物理轨迹的数学建模,显著提升直播带货场景的真实性,同时也可以提升音乐MV、电影片段的艺术表现力。

针对直播带货等交互场景中,效果不够逼真的痛点,模型通过DPO算法优化手部动作自然度,驱动生成效果逼近真人表现,该技术通过分析大量真实交互数据,建立动作-商品-语音的跨模态关联。

效率突破同样令人瞩目。模型SkyReels通过Step蒸馏技术,将推理步数从40步压缩至4步,画面质量保持率超98%,使视频生成时间缩短至80秒,大幅降低创作者硬件门槛。人工盲测进一步验证其优势:在带货场景中,在观众盲测中,89%的人认为模型SkyReels呈现的动作效果比竞品更真实自然,动作自然性和面部稳定性评分这两项关键指标均居行业首位。