od体育官方网站,od体育app下载,od体育最新登录网址,od体育平台,od体育app,od体育靠谱吗,od体育,od体育官网,od体育买球,od体育世界杯,od体育注册,od体育登录,od体育入口
谷歌、快手等头部模型重点解决了角色一致性与物理逻辑难题,可灵月活破千万并实现订阅收入增长,标志着多模态工具从娱乐走向生产力。
技术共同演进,有望重塑营销、影视、游戏等下游产业格局。中信建投证券计算机、传媒互联网团队共同推出【
字节于2月7日开启 Seedance 2.0 内测,持续优化AI视频生成对生成结果的把控。Seedance 2.0 的核心突破在于全方位多模态参考与精细化镜头控制,模型支持同时上传最多 12 个参考素材(含图像、视频、音频),能够对角色面部、服装纹理及画面风格进行像素级锁定,有效解决了 AI 视频长期存在的角色一致性难题。通过引入首尾帧控制与原生音视频同步技术,创作者能够精准定义镜头的起止状态并实现口型与动作的帧级对齐,这使得 AI 生成不仅停留在空镜或单人动作,而是真正具备了处理复杂叙事与多镜头交互的能力。
据《The Information》援引内部消息人士透露,字节或将在春节祭出全模态三件套。当前字节多模态模型主要包括Doubao多模态、Seedream、Seedance等,Seedance 2.0有望作为全模态的一环,大幅压缩内容制作成本并提升素材产出效率,并在即梦和剪映平台实现商业化落地。
产业侧,漫剧市场迎来爆发式增长,AI 仿真人剧成为新流量高地。据 1 月 20 日巨量引擎漫剧生态大会数据,漫剧赛道日耗峰值已达 3000 万,预计 2026 年市场规模将突破 220 亿元。2025 年下半年,漫剧广告营销流水增长超 21 倍,每日自然流水大盘增长 144%。尽管总供给量突破 10 万部,但优质动画及 AI 仿真人剧供给仍显稀缺,自 2025 年 11 月以来仿真人剧快速起量并带动千万级大盘流量。在技术赋能下,AI 已深度融入漫剧生产管线,内容制作环节渗透率达 50%-80%,平均降低生产成本 70% 以上,提升效率 80% 以上。Seedance 2.0 的推出有望进一步缓解优质产能短缺,通过 IP(60% 爆款源自小说)与 AI 的结合,加速漫剧产业的工业化升级。
总结:Anthropic 发布 Claude Opus 4.6,凭借 Agent Teams 机制与自适应思考能力,深度打通 Office 生态并实现复杂工程任务托管,推动 AI 在金融、法律等垂直场景的深度渗透;OpenAI则推出GPT-5.3-Codex,不仅刷新编程与终端操作 SOTA,更通过端侧环境接管与自我构建能力,验证了 AI 自动化研发的内生循环。多模态领域,字节跳动 Seedance 2.0开启内测, 通过全方位多模态参考与精细化镜头控制解决视频生成的一致性痛点,有望协同 Doubao、Seedream 构成全模态矩阵,大幅降低内容制作成本并加速商业化落地。
风险分析:(1)宏观经济下行风险:计算机行业下游涉及千行百业,宏观经济下行压力下,行业IT支出不及预期将直接影响计算机行业需求;(2)应收账款坏账风险:计算机多数公司业务以项目制签单为主,需要通过验收后能够收到回款,下游客户付款周期拉长可能导致应收账款坏账增加,并可能进一步导致资产减值损失;(3)行业竞争加剧:计算机行业需求较为确定,但供给端竞争加剧或将导致行业格局发生变化;(4)国际环境变化影响:国际贸易摩擦加剧,美国不断对中国科技施压,对于海外收入占比较高公司可能形成影响。
作为全球多模态技术相对领先的厂商,谷歌Veo、Gemini、Nanobanana等系列模型在超长上下文理解与原生音视频融合领域确立了深厚壁垒,国内快手可灵、MiniMax海螺、阿里通义万相及智谱等头部玩家亦通过架构和技术革新,重点解决了视频生成中长期存在的角色一致性失控、物理逻辑崩坏以及分镜不可控等工业化生产难题,加速促进多模态技术商业化变革:
海螺AI:MiniMax10月28日更新的Hailuo2.3系列模型重点聚焦物理稳定性与全模态协作,解决了大动态运镜下的物理崩坏问题,大规模运动指令下对光影方向、明暗过渡及物理碰撞逻辑的模拟已接近实拍质感,尤其在复杂肢体动作如精细抓取与手指交叉方面展现了极高的稳定性。海螺Media Agent则进一步将视频、语音及语言模型封装为统一的智能体,支持在无限画布中通过自然语言协作。用户仅需输入简单的商业创意,Agent即可自主完成脚本生成、视频渲染与音效配置。
可灵AI:快手可灵12月1日发布的o1是行业内首个将多种创作任务整合进统一引擎的视频大模型。该模型基于多模态视觉语言理念,将参考图生视频、内容增删、风格重绘等功能融合,解决了过去创作中功能割裂的问题。根据快手内部测试数据,可灵o1在图片参考任务中的胜负比达到247%,在指令变换任务中的胜负比达到230%,在理解复杂创作意图方面表现突出。可灵视频2.6模型则进一步强化了音频同步与动作控制能力,支持在生成视频的同时直出自然语言对话与音效,并具备针对手势、表情及肢体动作的精细化驱动。据实测,可灵2.6支持长达30秒的复杂武打动作控制,且在生成过程中可维持音色的一致性,使得视频生成可控性进一步增强。
阿里通义万相:阿里于2025年12月26日正式发布通义万相2.6系列模型,通过多模态联合建模技术,实现了国内首个商业化角色扮演功能。具体而言,万相2.6通过提取参考视频中的主体情绪、姿态及声学特征,在生成阶段作为约束条件,确保了角色在不同镜头间的一致性,解决了影视创作中IP形象易闪烁的痛点。在叙事控制方面,万相2.6引入了专业的分镜控制公式,能够理解高层语义逻辑,将文本自动拆解为远景环境、中景动作与近景特写等专业镜头组合。目前,万相2.6支持单次生成15秒的高清视频,为国内当前公开测试的最高指标,其对镜头节奏与画面氛围的高一致性建模,为专业导演提供了可量产的数字生产工具。
智谱:2026年1月14日,智谱AI联合华为发布的GLM-Image,成为首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,验证了国产昇腾芯片与昇思框架在大模型训练中的可靠性。技术方面,GLM-Image模型采用自回归理解结合扩散解码的混合架构,兼顾了宏观逻辑理解与微观细节刻画,在处理知识密集型场景时表现优异,特别是在复杂的海报排版、带有数据信息的图表生成方面,解决了汉字渲染乱码的行业难题。此外,GLM-Image模型原生支持1024x1024至2048x2048的任意比例输出,且能理解具有推理性质的创作指令,API调用模式下生成一张图片仅需0.1元,极具性价比优势。
产业端,模型能力的突破已带动社区传播与商业化落地。快手可灵2.6“动作控制”功能驱动了以宠物跳舞为代表的现象级视频在全球范围内的爆火,不仅带动了C端用户的涌入,更直接转化为了订阅收入。根据晚点独家调研数据,可灵AI的月活跃用户数在2026年1月已突破1200万;截至2026年1月20日,可灵App端付费用户规模环比增长达350%,1月的日均收入较12月日均高出约 30%(2025 年 12 月可灵单月收入超过 2000 万美元)。从收入构成看,2025年可灵全年收入预计达1.4亿美元,其中专业生产者贡献了近70%的份额,这与快手一直以来瞄准P端(自媒体视频创作者、广告从业人员等)用户的战略相一致——即多模态AI工具已脱离娱乐属性,成为影视、广告等行业从业者的生产力标配,初步形成商业闭环。
AI漫剧则成为了继短剧之后视频生成应用的又一场景,字节跳动等头部平台正通过激进的激励政策推动AI内容精品化。以抖音短剧版权中心为例,其2025年12月16日推出了“漫剧创作激励计划”,对使用豆包大模型制作漫剧的机构提供15%的技术成本补贴;而后,抖音进一步加码漫剧创作激励,给予S+漫剧保底激励5000元/分,单部剧保底50万-75万,超头部作品最高分成达30000元/分;同时平台开放了番茄小说超过6万部优质IP库,并全额补贴改编费用。数据显示,2025 年 9 月红果短剧月活用户约 2.36 亿,超过了B 站和优酷,接近芒果TV;而从市场规模来看,短剧今年有望突破千亿,漫剧有望突破200亿,展现出巨大的潜力。从短剧的视频素材生成到完整漫剧生成,AI技术正催生全新的产业生态,逐步产生商业化价值。
展望未来,多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展,另一方面则向具备物理常识与逻辑推理的世界模型演进。前者强调AI能在一套框架下对各种模态进行统一处理;后者则意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么。
而在应用场景的延伸上,原生多模态和世界模型都将重塑多个行业的业务逻辑。例如在搜索与营销领域,最近正发生SEO到GEO的变化,未来可能进一步发展为
,不仅可以搜图,还可以直接获得AI实时生成的定制化视频作为回答;而在文娱板块,短剧、漫剧已呈现快速放量的趋势,小说IP+AI视频的组合能够加速IP影视化过程;游戏产业同样深受生成式AI影响,目前头部公司纷纷将AI应用于美术资产的辅助生产,未来在世界模型的加持下,实时游戏引擎也将成为可能,带来类“头号玩家”的元宇宙开放世界游戏体验。
风险分析:(1)AI产业商业化落地不及预期:目前各环节AI 产品的商业化模式尚处于探索阶段,如果各环节产品的推进节奏不及预期,或对相关企业业绩造成不利影响;(2)市场竞争风险:海外 AI 厂商凭借先发优势,以及较强的技术积累,在竞争中处于优势地位,如果国内 AI 厂商技术迭代不及预期,经营状况或将受到影响;同时,目前国内已有众多企业投入AI产品研发,后续可能存在同质化竞争风险,进而影响相关企业的收入;(3)政策风险:AI技术的发展直接受各国政策和监管影响。随着AI在各个领域的渗透,政府可能会进一步出台相应的监管政策以规范其发展。如果企业未能及时适应和遵守相关政策,可能面临相应处罚,甚至被迫调整业务策略。此外,政策的不确定性也可能导致企业战略规划和投资决策的错误,增加运营的不确定性;(4)地缘政治风险:在全球地缘政治环境的波动下,尤其美国对中国的出口限制或将直接影响国内企业算力芯片的获取,进而影响其产品研发和市场竞争力。同时,地缘政治风险也可能导致 AI 产品开拓海外市场面临障碍,影响相关企业的营收情况。
(MAS)演进,Anthropic Cowork与MiniMax Agent 2.0等产品深度打通本地工作流,推动AI从对话助手升级为具备长程规划能力的数字员工。垂直场景Agent同样加速渗透,商业情报、企业自动化等初创Agent企业的融资亦验证商业闭环。多模态领域,AI漫剧接棒短剧成为新增长极,字节跳动等平台通过高额激励推动内容精品化,AI加速IP影视化进程,有望催生新的市场机遇,重塑广告与游戏资产生产逻辑。
1)重视以阿里/字节为代表的国内互联网大厂Capex投资和生态圈玩家,包括国产芯片链企业、isv厂商,以及以大厂为主要客户的基础设施服务供应商等。2)Pre-AI 的收入率先落地。国内企业数据治理相对海外落后,AI 应用落地需要更多前期准备工作。3)部分细分垂直场景 AI 收入更快。4)本地推理逐步起量,利好服务和云厂商。5)推荐关注端侧AI和相关产业链。
风险分析:(1)宏观经济下行风险:计算机行业下游涉及千行百业,宏观经济下行压力下,行业IT支出不及预期将直接影响计算机行业需求;(2)应收账款坏账风险:计算机多数公司业务以项目制签单为主,需要通过验收后能够收到回款,下游客户付款周期拉长可能导致应收账款坏账增加,并可能进一步导致资产减值损失;(3)行业竞争加剧:计算机行业需求较为确定,但供给端竞争加剧或将导致行业格局发生变化;(4)国际环境变化影响:国际贸易摩擦加剧,美国不断对中国科技施压,对于海外收入占比较高公司可能形成影响。
证券研究报告名称:《周报26年第4期:Agent及多模态重塑软件和创作生态》
字节Seedance2.0视频模型发布,多模态模型能力跃升,有望革新影视赛道,持续看好AI漫剧:
1)漫剧是少有的被大模型替代风险小、行业高增的赛道。对比影视和游戏,大模型现已基本满足漫剧创作需求。漫剧制作公司是大模型公司的下游应用方,被大模型替代的风险小。
大,模型公司扶持行业发展。根据不同漫剧类型,AI漫剧每分钟消耗的token在50万到数百万不等,单部漫剧创作需要消耗过亿token。大模型公司对漫剧行业给予的各项倾斜和扶持,为行业带来战略机遇期。
3)平台竞争激烈,制作公司有利润空间。各家漫剧平台在漫剧分账、流量等扶持政策持续升级,看好AI漫剧制作公司利润空间增厚。
1)谷歌DeepMind:1月30日,谷歌DeepMind首次开放Genie3世界生成模型。用户通过文本指令生成可以交互的视频内容,目前最长可以生成1分钟的视频,且可以操作角色和镜头方向。结合谷歌、World Labs等AI团队的观点,世界模型短期有望重塑影视行业,利好AI漫剧和AI互动剧,长期有望重塑游戏行业。
2)字节跳动:2月视频生成模型Seedance 2.0在即梦平台上线可根据文本或图像创建电影级视频,支持根据描述的情节自动规划分镜和运镜,支持音画同步,支持多镜头叙事等复杂需求。Seedance 2.0会自动保持所有场景切换中角色、视觉风格和氛围的一致性,无需手动编辑,据官方表示,“非常适合创建从开头到高潮的完整叙事序列,并确保专业级的连贯性。”
风险分析:版权保护力度不及预期,知识产权未划分明确的风险,IP影响力下降风险,与IP或明星合作中断的风险,大众审美取向发生转变的风险,竞争加剧的风险,用户付费意愿低的风险,消费习惯难以改变的风险,关联公司治理风险,内容上线表现不及预期的风险,生成式AI技术发展不及预期的风险,产品研发难度大的风险,产品上线延期的风险,营销买量成本上升风险,人才流失的风险,人力成本上升的风险,政策监管的风险,商业化能力不及预期的风险。
证券研究报告名称:《AI漫剧:多模态模型能力跃升,行业迎来战略机遇期》
来自香港理工大学和腾讯ARC Lab的研究团队提出了首个统一的像素级多模态大模型——UniPixel。只需UniPixel一个模型,就能完成目标指代(Referring)、像素级分割(Segmentation)与区域推理(Reasoning)三大任务,兼具灵活性、精确性与可扩展性。该模型首次实现了视频理解与精确物体标注的统一,通过创新的对象记忆机制和多模态提示编码,支持用户通过点击、框选等自然交互方式获取细粒度视觉信息,并生成时空对齐的分割掩码与语言回答。
UniPixel 基于 Qwen2.5-VL 模型构建,支持图像与视频输入,并整合三大核心模块实现端到端多任务处理:
多模态提示编码器支持点、框、掩码三种视觉提示的统一编码,将空间坐标、时间位置及提示类型融合为高维向量,并与视觉 Token 对齐。例如,用户在视频第 5 秒点击某物体,系统可自动解析该点的时空信息并生成特征向量。对象记忆机制(Object Memory Bank)动态存储用户指定的目标区域,通过 “记忆预填充” 和 “记忆注入” 机制实现多轮交互中的上下文感知。当用户首次框选目标时,系统生成唯一标识符并记录其时空特征;后续对话中只需引用该标识符,即可快速激活对应区域的特征进行推理。SAM 2.1 掩码解码器采用 Segment Anything Model 2.1 作为底层分割工具,结合时空信息生成高精度掩码。在视频场景中,该模块可自动处理物体运动与变形,确保多帧标注的一致性。
为实现最大程度的自由交互,UniPixel设计了Prompt Encoder模块对三类视觉提示进行统一编码。无论是点、框,还是掩码,均可被统一编码为同一空间中的高维向量。这一编码方式融合了空间坐标、时间位置、提示类型等信息,并借助编码投影层与视觉Token进行对齐。
在训练流程上,UniPixel采用了模块化、分阶段的训练策略。基础阶段:通过 85 万区域描述数据学习视觉提示理解,如点击与物体的对应关系;协同阶段:利用 8.7 万指代表达分割数据训练语言与分割的对齐;综合阶段:在多任务数据上联合优化,涵盖物体指代、视频问答等复杂场景。这些数据为模型提供了统一、多样的训练环境,提升了其在不同任务设置下的适应能力。
仅 3B 参数的 UniPixel-3B 在多项任务中超越 72B 传统模型,基准测试全面领先。分割任务:在 ReVOS(62.1 J&F)、MeViS(68.3 J&F)等数据集上超越现有模型,尤其在视频动态物体分割中优势显著。指代理解:在 Ref-YouTube-VOS(73.5 J&F)、RefCOCOg(85.2% 准确率)等任务中表现最优。综合推理:在新提出的 PixelQA 任务中,UniPixel-3B 以 58.7% 的准确率超越 72B 模型(41.2%),展现出跨模态推理的深度整合能力。
风险分析:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;公司生产和交付延期,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。
证券研究报告名称:《多模态大模型首次实现像素级推理,UniPixel发布》