字节跳动不能输掉的一场仗
事情大家都知道了:字节跳动终于发布了自家的“Sora”。
9月24日的深圳AI创新巡展上,火山引擎发布两款视频生成大模型PixelDance和Seaweed(海草),并且面向企业市场开启邀测。
这是一次毫无预警的发布。除了少数进入到内测环节的创作者,字节没有发布任何有关新产品的消息。
尽管低调,但市场对字节系sora仍有着巨大期待。年初,OpenAI的Sora几乎是一脚踢开了多模态、视频生成的大门。之后,6月快手可灵的爆火出圈,彻底点燃了这个赛道。
作为短视频巨头的字节,从去年ChatGPT发布后,就背负了巨大期待。从已有条件上看,字节几乎是大厂中,先天优势最足的一家:有钱、有芯片、人才密度也足够大。
类Sora赛道,也早已被市场公认为是字节、快手的“天选场景”——短视频巨头不仅有巨量数据,也有足够丰富的应用场景。
字节版“Sora”,可以摘掉Sora的帽子吗?
从效果上看,两款模型初步可以实现的的效果,无疑令人惊艳。
字节官方给出的实例中,无论是统一性、角色丰富度,都上了一个台阶。
由文字或图像生成的AI视频,不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。
值得关注的,一是多帧视频的连续性。
此前,视频生成模型大多只能完成简单指令,比如某个人/某个物体,完成单个动作。一旦有比较复杂的动线,视频就容易失真、变形。
现在的豆包AI视频生成模型,则可以实现自然连贯的动作,在奔跑、走路、抬头等等上面,连贯性和效果都好了不少。简单来说,不会看着看着,就突然从史密斯吃面,变成特朗普吃面。
二是角色的丰富度。豆包这次发布的AI模型,优势尤为突出的是多主体间的互动。
在不少实例中,都可以看到多个角色之间的互动,动作连贯合理,镜头类型也十分丰富,包含了多种类型的镜头调度方式——远景和近景的切换。镜头也能实现变焦、环绕、平摇、缩放、目标跟随等多种形式的变化。
在切换前后,人物样貌、服装细节甚至头饰也都可以保持一致。
下面这则视频,就从前面戴潜水墨镜的人,切换到后方另一位潜水员,两者的形象也都保持了一致。
目前,PixelDance和Seaweed(海草)模型都正在内测版小范围测试,还未完全开放公测。但《智能涌现》通过内测风景、人物等等场景,即梦AI在实时生成风景视频上,镜头的调度、画面质量上,都可圈可点。
不过,在人物生成场景里,输入原图+指定的动作Prompt后,随着动作改变,一致性还是相当可以,但会有部分手指变形的Bug,
豆包本次的AI模型基于自研的DiT架构打造,这也被认为是OpenAI Sora的同款架构,是目前AI视频赛道上的主流技术路线。
不过,AI视频生成赛道的发展阶段比文字、图像都还要更早。如今的底层算法以闭源为主,数据极其稀缺——意味着各家都只能闭门造车,拼的就是工程优化能力。
火山引擎总裁谭待也表示,即梦AI等业务场景,已经对Transformer结构进行深度优化,而在DiT架构的研究上也有多款创新,才能大幅解决AI视频应用成本昂贵的问题,让应用成本降到*。
但也有AI视频领域的从业者保持冷静,认为不用抱有太高期待。“现在底层的大模型没有代差,拉不开太大差距。”
AI博主归藏,就把豆包和AI视频老大哥Runway,以及明星初创Luma AI的生成效果,做了直观对比——
从功能上看,此次字节发布的Seaweed模型产品功能和体验更多元,不仅支持各种风格提示词响应,还有横竖多种比例的输出。
“综合结果比Luma要好很多,跟Runway各有优劣。”归藏在即刻上表示。
无论如何,字节的雄心壮志已经摆在了桌上。除了两款AI视频新模型,本次字节还发布了新的豆包音乐模型和同声传译模型,以及音乐模型。对创作者而言,豆包的大模型家族真正成为了”全家桶“:覆盖语言、语音、图像、视频等模态。
更值得关注的,是业务层面的迅猛增长。
近期的一张AI产品增长表现统计图,就颇令人玩味:单单是豆包App的MAU增长,就已经远远拉开了与其他产品的距离。
豆包爆发式的增长,更多来自此前的激进价格战。自5月以来,包括字节、阿里、腾讯等巨头,以及Deepseek等创业公司,展开了一场轰轰烈烈的降价。字节甚至把每千Token价格卷到了以”厘“为单位,迅速拉到了地板价。
现在,底层模型已经到了拼性能的阶段。火山引擎总裁谭待,这次就又提出了一个新指标:峰值TPM。“业内多家大模型目前最高仅支持300K甚至100K的TPM,难以承载企业生产环境流量。”他说。
TPM,可以看作是在在单位时间内,模型的数据吞吐量。豆包Pro支持800K的TPM——据谭待表示,比如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能座舱的TPM峰值为420K,某AI教育公司的TPM峰值会达到630K。这些场景,豆包Pro如今都可以满足。
随着豆包AI生成视频的发布,字节最后补上了AI视频的一块拼图。这和昨夜OpenAI突然发布的高级语音功能一起,一起形成了一种明喻:在模型层,大厂们已经武装到牙齿,大的细分赛道都有相应的模型——留给创业者的空间,又要再一次打个问号。
字节和快手的漫长对垒
在AI赛场上,字节对于胜利的渴望已经溢于言表。
剪映及其旗下的AI视频产品“即梦”,就由前抖音集团CEO、现剪映业务负责人张楠亲自带队。而为了尽快让此次的两款新模型上线,字节也抽调了不少人做工程。
字节跳动的焦虑,来自短视频战场上的老对手:快手。
2024年6月,文生视频模型“可灵”,就突然空降快手剪辑产品“快影”。
在行业苦等“中国版Sora”出现的当下,可灵的表现是亮眼的。
“现在视频生成很难做长的原因,一是成本高,二是前后一致性太难保证。”一名AI从业者告诉36氪,“但是可灵能生成2分钟视频,比Sora的天花板还高。”
更进一步,从镜头的连贯性和元素关系的逻辑性来看,不少业内人士都表示,可灵在中国类Sora产品中,效果是Top级别。
与彼时仍未开放的Sora,和小出圈的生数科技视频生成模型Vidu相比,快手对“老铁们”也可谓是慷慨和坦诚:立马开放公测,且免费。
与“众多工程师参与”的PixelDance和Seaweed不同,可灵团队的项目执行方式可谓是相当粗放和激进。
有媒体曾报道,可灵团队只有20余人,从立项到上线只花了3个月。可灵启动一个月后,就被上升为快手的战略级项目。快手高级副总裁、主站业务与社区科学线负责人盖坤常说的一句话是:公司的卡都给你们用,公司全力支持。
在豆包发布之前,可灵也提供截至9月19日,可灵已经迭代了9次,最新的1.5版本上线了Web端,有了更高清的画质、更符合物理规律的运动轨迹,支持更为复杂的镜头控制和可自定义的运动轨迹。
不少从业者对36氪判断,可灵的出圈,与快手丰富的视频数据积累密不可分。而能与之一战的,大概率只有拥有抖音的字节跳动。
然而在视频生成领域,字节对阵快手以来,碰到了罕见的败北。其实早在可灵发布前1个月,剪映就在AIGC产品“即梦”上线了AI视频生成功能。
但无论是关注度,还是用户口碑,即梦都不算一款成绩漂亮的产品。一名使用者评价:在效果一般的情况下,非会员生成视频超3秒竟然还要收费。
压力已经给到了字节。一位AI 3D领域生成的从业者就表示,AI视频生成公司给出的样例,一般都是尝试过输入多次Prompt,才得出来的Good Case。等之后全量上线,才能真正看到豆包在实用场景下的表现。
“一些明显可以感知的指标在于,长镜头时长什么时候可以超过1分钟,多分镜切换后时空一致性能不能保持,以及随着分辨率加大时,生成时间会不会跟随分辨率指数增长。”他表示。
对于当下的抖音和剪映业务体量而言,AI视频的应用成本依旧是高昂的。
一个最直观的问题在于,对于剪映这样一个月活已经超过3亿,专注在视频剪辑场景的应用,如何要在降低AI应用成本的同时,维持产品和效果的高水平,将是更难的挑战。
先发优势在AI模型层依然重要。目前,可灵、Vidu已经先行占据了视频生成领域的用户心智,作为后入者的字节,不得不加快步伐。
漫长的战役才刚刚开始。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
精彩阅读
-
字节跳动不能输掉的一场仗...
事情大家都知道了:字节跳动终于发布了自家的“Sora”。 9月24日的深圳AI创新巡展上... -
9月份车市持续火爆乘用车销量或冲高至210万辆...
经历前8个月的产销双增长后,汽车行业在9月份依然热度不减。 乘用车市场信息联席会最新数据... -
算力革新—“黔”力“沪”动8194;2024贵州省算力产业上海招商推...
为进一步促进贵州算力产业的繁荣发展,加强区域间的合作与交流,2024年7月18日,由贵州省... -
中国—越南跨境贸易边贸线上智汇结算项目启动...
9月25日,在广西南宁市举办的2024中国—东盟金融合作与发展大会上,中国农业银行广西壮族... -
康恒路站本周六开通,系上海地铁首个在既有运营线路上改建的地下车站...
9月25日,澎湃新闻记者从上海申通地铁获悉,近日,上海轨道交通11号线康恒路站顺利通过初期... -
国债资金支持设备更新项目总投资近8000亿元...
大规模设备更新行动,正激发我国各类设备更新需求不断释放。国家发展改革委9月24日召开专题新... -
TonyHemmelgarn:企业数字化转型需求促西门子的工业软件业...
“现在很多企业都在加速数字化转型,我们的业务也随着这种需求而增长。大家都需要软件服务,这是... -
沪苏浙皖工经联携手长三角高端制造及金融服务大会高峰论坛在沪举行...
作为第二十四届中国国际工业博览会的重要活动之一,由中国工业经济联合会作为指导单位,上海、江... -
金山宴“秋之宴”发布仪式暨金山区“金品金用”餐食产销对接活动举行...
9月23日下午,“尝金山宴,品金枫酒”金山宴“秋之宴”发布仪式暨金山区“金品金用”餐食产销... -
九典制药300705.SZ:洛索洛芬钠凝胶贴膏的增长逻辑主要是医院覆...
:洛索洛芬钠凝胶贴膏的增长逻辑主要是医院覆盖率的提升和市场需求的增长) 格隆汇9月24日... -
德邦科技跌2.89%2022年上市超募8.4亿东方投行保荐...
德邦科技今日收报28.26元,跌幅2.89%,总市值40.20亿元。目前该股处于破发状态。... -
南京银行北京分行积存金,请您来“花式攒金”!...
“最近金价波动大,我每天都刷金价动态,价位合适就买个一两克攒在积存金账户里,不到一个月已经... -
山东高职专科注册入学招生计划公布!9月25日可填报志愿...
24日,山东省教育招生考试院发布了《山东省2024年高职注册入学招生计划》。参加我省202... -
中国大豆产业协会卢林纲:今年又是丰收年,预计国产大豆总产将超2000...
21世纪经济报道记者李莎北京报道9月22日是我国第7个中国农民丰收节,今年丰收节以“学用‘... -
三天骑行上海近三百公里,这群风一般的车手今天冲向终点...
本周日,2024环上海·新城自行车赛在滴水湖畔迎来收官之战。 来自中国、法国、阿联酋、蒙...