第A07版:焦点 上一版 下一版  

文生视频刷屏 影响有多大?

OpenAI官网上Sora生成的首个视频全景画面截图

N新京报 澎湃新闻

“现实不存在了,彻底端掉行业饭碗”?OpenAI首个视频生成模型Sora发布,一夜之间刷屏朋友圈。据OpenAI官网,Sora模型能根据提示词,生成长达1分钟的高清视频。因其“逼真”和“富有想象力”被广泛赞誉,也颠覆了传统视频生成领域平均只有4秒的视频生成长度。

这比横空出世的ChatGPT(OpenAI研发的一款聊天机器人程序)更令人震惊。虽然Sora模型尚未面向公众开放,但是已经有人感叹:视频生产颠覆性革命来了……那么,Sora能做什么,牛在什么地方,会带来什么挑战?Sora生成的视频合理吗?事情真的这么简单吗?记者进行了相关调查。

焦点1

Sora能做什么?

“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。”

OpenAI在官网陆续公布了几十段长短不一的视频,均根据文字提示生成。这是第一段视频的文字提示,Sora根据提示生成的一分钟视频在网上广为流传,可以视为Sora的代表作,其展示的信息量极大,从主要人物到背景人物,从远处的街景到地面,看起来十分逼真,镜头切换也非常流畅自然。

从这张全景画面截图,可以看到和主人公同时走动的路人,湿漉漉的地面,眼花缭乱的霓虹灯和招牌。再看后面几个特写镜头:女主脸上斑点、脖纹清晰可见,显得非常真实,还有墨镜里反射的街景,这些细节都没放过。

据OpenAI发布的信息,Sora主要功能包括:根据文字提示生成视频;静态图片生成视频;对视频进行填充和扩充等。显然,上述功能均并非Sora首创,很多其他工具可以不同程度实现。不过,其生成效果并不能令人满意,并且很容易出现错误。而此次,Sora则将生成视频的质量提升了一大步。

总之,Sora的AI视频效果,几乎和人工拍摄不相上下。也因此,虽不是从0到1的原始创新,却已足够令人震惊。

马斯克在X上两次转发网友评论时写到“AI增强的人类将创造出最好的作品”“人类认赌服输”。而360集团创始人、董事长周鸿祎日前也在微博发文表示,这意味着AGI实现将从10年缩短到1年。

焦点2

Sora牛在什么地方?

这些看上去足可以假乱真的视频,Sora是怎么做到的?

根据OpenAI官方介绍,用户可以通过使用自然语言提示词(Prompt),生成长达1分钟的视频。Sora模型对语言有深刻的理解,因而能够准确地理解提示词,并生成令人信服的人物,而且可以在一个生成的视频中创建多个镜头,在这些镜头中准确地保持角色和视觉风格的一致性。

在360创始人周鸿祎看来,Sora只是小试牛刀,它展现的不仅仅是一个视频制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。他认为,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。

中央民族大学新闻与传播学院教授郭全中在接受记者采访时说,相比ChatGPT,Sora有了质的飞跃:一是Sora具备推理能力,人类长期以来孜孜以求的AGI(通用人工智能)成为可能;二是在当今视频时代,Sora作为图生视频的利器将助力传媒业降本增效,极大地扩大能力范围和能力边界,给传媒业带来的影响远远超过ChatGPT。

中国人民大学吴玉章讲席教授、国家发展与战略研究院研究员刘永谋在新京报评论撰文认为,Sora的AI视频效果,几乎和人工拍摄不相上下。他预测,未来,各种不同用途的Sora短视频,或许会很快充斥各种视频社交平台,其对现实的影响与改变,不可不谓之巨大。

从业界到学界,几乎是异口同声认为,Sora将会深度改变视频相关领域,从影视、传媒到社交平台,内容生产将会发生巨变。

焦点3

Sora是“通用世界模型”吗?

为何Sora能够在视频生成的质量上明显领先同业产品?OpenAI在官方网站上表示,Sora是能够理解和模拟现实世界的模型基础,相信这一能力将是实现通用人工智能的重要里程碑。不过,Sora还存在很多不完善之处,仍然处于世界模型研究应用的初期阶段。

OpenAI在官网表示,目前Sora模型也有弱点:它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。同时,该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。

而什么是世界模型?记者了解到,实际上runway公司在去年12月就提出过要开发通用世界模型(General World Model),用其旗下的Gen-2模型来模拟整个世界,“我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作”。

从效果上看,目前OpenAI已经通过Sora部分做到了这一点,因为只有理解物理世界的运行法则,文生视频模型才能创造出更加逼真的视频。英伟达高级科学家Jim Fan就对此表示,Sora是一个数据驱动的物理引擎,“它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、直观的物理、长期推理和语义理解”。而理解现实世界的物理法则,也正是通往通用人工智能这一“终极目标”的必经之路。

焦点4

Sora带来哪些挑战?

至于Sora的出现,可能导致大量的影视等相关行业从业者失业,更是不可忽视的重大社会风险。其实,关于AI大规模应用可能引发的失业问题,已经有汗牛充栋的深入研究,也提出了很多应对方案,包括延缓AI技术的应用速度、帮助再就业、征收AI税等。现在,Sora一夜刷屏提醒我们,要将这些措施稳步细化实施,而不能再仅仅停留在“刷屏”上了。

去年,针对ChatGPT,就有学者指出,人工智能快速发展,令我国基础教育优势荡然无存。只掌握知识,而缺乏运用知识解决问题的能力,没有创新精神与创新能力,将难以应对人工智能快速发展的挑战。

舆论普遍预测,人工智能会带来未来职业格局的颠覆性变化。为此,仅调整学校办学,新增专业、课程的思维是行不通的。因为,这也跟不上社会变化的速度。

能适应社会变化的,唯有转变重视知识教育的传统模式,教育应从让学生学会知识转变到学会学习,学会创新、创造,这就必须扭转知识化、应试化的功利教育倾向。

也就是说,如果不推进破除基础教育存在的功利化、短视化问题,AI+教育等技术变革,也难以带来人才培养模式的创新,更遑论提高人才自主培养质量,造就拔尖创新人才。

而对于传媒从业者来说,则有两大挑战值得思考:一就是对视频内容生产的颠覆,或导致大量人员失业;二就是对新闻传播伦理的挑战,模糊了真实与虚拟的边界。

刘永谋认为,当前的短视频时代,Sora既然可与人工媲美,制造短视频的专门团队可能就面临下岗危险。要知道,短视频的摄影、导演、剪辑等任务,Sora“一个人”费点电就全包了。

郭全中也认为,Sora的出现,会导致视频生产门槛大大降低,新闻伦理肯定会受到很大冲击。

焦点5

Sora横空出世

哪些公司有布局?

浙商证券认为,短期内,Sora及同类产品可大幅提升图像和短视频的制作效率,改变创意生产及营销工作流,提升短视频产品生产力,对于业态更加复杂的长视频和游戏,受限于模型目前还无法很好理解因果关系和其他技术难点,现阶段或以提供美术灵感支持为主。

据不完全统计,有十多家A股上市公司之前已经布局多模态大模型或对AI视频的相关研发。

海康威视(002415)在去年4月20日回复投资者提问时披露,公司从几年前就开始研发视觉大模型,现在已经到了多模态大模型的研发阶段,包括视觉、语音、文本等多模态信号的融合训练及处理。

大华股份(002236)于2023年10月发布“星汉大模型”,该模型融合点云、语音、图像等输入,构建了多模态融合的行业视觉大模型。

万兴科技(300624)此前发布音视频多媒体大模型万兴“天幕”。据了解,万兴“天幕”是一个以音视频生成式AI技术为基础的多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,聚焦数字创意垂类创作场景。

博汇科技(688004)、易点天下(301171)、数码视讯(300079)、汉王科技(002362)、当虹科技(688039)、东方国信(300166)、神思电子(300479)、因赛集团(300781)、拓尔思(300229)、国脉文化(600640)、佳都科技(600728)等上市公司也布局相关视频研发领域。

版权所有 ©2023 福建日报 fjdaily.com 闽ICP备15008128号
中国互联网举报中心