“文生视频”技术会否取代人类？

OpenAI推出全球首款文本驱动视频生成模型Sora，在国内外引发强烈反响

N海都记者周婉怡

澎湃新闻

近日，OpenAI推出全球首款文本驱动视频生成模型Sora，短短一周内就在国内外影视行业引发强烈反响。Sora模型是一个用于视频生成和文本到视频转换的神经网络模型。它可以接受文本描述作为输入，并生成相应的视频内容。这使得Sora模型可以用于创建视频内容，如动画、电影、视频游戏等，或者将文本想法转换为可视化的视频形式，用户只需输入一段文字描述或剧本内容，就能自动生成相应的动态视觉画面。那么这个模型的出现，未来对行业的影响有多大？会不会引发失业潮？

特效行业要减员增效了吗？

记者观看了一段由“Sora”根据“一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志……”这一文本描述生成的视频，不仅镜头运用灵活，画面切换流畅，而且随着人物的走动光影反射符合基本物理现象，画面效果宛如人工拍摄一般。

Sora发布文生视频后，阳光学院元宇宙与新媒体学院院长池灵达教授也从专业角度肯定了Sora的优点，根据当前网络上公开发布的样本，Sora所生成的视频质量已经达到了中等层次的专业标准。他指出，在实际的教学和创作过程中，即便是经验丰富的专业人员进行实拍时，也难免会遇到诸如曝光不足、对焦不精准等技术性问题。从基本的技术指标评估来看，Sora解决这些问题的表现已相当令人满意。

因此有不少网友感叹：“特效行业要减员增效了。”事实真的是这样吗？池灵达教授对此并不认同，他指出Sora生成的内容可能尚无法实现某些更为精细化和艺术化的处理效果，在后期制作阶段需要进一步加以润色和完善，这些由AI自动生成的视频才能具备实际应用的价值。

工银瑞信基金研究人员也表示，目前AI生成视频的水平还有待提升，可能更适合做对视频质量要求低的互联网广告素材，如游戏买量素材等。由于Sora基本处于闭源状态，技术细节并未公布，相比于GPT有较多开源模型而言，国内视频生成模型方面尚有差距，利好有idea但落地较慢的动画电影公司、IP公司以及能够降本增效的游戏行业。

AI生成视频的差距在何处？

中欧中证全指软件开发指数拟任基金经理宋巍巍表示，Sora发布将会从两个维度对行业产生促进效应。其一，一个可以有真实物理定律孪生的数字时代已经开启，最先是图像和视频的内容制作被逐渐替代，后续MR/AR的数字内容制作也可能通过AI大模型来完成。未来视频制作或将进入平权时代，人人可以低成本制作视频。其二，大模型对物理世界的模拟会对具身智能（机器人或智能系统）带来巨大的影响和突破。可能未来一段时间内，自动驾驶领域有望出现较大的突破。

那么，AI生成视频的差距在何处呢？池灵达教授表示，在广播电视编导专业教育中，传统的学习内容包括复杂的拍摄技巧和精细的后期制作技能。随着AIGC的应用和发展，未来在技术执行层面的操作将变得相对简化，这并不意味着从业人员的工作价值会被削弱，相反，它强调了对于艺术审美、创意构思以及剧本编排等更高层次能力的要求将会更加突出。因此，目前阶段，这项技术AI尚无法完全取代人类的专业工作。

池灵达教授认为，总体而言，在当前的AIGC（AI Generated Content）技术发展阶段，内容生成能力确实已经取得了显著进步，特别是在创建各类文本、图像或视频等素材时，系统可以根据用户给出的基本描述来生成相应的内容。然而，要实现精准定制化的内容创作还存在一定的局限性。举例来说，让AI生成一个特定情节中的人物及其行为相对容易，但若要求所生成的人物形象精确到像某一位明星，这便对模型的数据训练提出了极高要求。池灵达教授强调，随着AIGC技术的发展趋势，在高校的教学过程中应当重视培养学生们运用此类人工智能技术来创新内容创作的能力。

“文生视频”技术会否取代人类？

“文生视频”技术会否取代人类？

女子误信“土方” 竟用农药抹湿疹