文生视频让自动驾驶看到新方向

本文转自：广州日报

港科大（广州）人工智能专家陈颖聪：

文生视频让自动驾驶看到新方向

来源：视觉中国

陈颖聪

近年来，生成式人工智能在AI技术应用中成为焦点，尤其是文本生成视频大模型Sora，近来更是在全球范围内激发了科技创新的热潮。香港科技大学（广州）人工智能学领域助理教授兼博士生导师陈颖聪教授，作为计算机视觉与机器学习学域的资深研究者，对文本生成视频技术的最新发展保持着高度关注。近日，这位人工智能领域专家在接受本报记者专访时分享了他对Sora大模型以及文本生成视频技术前景的洞见。

文、图/广州日报全媒体记者肖欢欢、张慧琪（除署名外）

以海量数据“试错” Sora向“世界模型”迈进

陈颖聪教授认为，Sora最引人注目的特质之一，是其作为一个初步的“世界模型”或“世界模拟器”的潜能。“这意味着，Sora仿佛通过观察整个世界从而对它形成了自己的理解，并能据此预测未来世界的某些发展趋势。”例如，当一个孩子看到球落地后会弹起，尽管他可能不理解物理学中的弹力概念，但这并不妨碍他预测球下一次落地时还会弹起；同理，Sora通过分析至少数十亿张图片和上百万段视频数据，能够预测出一个球落地时的反弹高度甚至是反弹次数。“这背后的神经网络隐含了客观世界的运作规则。它展现了理解、重构及模拟这个世界的可能性。”

陈颖聪教授指出，长期以来，机器与真实世界的互动成本极高，科学家们因此希望在虚拟世界中构建一个遵循现实世界物理规则的模型，以便于机器进行“试错”。而Sora的研究方向赋予了实现这一目标的希望。“通过‘观察’大量数据，Sora学会了现实世界运作的基础规律。它必须在有限的神经网络容量限制下对海量的图像与视频进行复现，这一过程中，Sora必须将其观察到的数据进行高效压缩。通过其展示视频的三维一致性与时序合理性，我们有理由相信，那庞大的神经网络已经理解了客观世界的一些物理规律，未来仍需深入研究。”

陈颖聪教授表示，虽然Sora目前还不能精确模拟出真实世界中更复杂的因果关系，但它为生成式AI成为“世界模拟器”提供了一条非常有潜力的路径。通过学习如何合理生成视频，Sora揭示了其背后的客观规律，这种方法与传统的先编码后渲染模型的做法截然不同，未来有望从根本上颠覆人类研究和理解世界的范式。

Sora或可预测“短期未来” 有望提升自动驾驶安全性

自Sora面世以来，其在广泛的应用领域展现出的潜力让众多业界人士感到惊讶。陈颖聪教授认为，文生视频技术不仅能够直接应用于视频和动画制作、广告、游戏等与视频生成紧密相关的领域，还能为人工智能相关的许多领域带来革新性的思考。

“尽管Sora在理解物理规律方面仍有待完善，但作为一个‘世界模型’的原型，它预示着通用人工智能（AGI）发展的重大进步。”陈颖聪教授指出，文本生成视频技术除了将对视频编辑与生成相关应用造成直接影响外，也将为人工智能其它领域带来广泛影响。“比如与自动驾驶的结合，AI不仅能够在短时间内帮助自动驾驶模型掌握复杂场景下的应对策略，还有望解决自动驾驶领域面临的一些难题，为行业注入新活力。”

他表示：“目前自动驾驶技术发展受制于一个关键问题：现有自动驾驶模型主要基于车辆当前的感知结果来决定下一步动作，缺乏对未来复杂路况的有效预测，进而限制了系统提前预判未来情况的能力。”而Sora所具备的生成连续、合理视频序列的能力，展现了其在短期未来预测方面的潜力。若能有效利用这一特性，自动驾驶系统将能更加准确地进行预判性行为，显著提升车辆的安全性能。

“想象一下，假如AI能看到一分钟后的不同可能的未来，这将使其在应对复杂的驾驶环境时能够做出最优选择。这对于提升未来自动驾驶的安全性将是一个质的飞跃。而安全性无疑是自动驾驶技术发展的最大挑战。”陈颖聪教授如是说。

他指出，Sora还能在解决自动驾驶技术中的长尾问题上发挥作用。所谓长尾问题，指的是一系列罕见的场景、极端情况以及难以预测的人类行为。目前，该领域的人工智能技术主要通过收集实际道路数据来训练模型。然而，由于极端情况在现实道路中出现的频率极低，导致数据的多样性和完整性受到限制，进而影响了模型的泛化能力和准确性。而Sora通过优化和训练，可以生成近乎真实的仿真数据，这不仅为自动驾驶模型的快速优化和迭代提供了可能，还能够主动生成长尾问题场景的数据，提高算法的可靠性，为自动驾驶技术的进一步优化和升级提供坚实保障。

从视频到3D资产生成式AI前景不可限量

陈颖聪教授表示，Sora是生成式AI的典型代表。而生成式AI是这些年AI技术的应用热门方向，他和团队正在进行的一个重要研究就是文本生成3D模型。“文本生成3D模型之所以成为生成式AI行业的热门话题，主要原因是它在各个领域的广泛应用，比如可与3D资产生成结合，有望提升3D资产生成的质量与多样性。”

陈颖聪教授介绍，数字3D资产可以实现全面的可视化以及与反映我们现实世界体验的复杂环境和对象的交互。“过去设计师从概念提出到三维建模的完成，需要30小时~200小时；而生成式AI非常有潜力将这件事情缩短到一天甚至数小时。以Sora为代表的文生视频模型，未来有望进一步提升3D资产生成的质量。”

陈颖聪教授介绍，人工智能生成三维数据存在诸多难题。难题之一是可学习的三维数据量小且不满足多样性要求。为解决这一问题，很多学者从二维图像中学习并生成三维数据。经过持续改良，陈颖聪教授团队搭建出的模型生成的3D模型分辨率更高，渲染效果更好，生成效率也有了显著提升。并且，生成3D模型的渲染方式与传统计算机图形学有非常紧密的关系，且其生成结果可以直接在标准的图像软件中进行查看，而生成的3D模型可以直接用于工业和设计用途。

陈颖聪教授告诉记者，如今他和团队研发的文本生成3D模型技术可用于游戏开发、建筑设计、电影和动画制作、工业制造等领域。比如在建筑设计领域，建筑设计师可以使用三维生成技术更快速地创建建筑模型和可视化效果图，提高工作效率和精确性；在电影和动画制作领域，可以使用三维生成技术创建逼真的三维场景和角色，并实现复杂的视觉效果；在虚拟现实（VR）领域，可以使用三维生成技术创建逼真的虚拟世界和角色，提高虚拟现实的真实感和沉浸感；在工业制造领域，制造商可以使用三维生成技术更快速地创建零部件和模具，提高生产效率，降低制造成本。

陈颖聪教授展望，随着Sora这类文本生成视频模型的崛起，未来3D资产的生成质量有望得到进一步提升。“目前由Sora生成的视频已展现出卓越的三维一致性，我们团队正致力于研究如何利用这一特性，更加精准地创造复杂的三维场景。”

文生视频让自动驾驶看到新方向

发表评论

评论列表(0)

联系我们

微信扫一扫关注我们

手机扫一扫打开网站

给这篇文章的作者打赏

相关推荐

发表评论

评论列表(0)

联系我们

微信扫一扫关注我们

手机扫一扫打开网站