B体育近日Open AI的新作——Sora引起视频行业热议。作为首个文生视频模型,使用Sora可以用文字指令生成长达1分钟的高清视频。根据Open AI官网发布的48个视频demo来看,视频可以具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景,还能在同一场景生成多机位视频。
得益于其背后大量的数据、灵活的编码、优质的标注和Transformer+diffusion的架构,Sora不仅能将用户的文字需求一一还原,还能分拆出不同的元素,将其转换为有具体创意构思的视频内容,并能很好地把握现实世界中的物理规律,使视频真实感增加。如此顺滑的操作,完全可以媲美专业导演B体育、摄像和剪辑的作品。
AI 的进化速度之快不免让人感叹B体育。仅仅14个月的间隙,生成式AI的手已经从OPEN AI推出的 聊天式ChatGPT延伸至了视频领域。而如今Sora 生成的视频已经让所有人开始模糊现实和虚拟的界限,不难想象,AI将为今后的视频制作带来怎样翻天覆地的变化。
对此,马斯克针对推特网友转发的Sora演示视频,配文声称“gg Pixar”(pixar是迪士尼旗下的动画工作室),马斯克在推文下方留言表示,“gg humans”。示意视频行业的人员和公司将面临职业危机。
然而不少行业人士却持不同看法,他们认为Sora作为视频制作辅助器,将辅助创作人带来更颠覆性的创意作品,而不是代替他们。他们认为“与大多数类型AI创作不同,生成式艺术不会抑制人类的精神”。
马斯克随后针对该推文也作出回应,“由人工智能增强的人类,将会在未来几年之内创作出最杰出的作品”。
不管是代替还是辅助,封面新闻认为,从长远角度来看,Sora都将颠覆性改变视频行业以往的运作规则,带来别样的效果。
为在AI领域不掉队,不少AGI同行都放起了大招。在Sora发布的同一天,谷歌发布了新一代多模态大模型 Gemini 1.5 Pro,在AI大模型之战中加快速度。据Alphabet 与 Google 公司首席执行官孙达尔・皮柴(Sundar Pichai)透露,这是业界迄今最强的大语言模型,可以处理 128000 个 token 的标准情境窗口,但仅限特定开发人员和企业客户使用的版本可以处理多达 100 万个 token。
谷歌表示:“1.5 Pro 可以一次性处理大量信息,包括 1 小时的视频、11 小时的音频、超过 3 万行代码的代码库或超过 70 万字的文字。在我们的研究中,还成功测试了多达 1000 万个标记。”
这个被设计为一个本地化系统的聊天机器人,解决了用户需上网使用的局限性,让用户在无网状态下也可以使用,且所有具有至少 8 GB 显存的 GeForce RTX 30 和 40 GPU 都支持该应用程序。
而在国内,OPPO、vivo等手机厂商都在23年底相继发布了手机AI大模型,通过多层技术迭代,实现AI在移动端领域的普惠。
2月20日B体育, OPPO 官宣其最新AI 战略,分享了新一代 AI 手机的四大能力特征,展望了由AI驱动的手机全栈革新和生态重构的趋势,并发布由OPPO AI 超级智能体和 AI Pro 智能体开发平台组成的OPPO 1+N 智能体生态战略,旨在为用户带来更高效、自在的下一代 AI 体验。
此外,OPPO还联合IDC共同发布行业首个《AI手机白皮书》,带来OPPO在AI手机时代的前瞻性思考,加速手机行业迈向AI的全新阶段。
不管是视频生成领域的突破,还是聊天式AI大模型的迅速迭代,在如今的2024年,生成式AI的发展正在经历世纪性转变。
为了能在这一新型智能领域夺得一席之地,各大科技公司不惜花费大量精力,只为能更早地踏上智能革命时期的这艘诺亚方舟。
OpenAI自聊天大模型展开AI世界后,如今又转战了视频领域,并用文字生成已经视频长度的加长和多视角来甩开还在钻研画质的竞争对手一整条街。
英伟达则是在便利性上发力,研究出无网状态下的AI聊天大模型,实现AI服务层面的另一技术突破。
在国内,不少厂商则瞄准了手机行业和用户体验,通过打造更智能化的AI手机来共同推动手机行业的革新B体育,重塑手机的智慧体验。
各大厂商深耕AI发展的不同方向,在AI领域竞争的环境中,同时又促成激励式的共同进步B体育。
封面新闻相信,这将是AI的开放式发展元年,通过不同方向的技术迭代,生成式AI注定开放出一个个绚烂的花朵。