半岛彩票作为第一生产力的科学技术,正带领人类进入全新的人工智能时代。生成式人工智能实现了重要突破,其在各个领域的应用必将给人类世界带来重大改变。影像工作者、研究者尤其关注它在文本、图像、视频生成等方面的运用。使用AI工具进行电影制作,在大大提高工作效率的同时,也在很大程度上改变了传统的影像生产流程和生产方式。文生视频大模型Sora的出现,更是给影视界带来了极大震撼。AI2.0时代,生成式人工智能作为工具,与人类创作思维交互会碰撞出怎样的火花,它的出现将给电影带来何种改变,是值得关注的问题。
周雯(以下简称周):2024年2月16日,OpenAI发布 了视频生成模型Sora,输入文本可生成 一分钟高清长 视频。Sora一 经发布就引起整个 影视行业的恐慌,认 为将对视觉创作领域带来巨大冲击。虽然OpenAI官 方放出的卖家秀视频并未达到1分钟时长,但“世界模 拟器”的生成机制还是引发了极大关注,并一骑绝尘 之前众多4秒短视频AI生成工具。后续OpenAI发布了 Sora技术报告,相关研究论文也不断发表,最近也有 一些测试号的“买家秀”视频放出。这个时候,我们 可以更理性客观地讨论人工智能视频生成,以及Sora这一重要发展节点。
现阶段的人工智能是基于大语言模型的突 围,其涌现和幻觉 的特性更适合较为宽容的艺术领 域,因此首先在艺术领域爆发。请问刘老师,基于 Transformer大语言模型的人工智能后续会如何发 展?
刘伟(以下简称刘):现在整个人工智能界都处于 比较高亢的状态。为什么高亢?因为看到了一丝曙 光。比如ChatGPT,大家切实感受到人工智能可以做 很多文本工作。 又比如用于视频创作的Sora,大家感 觉和以前不太一样,时长不一样,清晰度不一样。 但其实中美两国的科学家都认为,这还不是根本性的变 化。 为什么? 美国加州伯克利大学的学者罗素说,过 去的人工智能是现在的自动化,现在的人工智能是未 来的自动化。 所以,现在的人工智能还处于自动化状 态,这是它的技术底层。 现在人工智能软件系统的底 座都是transformer架构,但它是有缺陷的。 三年前, 我们翻译了一本书叫《代数大脑: 揭秘智能背后的逻 辑》。 它指出,多内层神经网络内部有两个函数,一 个叫线性函数,一个叫激活函数,这两个函数会造成 transformer架构出现瓶颈,这也是它造成幻觉的由 来——线性函数和激活函数相互作用产生了全程分配 的不均匀、不透明与不可解释性。 除了其自身缺陷外, 还有数据源、算法底座与“卡”的限制。 比如,现在 大语言模型或者多模态大模型的数据源基本上还是英 文,中文数据的语料库很少,大模型底座也主要由美 国等西方国家开发。 国内有人提出可以另辟蹊径,把 大模型的东西模块化,如推理、模型、算法等不同模块, 使用什么模型则调用什么模块,能较好地解决垂直领 域应用的问题。
周:2023年11月,谷歌DeepMind团队在一个3D 模拟环境中,用神经网络结合强化学习训练出了一个 智能体。 这个智能体从未使用任何预先收集的人类数 据训练,从零开始,学习周遭环境,以模仿开始,其 自我优化后甚至超越被模仿者,习得人类行为。 这也 很类似于人类间的文化传播。 因此,他们发表在《自 然通讯》(Nature Communications)上的研究论文的 题目就是《类文化传播的少样本模仿学习》( Learningfew-shot imitation as cultural transmission )。 请问 刘老师您怎么看待这种人工智能的发展路径?
刘:目前,有许多研究致力于开发这类能够从效 率和隐私角度,从与人类相仿的其他个体那里进行社 会化学习的AI智能体。 这样的智能体可以通过观察其 他个体执行任务来学习新技能,而无需大量的监督式 演示。 常用的一种方法是利用仿真环境,让AI智能体 观察虚拟角色执行任务。 这种虚拟仿真环境可以大大 降低学习成本,因为可以轻松生成大量的训练数据。 还有一种方法是利用互动式学习,让AI智能体与人类 或其他智能体进行交互,并从交互中学习新技能。 这 种方法可以模仿人类之间的社交学习过程,使智能体 能够更快地学习新技能。
这篇研究论文是对具身智能(指有身体并支持物 理交互的智能体)实现快速知识传播的一次概念验证, 也是向人类-AI互动的开放式交互学习迈出的第一步。 我想说的是,这种人机交互智能的方式还处在探索阶 段,基本上还属于“得形忘意”阶段,距离“得意忘形” 还比较远,究其因,涉及人类的情感、意识、认知能 否通过数学计算实现的底层问题,毕竟人类智能中除 了学习性以外,还有非学习性(指本能的、遗传的先验 能力); 除了客观显性的动作行为以外,还有主观隐性 的意图动机,所以机器的具身智能与人类的具身智能 还不能完全等价。 但这个研究在一定程度上为AI领 域和文化演化心理学之间的密切互动奠定了基础。
刘:是确定性与不确定性的叠加纠缠。在人与机 器的交互过程中,机器处理和运算数据的能力往往远 超过人类。 但是在面对复杂问题和环境时,人类的判 断和决策能力通常更准确和灵活。 确定性是指事物或 事件发生的结果是可以预测和确定的。 在机器中,确 定性往往由算法、逻辑和规则来驱动。 机器可以根据 已有的数据和先验知识,以一定的规则进行计算和判 断,并给出准确的结果。 然而,在复杂的现实世界中, 存在许多不确定性因素,如不完全的信息、不可预测 的环境变化、人类主观因素等。 不确定性是指事物或 事件发生的结果无法完全预测和确定。 在人类的决策 中,我们常常需要根据个人经验、直觉、情感和价值 观等因素来做出判断,这些主观因素往往是难以量化 和规则化的,也是机器难以模拟和理解的。 人类和机 器在解决不确定性与处理确定性的过程中是互为补充 的,通过结合人类的算计(谋算)和机器的计算能力,可以更好地应对复杂问题和不确定性的挑战。
周:《流浪地球2》里设置了智能量子计算机550, 还有图恒宇女儿图丫丫的数字生命,请问郭帆导演, 您是如何考虑这些人工智能相关设定的? 您对于人工 智能是怎么理解的?
郭帆(以下简称郭):拍摄《流浪地球2》的时候,我 们邀请中科院研究人员为顾问,一起思考人工智能的 发展。 这么做也是为了把《流浪地球》的世界观拓展开, 不再停留于宇宙的范畴。 拍摄《流浪地球2》是在2021 年,我预估像GPT这种级别的人工智能还需要七八年 才能出现,但其实在《流浪地球2》上映前一个月它就 出现了,真没想到如此之快。 我们还在《流浪地球2》 里设定了一个机器,就是550C自适应计算机,它可以 自主发现一些问题,以适应周围环境生成相对应的策 略,基于生成的策略再生成相对应的应用。 这本是我 们天马行空想出来的机器,却在浙大看到了类似的应 用。 我想这或许可以给予我们新的解题思路,避免创 作者陷入经验主义怪圈。 科幻跟科学之间有着巨大的 鸿沟,为了学习人工智能相关知识,我们参加了世界 人工智能大会,在国内考察了华为、小米、商汤等高 新技术公司,在国外考察了谷歌、Meta、苹果、英特 尔等高新技术公司,以及浙江大学、斯坦福大学等高 校的高新技术实验室。
但回归电影创作本身,我对技术的态度是“能用 才有意义”。 比如虚拟制片技术,经过证明,实操性 价比较低,最安全的方式还是回归到传统绿幕或者蓝 幕拍摄。 虽然虚拟拍摄LED屏企图打造的是实时、可 见即所得的状态,但背景特效也得提前做,与传统拍 摄需要花费的时间其实不相上下。 所以,我对能实际 用在创作和制作中的 AI工具更为关注。
周:您现在做《流浪地球3》的前期,会使用哪些 AI工具? 在哪些环节使用?
郭:对于前期的文字工作,语言模型如Claude3对 我们影视创作帮助很大。 Claude3比GPT4更趋于一种 “人”的状态,它甚至会对我提出的问题进行“先测试”。 比如问题提出后,它会先“糊弄”你一下,当你提醒 它说这个回答太糊弄时,它才会非常认真地回答你的 问题。 这可能是它节省算力的一种方式,但其实很类 似于人类社会中“领导-员工”的关系。 语言模型在文 字创作上能呈现很多发散性的思考,甚至帮助并不专 业的编剧去解决一些基础的数学、化学、物理层面的 计算,包括天体物理级别的计算。
我们现在把人工智能应用在电影生产上,是将基 础逻辑拆分开。 一个语言模型完整地编写一个剧本这 并不现实,但整个编剧工作流程可以分成若干块。 在 编剧开会的时候,录音与AI识别可以解析出每位与会 人员的发言,最终形成语料库。 在连续十天、每天十 小时的讨论后,AI识别可以“秒速”精准提炼每个人 的重要观点,避免人工查询的冗杂。 写剧本也是同样, 在Claude3语言模型的帮助下,我们基本上解放了双 手。 事实上,人工写剧本这件事需要耗费很大一部分 精力在遣词造句上,现在这样的工作可以交付AI来 完成,我们只需要在创意上花费更多的思考——传统 的剧本流程,从有想法到落成文字可能需要几个月到 几年不等,但现在只要你的故事思路完整、人物清晰、 逻辑健全,那么从落成文字,再到生成剧本格式,乃 至文学润色,最多一周就可以完成。 作为电影来讲, 剧本是需要转化成视听语言的,并不像小说那般注重 文学性,Claude3、GPT4等语言模型完全可以承担“将 事情讲清楚讲明白”的任务。 我认为这很好地保护了 我们的创作精力。
郭:是的,我们是试着将不同的人工智能应用分 摊到所有生产环节里面,哪怕很小的一个环节也可能 对应一个应用,最终形成应用组合,类似有扳手、螺 丝刀等不同工具的工具箱。 比如说剧本阶段会分切出 五六个分支环节,使用不同的应用,筹备的时候又会 分出若干个部门,同时部门中又分出几个环节,对应 不同应用,相互组合使用,帮助我们从传统的、价值 不高的工作中解放出来。
概念设定也是,在基本想出一段剧情之后,我们 马上就会用Runway、Stable Diffusion、Midjourney 生成视觉概念图,而且会有动态的概念视频。 使用逻 辑是,我们会先给出设定让Midjourney铺面,生成 1 000、2000张都可以,我们像看照片一样概览,然后 把与想法接近的图片选出来给Stable Diffusion进一步 深化。 此外,Runway能让概念图更有氛围,比如飘雪、下雨、闪电等动态氛围 型的效果可以很快呈现。 深化 结束后,我们会再从中选出一到两个最终使用方案。 此时人工才开始介入,基于AI生成的意向性概念进行 细化设计、拆分模型、动画测试。 所以说,这些应用 并没有取代创意这件事情,而是帮助我们节省实现创 意的过程。
郭:是的,有时候AI生成的视觉内容还可以促进 编剧思考。 比方说编一个“办公室开会”的桥段,办 公室其实没有细节,只是脑海中的一个概念,AI会根 据我们“模糊的办公室”生成几张图,那么当编剧看 到图片上相对具象化的环境之后,可能会基于具体物 品进行拓展,这种拓展与情节、环境有关。 这样通过 视觉让编剧进行具象思考,使“办公室”不再是停留 在脑海中的抽象概念,而是能帮助编剧激发想象力, 实现从文字语言向视觉语言的重要转化。 这样不断地 相互促进、相互激发,能够更好地进行前期创作。
总之,我们现在的整体思路就是尽可能地把传统 生产逻辑拆分成一个个单点的步骤,给这些步骤找到 对应的应用,并测试哪个应用好用,好用就记录下来。 选定好这些流程之后,未来的创作就可以依照这些好 用的应用直接使用。 这是一种类似于汽车生产线一样 的生产自动化逻辑。
周:所以AI工具其实已经系统性地应用在《流浪 地球3》的前期阶段了,这应该在国内影视行业中是 很领先的。
陈洪伟(以下简称陈):一定是。郭帆导演提到的这 种在项目开发环节与AI的共时交互,应该是目前影视 行业对AI运用的标杆了。 我很赞同各种工具为我所用、 逐渐沉淀工作流的逻辑。 AI工具迭代很快,我们传统 影视内容的生产工艺流程,还不会很大程度被改变, 除非剧组的主创,特别是导演与制片人愿意主动拥抱 新技术,才会创造一些新的可能性。 我反而认为,新 技术的更多应用场景,可能不太会在成熟的影视剧组, 而会在更多缺乏影视资源的小团队。 比如更多的自媒 体、青年导演,或者愿意进行影视内容创作的普通人, 都可以因为AI的技术赋能,做出更多富有想象力、创 造力的作品。 同时,各种AI应用工具的迭代速度非常 快,是以月为单位的,处在这种涌现式发展的旋涡之 中,我们很难准确判断这一次生产力技术的革新会发 展到什么程度。
刘:我们把这种群体的人机环境相互作用的生态 称为人机环系统。 事实上,基于Transformer的AI应 用都是人机环。 第一部分预训练的时候,这些模型框 架都是找人打标,这是人在介入; 第二部分需要人的 反馈调试,也是人在作用; 第三部分在使用层面也需 要人的选择。 所以,这些软件都有一个共同特点,就 是“欺软怕硬”——你的水平越高,它给你的东西越好; 你的水平越低,它就泛泛而谈。
郭:对于AI工具处理专业知识会产生幻觉的问题, 我们现在的方式就是在它回答完之后立刻“骂”它一 遍,让它再细算,它会给出一个更细的方案,紧接着 再“骂”一次,它又会再细化一步,最终给出一个相 对准确的数据。 直到这个数据不再变化或变化不大的 时候,我们才会拿去与专业人士讨论。 此外,作为导 演,我还注意到 AI对于提升管理效率的重要作用,即 使这与电影创作无关,但是剧组人数众多、工种庞杂, 高效运作也是一个亟待解决的问题。
刘: 您所提到的管理问题是AI工效学所关注的, 管理学的鼻祖和工效学的鼻祖都叫泰勒。 这也与AI的 自动化与智能化有关。 在定义里,所有可编程的、确 定的输入和确定的反馈叫自动化; 凡是部分可编程的、 不可编程的、不确定的输入和不确定的反馈叫智能化。 智能化的特点在于利己,即有利于我团队、有利于我 个人。 非常希望未来能在电影中看到利己的、不确定 的智能化 AI设定。
周:提到Sora,当下它还很难应用在电影产业制 作中,但工具会不断成熟,各位怎么看待它后续的发 展?
陈:Sora的发布,对于2024年意义很大,人工智 能在图像和视频生成领域为大众带来了感官上的巨大 冲击。 过去认为AI很强大主要是一种想象,但Sora带 来了真正的视听震撼。 “买家秀”视频确实展示了AI 技术在视觉创作方面的潜力,而且AI技术的迭代和 进步会不断加速。 Sora的能力在一定程度上,会影响 和改变内容创作者的工作流程,使得个人创作者能够 有机会制作出具有专业水准的视觉作品。 Sora能够提 高生产效率,还降作成本,使得更多创作者有机 会参与到影视制作中来。 同时,它也对行业内的就业 结构和专业技能标准带来挑战,促使从业者不断学习 和适应新技术。
郭:Sora现在的费用大概是平均150美元一分钟, 但这不等于花150美元就能得到可用的一分钟。 也许 生成100个一分钟乃至1000个一分钟才能获得可用的 那一个,我们的选择成本、耗时成本、资金成本都会 变得非常高。 所以当Sora出现时,对我来说,直觉上 影响并不强烈。 但是Sora如果在短视频创作上继续发 力,对广告或者短视频行业的冲击会比较大,长视频 行业则暂时会好一些。 另外,目前AI带来的生产自 动化并不涉及纯粹的创意层面,那么对创作者的影响 就不是特别大,反倒能够释放生产力,让更多年轻创 作者拥有更多机会。 拍摄一部电影的门槛在于需要组 织大量的人力、物力去生产,对于年轻创作者来讲, 组织几百人或上千人的队伍去拍摄可能难度更高。 这 不是创意问题,而是号召能力、管理能力的问题,而 新的AI应用可以帮他们降低组织的成本。 也许在未来, 几个年轻创作者就可以做出一部电影了,这是对整个 创意领域的释放,让他们有更多的可能去施展自己的 才华,被大众看到。 我觉得这是一件好事,对于电影 行业来讲也是好事。
当然,我们也仍然要关注 Sora的发展和可用性, 但最近放出的艺术家生成“黄色气球脑袋”的视频, 这个黄色其实是靠人为手段以传统DI完成的,而非直 接生成。 未来,如果 Sora能完全覆盖传统拍摄的手法, 那么我们就需要重新审视它在创作上的作用了,有可 能会对行业产生很大影响。
周:另外,Sora之所以引起大家的惊恐,并不仅 仅因为它能生成视频,而在于它的“世界模拟器”特征, 是脱离二维图像的局限,基于三维空间、物理世界的 生成。 当然,现在的模拟程度还未达到大家的期待。
陈:关于世界模拟器这部分,确实是很大的争议 所在。 也有很多专业人士,特别是在后期特效、3D建 模等领域深耕的专业人士,也对Sora到底可以在多 大程度上还原物理世界持有比较大的疑虑。 目前,AI 在3D领域的发展具有并存的两条路径: 在Sora之前, 物理3D世界的还原,主要是基于3D模型的算法构建, 除传统的3D模型软件之外,游戏引擎的发展是希望所 在,特别是以UE5游戏引擎的发布为标志。 它在呈现 物理世界的自然光线、肌理质感等方面,取得了令人 惊艳的成果。 物理世界的构建和还原在相当一段时间 内都是依托于游戏引擎算法的。 直到Sora的演示片发 布,让很多传统3D建模的相关专业人士很难接受,或 者持有很强的质疑态度。 至于Sora到底能不能像演示 所言,通过大语言模型的构建,可以充分实现世界模 拟器的能力,还要等待Sora真正面向大众使用之后, 才能一探究竟。
周:是的,我之前也认为虚幻引擎(UE)是未来 整个泛娱乐视听行业的核心工具。 但今年3月,黄仁 勋 在英伟达GPU技术大会(GTC,GPU Technology Conference2024)上说: “在5到8年的时间内,我们看 到的每个像素都将被生成,而不是被渲染。 借助AI生 成模型,这些像素将在被观看或被消费的同时生成。 ” 各位怎么看待?
刘:黄仁勋提出的这个观点涉及人工智能在图像 生成方面的发展。 如果这个预测成真,将会带来巨大 的变革,影响诸如娱乐、设计、医学影像等多个领域, 意味着图像生成技术的进步将达到一个新的高度。
目前的图像生成技术已经相当先进,但如果在未 来5到8年内,每个像素都可以通过生成而非渲染来产 生,这将意味着更加细致和逼真的图像,甚至可以达 到人眼难以分辨真实与虚构的程度。 这种技术的应用 将更加广泛,除了包括游戏的泛娱乐行业外,建筑设 计、虚拟现实等领域也将受益匪浅。 如在建筑设计中, 可以根据客户的具体要求和场地特征生成高度个性化 的设计方案,设计师可以更快地尝试不同的方案,并 根据反馈进行调整,从而提高设计的质量和效率。 在 增强现实(AR)和虚拟现实(VR)环境中,可以创建更 加逼真的虚拟世界,还可以与自动生成和自适应性技 术相结合,使设计系统能够根据环境和用户需求自动 调整和生成设计方案,大大提高设计的灵活性和适应 性,进而提供更加令人信服的用户体验。
但是,这种技术的发展也可能会带来一些挑战和 问题。 首当其冲的就是伦理和道德问题,例如虚拟人 物的滥用、隐私泄露、图像视频造假等方面,可能会 引发争议和社会矛盾升级。 再者,技术的进步可能导 致一些工作岗位的消失,特别是那些依赖于传统渲染 技术的行业等。 总而言之,黄仁勋的观点展示了人工 智能在图像生成领域的潜力和前景。 如果这个预测成 真,将会对我们的生活和工作产生深远的影响,需要 我们做好充分的准备来应对。
周:回到电影行业,今年3月底,OpenAI主动拜 访好莱坞也证明了 OpenAI进入电影领域的强烈意愿。
陈:OpenAI的这次拜访带有很大的营销属性。好 莱坞在电影制作的工业体系上已经非常健全和完整, 对人工智能生成内容(AIGC)的实际产能一直保持比 较高的警觉和质疑。 从好莱坞编剧到演员诸多领域的 罢工也可以看到,虽然 AI的爆发式发展制造了一定 的焦虑,但OpenAI想通过Sora进入好莱坞的核心生 产环节应该没有那么容易。 主要原因在于,我们尚且 不考虑能耗,不考虑算力的巨大成本消耗,乐观预计 AI的影像生成可以在三年内完成多次迭代。 这已经是 一种非常乐观的预判。 但只要你实际用过所有一线的 AI影像工具,就会很明显感觉到目前所有AI影像工 具的局限性。
电影发展一百多年来,已经创造了非常丰富多样 的视听语言成果,很多视听表达要想用AI轻松完美 地生成,还有比较远的距离。 结合实际AI工具使用的 情况,我们不妨得出如下推论: 两到三年甚至更长时 间内,AIGC都不太可能成为主流影视制作的核心生 产力工具,也无法替代摄影机实拍和演员表演的核心 生产要素功能。 但各种眼花缭乱的AIGC工具,就如 郭帆导演所阐述的,一定会成为非常重要的效率沟通 工具、创意互动工具和生产支持工具。 当然我们也期 待以 Sora为代表的更多AIGC工具面向大众投放使用, 即使主流电影工业无法短期内将AI工具作为核心生产 力,但对于青年创作群体、独立电影工作室甚至自媒 体创作者而言,在没有更多资金资源的前提下,有机 会借助AI工具实现更优质的视听语言创作与表达、更 快地被主流观众看到,也一定是电影产业的大好事。
周:AI介入后,不仅电影的视听语言与生产方式 会产生变化,甚至叙事方式都会发生很大变化。 人工 智能体(AI Agent)可能成为角色之一,与用户生成个 体化随机性的故事,学界把这种叙事方式叫“涌现叙 事”。 或许未来每个人都可以在自己创建的故事世界 观里和 AI角色进行独特的剧情互动和情感交流。 每个 观者的体验都不一样,尤其在VR技术的支持下,故 事呈现方式会从“故事讲述”(Storytelling)向“故事生 存”(Storyliving)转变。 郭帆导演,您如何看待这种 可能?
郭:我对此心态比较开放。因为人类对于故事的 需求至今都不曾发生变化,从山洞壁画、结绳记事, 到皮影戏、小说创作,再到电影胶片、数字影像,这 些都只是讲故事载体的变化,而个性化、定制化、互 动化的讲述载体,本质上也还是在讲故事——人类对 故事有需求,而非对载体有需求,载体一定在不停地 变化着。 载体的变化是基于科技的变化,而对故事的 需求是不会发生改变的。 像英国纺织工人捣毁珍妮纺 织机运动,即使反抗声音再大,也无法阻碍时代的车 轮,我们没有办法违逆技术的发展趋势。更何况,电 影本身也是随着技术的发展而产生的一种信息载体, 没有技术何谈电影。 那么,基于信息化技术的发展, 电影产生变化是非常正常的一件事情,无论我们主观 上是否喜欢这种技术迭代,载体革新都不会照顾到人 类的主观感受,我们需要秉持开放、学习的态度去关 注这种发展。
陈:电影诞生一百多年,其实人类的影像叙事方 式一直在不断发展变化,一直在朝着复杂化、多元化、 高信息浓度的方向发展。 在本质上,与其说是电影的 进化,不如说是人类大脑这一接收和反馈信息的处理 器。 伴随着工业革命、信息革命、科技发展,在不断 被更大的信息量所重构。 举一个最简单的例子,我们 都经历过2000年初好莱坞电影《黑客帝国》三部曲的 上映,那时候大量观众都反馈看不懂,认为各种隐喻 造成了巨大的理解障碍,而只能感叹于表面的各种科 技特效,如子弹时间等。 但在二十年后的今天,我们 再重看《黑客帝国》时没有任何观影障碍,甚至惊叹 于这是一部非常超前的预言电影。 为什么? 因为我们 在这二十年间,经历了数字信息洪流的冲击,从互联 网到移动互联网,人类进入了空前的数字信息爆炸时 代,生活的方方面面都在深度数字化,数字世界与现 实世界的边界越来越模糊。 基于这样全面数字化的时 代背景,“涌现叙事”本质上就是人类信息涌现带来 的“故事”需求的改变。 而这个过程中,AI的语言大 模型技术突破与应用,代表着数字信息将得到指数级 的放大,人类进入与AI共存的时代,这其中的信息交 互方式,从单纯的人与人借助互联网交互,彻底进入 人与人、人与AI、AI与AI等更加复杂的信息传递震荡。 郭帆导演借助 AI工具参与到电影剧本的创作,已经 是与AI共同创作的多元信息交互模式。 这是前所未有 的全新局面,会是人类大脑这颗超级信息处理器面临 的全新挑战。
周:基于现在已知的人工智能,您对未来人工智 能的判断是什么? 以及人类与AI的关系?
陈:我认为相比较于快速发展的数字信息科技, 人类的本性并不会如此之快地进化和与之匹配,我们 依然有着可以称为“人之常情”的各种古老情感。 短 时间来看,这诸多情感并不会湮灭,但会被各种繁 杂、高频、快速、碎片甚至冗余超载的信息冲击。 这 会带来非常多的戏剧张力,也是近些年越来越多的全 球影视作品的着墨重点。 整体来看,未来的电影叙事 将呈现两种极端样态,一种为信息浓度暴增,通过高 倍的信息轰炸与视觉、听觉等感官的全面冲击,引起 普通人的情感共鸣与观影兴奋度; 另一种为传统、缓 慢、真实、朴素的各种古典叙事表达方式。 物以稀为 贵,它们依然会如今天的各种非遗文化一样,历久弥 新,保持绵延而悠长的生命力。 毕竟,我们还是人类。
郭:我认为也许会变成对于定义权的争夺。对于 一个事物,我们人类的认知是什么? AI的认知是什 么? 假设 AI的认知和人类的认知不匹配,甚至高于 人类认知,会发生什么样的事情? 比如我们现在认为 水蒸气、液体水、冰块在本质上是一样的,但也许AI 不这么认为,它有更精确的定义,那么到那时会如何?
周:有专家认为,通用人工智能(AGI)的到来大 约需要 5到10年,可解释人工智能大约需要5到15年, 基于这些观点,刘伟老师您如何看待AI的发展路径 和速度?
刘:人类已有的数学支撑不了大家期待的AGI, 所以也有专家认为,现在的人工智能实际上是高级的 自动化。 和郭帆导演的思考类似,苏格兰哲学家大 卫·休谟提出了重要的“休谟之问”,即人类能否从客 观事实里得出主观价值? 从“是”(being)里能否得出 “应该”(should)? should就是智能的核心。 在东方思 想里,“天行健”与“君子自强不息”便是一对being 与 should。 如果没有 should产生,那么智能机器就只 是一个自动化装备。
所以,关于人工智能与AGI,需要格外关注我们 “人”的should作用。 维特根斯坦在《哲学研究》中推 翻了他前一部《逻辑哲学论》中的核心观点,指出真 正的理念是在生活、实践当中产生出来的,有生命力 的语言就叫自然语言(NLP),而不是规定的学术化语 言。 这与拍电影类似,倘若一部电影全都是规范式的 镜头,观众必然觉得索然无味,不确定的表达更抓人 心。 这也就更好地解释了为何AGI无法存在。 Sora虽 然被称为“世界模拟器”,但底层逻辑仍然是数学统计。 而机器的物理和生活的物理完全是两个世界,人类不 单有物理的,还有心理、伦理、道理等,Sora和GPT 是不可能完全模拟出来。 特别是东方“非常名”“非常 道”这样的表述,机器是很难清晰地生成出来。
刘:所以说,机器是计算,人类是算计,机器无 法理解人类的should、人类的“算计”,AGI是很难成 功的。 能够取代科学的是复杂系统——机器做“复” 人做“杂”。 科学在西方以还原主义姿态取代了宗教, 而东方则更看重系统观,机器与人的思维融合组成复 杂系统才符合当下的发展。 事实证明,人机协同已经 成为当下人因工程最重要的研究方向。 在未来,并不 是单看Sora或Claude这些单个AI应用如何发展,而 是人机协同生态——人与机谁结合得更好,谁就领先。 所以,在人工智能主题的科幻电影创作上,我认为应 该把人类的哲学、神学、复杂性加进电影创作中,这 是人工智能无法涉足的领域。
周:AGI的普遍定义,是能够像人类一样思考、 学习和执行多种任务的人工智能系统。 2023年10月, 英伟达、华盛顿大学、港大发布类人智能体(Humanoid Agents)。 按照心理学家丹尼尔·卡内曼(Daniel Kahneman)的理论,人类有两个互补的思维过程: 直 觉的、轻松的、即时的系统1,和逻辑的、有意的、 缓慢的系统2。 之前的AutoGPT等多是构建基于系统2 的以任务为导向的智能体,而类人智能体则依据心理 学,模拟人类的日常活动。 在生成对话响应时,可以 同时考虑到系统1的基本需求(例如饱腹感、健康和精 力)以及情感、亲密度等多个方面。 这些内在的动态 因素使得智能体能够根据自身的状态来调整其日常活 动和对话方式,就像真正的人类一样。 各位如何看待 这种AI发展路径?
陈:影视作品传递情感,本质上就是通过信息的 传递和反馈,实现人类心理感受的起伏过程。 这两种 互补的思维过程,如果简单直接地概括,就是意识与 潜意识 的区别。 意识,涵盖定义、概念、逻辑这样的 人脑理性活动行为,语言文字都是意识的表现形式。 而大语言模型,顾名思义,就是基于人类语言研究搭 建的数学算法模型。 因此从某种程度而言,目前的AI 可以无限趋近于人类的意识表达。 这也确实是我们目 前使用各种AI工具实践过程中的切身感受。 但是,人 类的潜意识层面,更涉及直觉、碎片、非线性的感性 心理活动,而正是这种不可轻易捕捉的潜意识活动, 构成了人类意识活动的主体部分。 就AI的发展看来, 通过意识的堆叠、算法的提升,达到或者接近人类的 潜意识思维,目前应该还是不太可能的。
刘:其实,丹尼尔·卡内曼理论中人类系统1感性 思维与系统2理性思维常常是混合在一起的。 这种混 合往往会让当代的数学、逻辑学研究者们惭愧不已, 即目前的数学及其他工具还远远不能支持机器智能模 仿人类的混合思维。 要实现机器的仿人混合性智能, 除了新数学工具的发展,还需要探索新的方法和技术, 如新的机器学习方法、自主认知系统和复杂领域的交 叉研究等。 只有综合利用多种方法,才能更好地支持 机器智能模仿人类的学习能力。
尽管机器智能在某些方面可能比人类更强大,比 如处理大量信息的速度和准确性,但是机器智能远远 不能实现人类的非理性智能,包括情感、创造力、直 觉等方面,这些是当前机器无法模拟或者达到的。 虽 然机器智能可以通过学习和推理,从数据中挖掘出有 用的信息,并执行特定的任务,但要使机器智能具有 价值性,就需要考虑和引入伦理、道德以及社会等因 素。
技术性瓶颈表现在人工智能系统需要更高的计算 能力、更先进的算法和更有效的数据处理方法,以实 现更复杂、更智能的功能。 通用智能的“算”不仅包 括计算能力,还涉及算计(谋算)能力,它指的是智能 系统在处理复杂问题、进行推理和决策时所需要的能 力。 当前人工智能技术在处理各种现实世界的复杂问 题时,往往受限于算法设计、数据质量、模型解释性 等方面。 随着技术的不断进步和研究的深入,我们可 以期待智能系统在算计能力上取得更大突破,从而更 好地应对各种复杂挑战。
生物性瓶颈主要体现在我们对人类大脑的认知能 力和运作机制的理解还非常有限,要实现类似的智能 水平,需要更深入的神经科学和认知研究。 人类大脑 是一个高度复杂的器官,大脑神经元之间的相互作用 非常复杂,我们对它工作原理的理解还很有限。 要开 发出真正具有通用智能的人工智能系统,需要更深入 地理解大脑的工作原理,并将这些原理应用到计算机 系统中。 人类能够轻松地处理非结构化和模糊的信息, 但对于计算机来说,这是一个更大的挑战。
社会性瓶颈则包括了人工智能系统与人类社会的 融合问题,例如文化差异、伦理道德、隐私保护等, 这些都是影响人工智能发展的重要因素。 由于不同文 化和社会背景下行为规范和价值观的差异,通用智能 系统需要适应并尊重不同的文化,如用于全球市场的 客服机器人需要理解和回应不同文化背景的用户,这 是一种跨文化交流。 同时,通用智能系统必须考虑伦 理和道德问题,包括隐私保护、公平性、安全性等方面, 以确保其发展和应用符合道德标准和社会期望。
克服这些瓶颈需要跨学科的合作和持续的创新努 力,只有在技术、生物和社会方面取得突破,“通用 智能”才能迈向更加成熟和全面的发展。 但这终究极 难实现,或许根本实现不了,也许“长生不老药”只 是传说和神话。
周:AI技术的发展对高校冲击也很大,教师和学 生的危机感、紧迫感都很重。 我们从2023年5月开始 开设AIGC课,本学期是第二次,是和北京电影学院 摄影系合作,共同探索如何培养学生运用AI工具进行 影视创作,如何综合AI和传统技术方法创作优秀作品。 陈老师也作为主课教师,邀请了非常多创作者和学生 互动,实现了深度产教融合。 陈老师有哪些具体感受?
陈:AI技术发展对于我们提升教育理念是一个非 常好的契机。 我们经常会感慨,在传统影视教育体系 中,教学内容距离产业实践比较远。 而AI技术的突飞 猛进,对影视教育是一次巨大的利好,AIGC会给同 学们提供快速充分的实践机会。 在实践中,学生们会 深刻感受到自己在基础知识、理论系统上的不足,进 而非常有针对性地学习和补充,形成正反馈的学习节 奏。 我们这次教学实践是以视听语言为核心,但放弃 了专业影视院校在讲授视听语言时以理论和文字为主 的思路,全面借助AIGC工具,使每一个视听语言知 识点都可以通过AI生成,快速呈现在同学们面前,让 他们更好地感受视听语言带来的无以言表的魅力。
周:这次课程主要是大二的本科生,几周内,很 多同学就随堂创作出优秀的视听作品。 虽然这次课程 是以AIGC为核心,但本质上是非常系统的电影视听 语言课。
陈:是的,但同学们的创作探索过程不再按照传 统影视行业的创作工作流。 虽然AIGC创作过程很多 时候是个人化的,但他们的创作并不孤独,他们的创 作伙伴不再是身边的同学,而是GPT等各种各样的 AIGC工具。 我的感受是: 这是一次美好的教育探索和 尝试,而且在教学过程中,更加感受到了视听语言在 未来 AIGC高速发展后的重要性,甚至是未来人们必 须充分掌握的核心能力。 郭帆导演对此怎么看?
郭:我特别赞同您的说法。我一直觉得我们的基 础教育中就应该包含视听语言教育。 在做《流浪地球2》 的1000人复盘时,我们发现短视频已经占到日常文化 消费的97.5%,观看时间从两三个小时到十多个小时。 这意味着观众已经习惯于通过“视听”方式进行信息 接收了,所以我们需要培养他们的视听表达。
在未来,可能我们会面对更多不同领域的视听方 式信息传递。 人工智能如果能够提高效率、降低门槛, 也许在未来更多的社交媒体、公共信息传播都会倾向 于使用视听语言,而非文字语言。 从报纸到门户网站, 再到今天的短视频,信息传递的本质没变,变化的是 信息传递的方式。 未来,在人工智能降作与传播 门槛的前提下,可能有更多视听信息传播,不仅仅是 故事,还包括社会新闻、科学普及,甚至表达情绪也 以视频的方式呈现。 我对此比较乐观。
刘:我是比较悲观的。我认为强调视听其实也是 在弱化我们的智力。 因为人机交互是“脖子以下”,是 生理和物理之间的交流,而人机融合智能是“脖子以 上”,也就是人脑和电脑进行交融。 实际上当机器的 水平越高,人的水平是相对下降的。
郭:我赞同。我刚才的观点是在影视行业这个前 提下,视听语言这种语言传播面的越来越广,意味着 我们的机会越来越多。 但从社会问题来思考,这会让 我们不太会像原来那样进行更多深度的思考。
陈:从视听语言教育的角度出发,我认为可以找 到“可思考”的基准线的。 创作者在做电影时会对影 像画面有质感要求,希望拥有“电影感”这种高级感受。 这 告诉我们,视听思考其实也分高、中、低。 在此我 引入“显性-意识”与“隐性-潜意识”这两个概念: 一 部电影的主题概念可以通过文字表述,是显性的,而 视听语言有着更海量的信息,是隐性的。 画面构图很 多隐性的内容是我们在学习文字思考时意识不到的, 但是我认为,影视相关专业的学生更要自觉知道隐性 内容的重要性。 要做高阶品质的作品,通过画面传达 思想跟情感,隐性方法尤为重要。 在传统的影视教育 中,我们往往过于强调显性意识的重要性,而忽略影 响力更大、更深远的潜意识的塑造与传播。 刘伟老师 认为短视频会对人类思考弱化,主要问题不在于短视 频影像内容本身,而是目前的社交媒体算法投喂机制, 主导和推动了勾起人们浅层欲望而非深刻思考的海量 垃圾信息内容的广泛传播。 这是另外一个对人类非常 重要的文化和社会议题。 但我们不能因为目前社交媒 体算法带来的社会问题,就放弃对视听语言更加系统 化的研究,甚至放弃让未来的孩子们在成长阶段更加 系统化学习视听语言的机会,否则他们将在AI信息 爆炸的时代更加茫然无措,只能更加被动地接受AI视 听信息的投喂,而彻底丧失与AI共舞的创造能力。
郭:我特别赞同这个说法,视听语言作为一种语 言其实还不是那么普及。 九年义务教育解决了很多文 字文盲,大家可以通过文字传递思想与感情,这样的 扫盲工作是文字语言传播的“基建”。 但遗憾的是,视 听语言还没有完成这种基建很多人其实并不会拍摄 画面、组合镜头。 只有先完成基建,我们才能继续发 展,并达到顺畅使用视听语言的程度。 我期待未来AI 帮助我们完成视听语言的基础设施建设,有了这个基 建,更多人才能掌握视听技能,影像发展领域才会有 更肥沃的土壤与源源不断的人才。
周:对于行业项目来讲,当下的AI工具能够大量 节省前期工作和沟通成本。 对于高校影视教育来讲, 也是很好的创作训练及创新实现的工具。
陈:是的,目前AI在视听领域的各种探索应用, 可能还不能快速成为传统影视产业的核心生产工具, 却是非常好的学习传统视听语言的工具。 专业影视院 线的本科生,在学习摄影、光线、构图等多种画面技 能过程中,需要掌握各种摄影器材,进行各种实践拍 摄,这其中还会遇到基于场地、硬件等多方面不可 控因素的变数,教学任务的达成是一个缓慢的过程。 而AIGC具备高效率,同学们可以在没有丰富摄影器 材的情况下,根据视听语言知识点去完成AI生成创 作,并通过创作的成果对基础视听语言知识点进行快 速理解与掌握。 当然,一线的实践学习至关重要,但 AIGC的方式确实能够大幅度提升学习效率。 这次“视 听语言与AIGC实践”课程刚进行了两个多月,很多 同学的短片作品非常令人惊喜,在视听语言的驾驭和 应用上已经展现了很高的天赋。 这说明只要在教学过 程中进行足够精准的引导和培养,就可以激发同学们 学习视听语言的兴趣与热情,让他们更快地看到自己 的“准成熟”作品问世。 这样的正反馈机制,也是激 发数字时代的孩子们创作热情的有效教学手段。
此外,伴随着AI的发展,对人的教育变得更加 重要。 郭帆导演提到AI共创很明显的特点,就是AI 欺软怕硬、遇强则强的属性。 你要有更加清晰的独立 思考能力,才不会被AI“敷衍”。 具体到影视方面,越 是在视听语言领域专业程度高的创作者,越能够创 造出更好的AIGC作品。 从2023年到今年,AIGC发 展了一年的时间,通过各种媒体平台的AIGC影视作 品,我们就已经明显地看到这样的特点。 甚至很多早 期AIGC创作者依赖信息差,造成过一鸣惊人的短暂 假象,但因为视听语言的根基不牢,对电影质感缺乏 足够的理解与审美认知,随着AIGC创作热潮的涌动, 泯然众人的可能性也是很大的。
此外,视听语言的教育与学习,在目力可及的 时间范围内,不会因为AI技术的迭代而被取代,甚 至会更加重要。 就以Sora样片为例,它们都是通过 Prompt语言驱动完成的,只有对视听语言熟稔于心的 创作者,才能够轻松驾驭Sora,实现想要的镜头、景别、 画面和质感,也才能成为最好的AI创作者。
周:当下的我们,无论是作为创作者、教师、还 是学生,也不管是否已经做好了准备,我们都将进入 与AI共生共创的时代。 斯坦福HAI研究院院长,被誉 为“AI教母”的李飞飞在今年3月发表一个观点: “AI 的影响是对人类本质、能力和定义的深刻影响。 AI 会创作电影,创作供人们娱乐的内容。 但只有人,能 利用AI创作触动他人、启发他人或服务他人的内容, AI做不到。 ”我个人非常认可这个观点,也谨以此与 各位共勉! 感谢各位参与讨论!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
用了近10年的热水器坏了,杭州阿姨网上搜索“排名首位”的维修师傅上门,2680元换了一台“帅康”后崩溃……
AlphaFold 3登上Nature:所有生命分子的结构和相互作用,都被AI预测了
孩子吃不胖或者长的慢点,也不一定就是病态。 孩子吃不胖或者长的慢点,也不一定就是病态
十一岁女孩练武六年身手矫健,没受过专业训练全靠爷爷指点,爷爷也是通过看电视看书自学的