AI时代,人们将如何创作一部电影? (1/2/3)

生命的幻想hans2022-8-26 11:19

今天Open AI 正式对社会公众开放旗下 Dall·E(文字变图画)的技术和能力, 每张AI创意作画(版权归你)的价格大概不到1元。

定价

在测试的第一阶段,用户可以购买额外的DALL-E点数,以115点为单位(460张图片 )在每月免费点数的基础上再加15美元。每次输入提示,用户点击 "生成 "或 "变化",就会有一个积分。

作为AI 和创作者经济相关领域研究的创始人,异常兴奋和感慨。

为纪念这一伟大时刻, 我把两个月前写的系列旧文,发布在这里。 ( 此专栏将更大力度推出和AI 共创 、AI 基础知识和技术新变革和商业应用分析的文章。

AI时代,人们将如何创作一部电影?(1)

三个技术条件:

🧠 AI : 智能爆炸

🥅 架构:去中心化

🪙 Web3: 所有权个人化

你不用成为专家, 也能够发现一个基本的规律:技术具有民主化的倾向, 让一切变的更便宜。

以视频为例,从电影→ 电视→ Youtube → 短视频,这个过程就能一叶知秋

今天我想从这个视角, 展示给大家, 在新一代的互联网时代, 无论它叫Metaverse还是叫Web3, 它必然会带来一个变革:创作者经济的变革。

让我们来深入展开这个推理, 它异常简单!

1/ 多少人有过明星梦和导演梦 ?多少人在短视频时代,梦已成真? 还是少数吧。

今天有了最新的大规模语言模型, 你会发现做视频,竟然只要打几个字就行了?!

(来自 @karencheng 创作的MV ,感受Dall·E 的魔法)(即刻预览

AI时代,人们将如何创作一部电影?(2)

2/ 古代(好莱坞)创作一部电影的配置:

演员💃🏻:数十年的专业训练

镜头🎥:摄影棚

剪辑🎬:很贵的PC,很贵的软件

配音🎤:还记得播音员专业吗

编剧✍🏻:至少是作家出身

3/ AI 时代,创作一部电影的配置:

演员💃🏻:AI 动捕 + MetaHuman (虚拟人 )

镜头🎥:Dall· E (Imagen)

剪辑🎬:📱 + 【你的审美】配音🎤:AI 虚拟主播(Text2Speech)

编剧✍🏻: 【你】 + AI 大规模语言模型(LaMDA/GPT-3 /OPT-175B)

4/ 如果仔细并对比下两者👆的成本,我们会渐渐意识到不得了的三件事正在发生:

a ) 信息的复杂结构,特别是情感向的(例如语音和音乐)都是好商品;

b ) AI 是一种极为低成本(电费)的技术,但是在「信息结构」层次上,一边指数级创作智能🧠的信息总量,一边「鼓励」创作者更好制作信息商品(否则被时代所抛弃)

c ) 最后,「信息商品」的以物易物肩负最低的配置,会带来整个经济体系指数增长(非零和效应),它将改变一切旧世界的创作范式。

用 Sam Altman 话说, 这将「万物的摩尔定律」,经济体系将全部改变, 世界将异常「富足」。

在AI时代,如何创作一部电影?(3 )

当我们说AI 要 「替代」真人演出,我们在说什么?

在第(2)篇那个基于生物学思维的对比框架中, 我们包含了不少娱乐产业的硬核知识, 还有大量认知科学的新发现(情感的计算、面部表情系统等)。

这次,我们聚焦于讨论人类戏剧和演出的本质(它虽然无比复杂),但让我带大家走一个易于感性理解的捷径:

从游戏产业如何塑造人物的角度, 对比不同时代的创作成本。

  • 首先,是动作捕捉。你喜欢角色扮演游戏吗? 了解3A大作的角色表演是如何诞生的吗?我们以《赛博朋克2077》的银手为例(基努·里维斯)的演出为例,请观赏。

    同样的制作思路, 普通创作者没有那些昂贵的、顶流的动捕设备,我们现在可以有什么技术?

    请继续观赏 Google Brain 日本工程师带来的新进展: AI如何实现平民化的动作捕捉。

    (想成为虚拟Up主的朋友,可能要激动坏了)

  • 然后,是虚拟人的CG设计。按照今天的“”常识“”,建模是一件费钱费力的时,虽然没有演员贵,但CG似乎挺又遥远。 这里以Epic Games 的全新工具为代表, 就像今天人人能剪辑视频一样, 基于MetaHuman 几十分钟,人人都创造精致的、细腻的虚拟演员了。

  • 最后,是情感表达。 (这是个生物学大命题)

    善于思考的朋友,会怀疑: 几千年前来人们的戏剧艺术,就要被AI 搞没了? 就算我没有学习过表演, 也研究过英剧、美剧和韩剧的演员们,差别是多么的巨大啊……

你的直觉绝对没错👍 人类的面部和情感系统,是一个超级伟大的、隐秘的大自然的礼物; 我会持续深入展开, 在这里。 我把演员的情感表达,简化为如下的层次:

a) 人类的表演= 感觉(或想象的)→ 情绪(潜意识)→ 面部表情(保罗·艾克曼的大发现)

b) 虚拟人的表演= 文字→ 图形渲染 (情感识别)→ 面部微表情(audio2face)。

(我附上的视频 ,模特杀手 来自pantheonlab的虚拟人,大致就是这么个AI 合成的过程)

以上所有层次拆解,都还是「管中窥豹」 示例性感知和分析,但其中背后的论证所指向核心没变:这些新技术,都(将)是面向 C端的、个人用户的工具, 普及的速度和商业场景可能性会超出我们今天的想象。

这就是我在 第(2)篇引用Sam Altman 中强调的「万物的摩尔定律」意义:

一切创作成本都在疯狂降低,然后就是创作的井喷,远大于短视频时代的井喷。

在后面更多AI和认知科学(人类学、语言学)主题中,我们将深入讨论, 为何语言才是人类智能真正的魔法……

正如伟大 约瑟·克拉克,伟大的科幻小说家所言:

「任何足够先进的科技,皆与魔法无异。」