今天Open AI 正式对社会公众开放旗下 Dall·E(文字变图画)的技术和能力, 每张AI创意作画(版权归你)的价格大概不到1元。
定价
在测试的第一阶段,用户可以购买额外的DALL-E点数,以115点为单位(460张图片 )在每月免费点数的基础上再加15美元。每次输入提示,用户点击 "生成 "或 "变化",就会有一个积分。
作为AI 和创作者经济相关领域研究的创始人,异常兴奋和感慨。
为纪念这一伟大时刻, 我把两个月前写的系列旧文,发布在这里。 ( 此专栏将更大力度推出和AI 共创 、AI 基础知识和技术新变革和商业应用分析的文章。
AI时代,人们将如何创作一部电影?(1)
三个技术条件:
🧠 AI : 智能爆炸
🥅 架构:去中心化
🪙 Web3: 所有权个人化
你不用成为专家, 也能够发现一个基本的规律:技术具有民主化的倾向, 让一切变的更便宜。
以视频为例,从电影→ 电视→ Youtube → 短视频,这个过程就能一叶知秋。
今天我想从这个视角, 展示给大家, 在新一代的互联网时代, 无论它叫Metaverse还是叫Web3, 它必然会带来一个变革:创作者经济的变革。
让我们来深入展开这个推理, 它异常简单!
1/ 多少人有过明星梦和导演梦 ?多少人在短视频时代,梦已成真? 还是少数吧。
今天有了最新的大规模语言模型, 你会发现做视频,竟然只要打几个字就行了?!
(来自 @karencheng 创作的MV ,感受Dall·E 的魔法)(即刻预览)
AI时代,人们将如何创作一部电影?(2)
2/ 古代(好莱坞)创作一部电影的配置:
演员💃🏻:数十年的专业训练
镜头🎥:摄影棚
剪辑🎬:很贵的PC,很贵的软件
配音🎤:还记得播音员专业吗
编剧✍🏻:至少是作家出身
3/ AI 时代,创作一部电影的配置:
演员💃🏻:AI 动捕 + MetaHuman (虚拟人 )
镜头🎥:Dall· E (Imagen)
剪辑🎬:📱 + 【你的审美】配音🎤:AI 虚拟主播(Text2Speech)
编剧✍🏻: 【你】 + AI 大规模语言模型(LaMDA/GPT-3 /OPT-175B)
4/ 如果仔细并对比下两者👆的成本,我们会渐渐意识到不得了的三件事正在发生:
a ) 信息的复杂结构,特别是情感向的(例如语音和音乐)都是好商品;
b ) AI 是一种极为低成本(电费)的技术,但是在「信息结构」层次上,一边指数级创作智能🧠的信息总量,一边「鼓励」创作者更好制作信息商品(否则被时代所抛弃)
c ) 最后,「信息商品」的以物易物肩负最低的配置,会带来整个经济体系指数增长(非零和效应),它将改变一切旧世界的创作范式。
用 Sam Altman 话说, 这将「万物的摩尔定律」,经济体系将全部改变, 世界将异常「富足」。
在AI时代,如何创作一部电影?(3 )
当我们说AI 要 「替代」真人演出,我们在说什么?
在第(2)篇那个基于生物学思维的对比框架中, 我们包含了不少娱乐产业的硬核知识, 还有大量认知科学的新发现(情感的计算、面部表情系统等)。
这次,我们聚焦于讨论人类戏剧和演出的本质(它虽然无比复杂),但让我带大家走一个易于感性理解的捷径:
从游戏产业如何塑造人物的角度, 对比不同时代的创作成本。
首先,是动作捕捉。你喜欢角色扮演游戏吗? 了解3A大作的角色表演是如何诞生的吗?我们以《赛博朋克2077》的银手为例(基努·里维斯)的演出为例,请观赏。
同样的制作思路, 普通创作者没有那些昂贵的、顶流的动捕设备,我们现在可以有什么技术?
请继续观赏 Google Brain 日本工程师带来的新进展: AI如何实现平民化的动作捕捉。
(想成为虚拟Up主的朋友,可能要激动坏了)
然后,是虚拟人的CG设计。按照今天的“”常识“”,建模是一件费钱费力的时,虽然没有演员贵,但CG似乎挺又遥远。 这里以Epic Games 的全新工具为代表, 就像今天人人能剪辑视频一样, 基于MetaHuman 几十分钟,人人都创造精致的、细腻的虚拟演员了。
最后,是情感表达。 (这是个生物学大命题)
善于思考的朋友,会怀疑: 几千年前来人们的戏剧艺术,就要被AI 搞没了? 就算我没有学习过表演, 也研究过英剧、美剧和韩剧的演员们,差别是多么的巨大啊……
你的直觉绝对没错👍 人类的面部和情感系统,是一个超级伟大的、隐秘的大自然的礼物; 我会持续深入展开, 在这里。 我把演员的情感表达,简化为如下的层次:
a) 人类的表演= 感觉(或想象的)→ 情绪(潜意识)→ 面部表情(保罗·艾克曼的大发现)
b) 虚拟人的表演= 文字→ 图形渲染 (情感识别)→ 面部微表情(audio2face)。
(我附上的视频 ,模特杀手 来自pantheonlab的虚拟人,大致就是这么个AI 合成的过程)
以上所有层次拆解,都还是「管中窥豹」 示例性感知和分析,但其中背后的论证所指向核心没变:这些新技术,都(将)是面向 C端的、个人用户的工具, 普及的速度和商业场景可能性会超出我们今天的想象。
这就是我在 第(2)篇引用Sam Altman 中强调的「万物的摩尔定律」意义:
一切创作成本都在疯狂降低,然后就是创作的井喷,远大于短视频时代的井喷。
在后面更多AI和认知科学(人类学、语言学)主题中,我们将深入讨论, 为何语言才是人类智能真正的魔法……
正如伟大 约瑟·克拉克,伟大的科幻小说家所言:
「任何足够先进的科技,皆与魔法无异。」