这是一篇综述,几乎没有个人观点,因此免费。起心动念还是在于最近AI作图、chatGPT的火爆出圈。突然发现很久没有突破的AI领域,居然已经发生了剧变。想想Transformer是17年底18年初的产物,AI作图的底座stable diffusion更是今年7月份才发布。相比web3、元宇宙这些在口号中存在了许久的概念,这或许才是某种意义上真正的“未来已来”。个人观点表达完毕,以下enjoy:
老规矩,先来看看chat GPT怎么说
他真是一个挺诚实的AI...
通用大模型的发展历史
史前时代:1956年,达特茅斯会议,两个流派:符号主义(基于知识推理,演绎,包括知识图谱)vs 连接主义(基于数据,概率论,经验主义归纳)实践证明连接主义完胜。
第一次跨越:2006 年,杰弗里·辛顿(Geoffrey Hinton)在 science 期刊上发表了重要的论文《Reducing the dimensionality of data with neural networks》,提出深度信念网络(Deep Belief Networks,DBNs),「深度学习」正式诞生,基于人工神经网络的第三次 AI 发展浪潮开始了,且一直延续至今。
深度学习不需要逻辑推理,就是把所有的数据投入进深度学习的模型里去,它会自己去判断哪个有用、哪个没用。现代神经网络模型的网络结构层数很深,动则几百万上千万参数量。 而这些神经网络模型在能做特定任务之前,都是需要经过「训练」,即根据标注好的特定训练数据去反复调整模型里的参数,最后所有参数调整到位,模型能匹配训练数据集的输入和输出。
第二次跨越:预训练
要调整深度学习神经网络模型里那成千万的参数量,如果训练数据少了,肯定很难调整到位。但是,那些特定的 AI 任务往往没有那么多训练数据,这怎么办?非常值得庆幸的是,AI 科学家研究发现了深度学习网络一个有趣的特性,对于图像领域的深度学习神经网络而言,不同层级的神经元学习到的是不同逻辑层级的图像特征。
比如图像:若将训练好的网络每层神经元学习到的特征可视化,会发现最底层的神经元学习到的是线段等特征,第二层学到的是人脸各个五官的特征,第三层学到的是人脸轮廓的特征,这三层构成了人脸特征的逻辑层级结构。神经网络越底层的特征越基础抽象,比如什么边角弧线等,而越往上层,就具体和任务相关。一个训练好的深度学习网络的内部参数,在底层体现了通用和基础的特征,而越到高层,越和特定任务相关。这是深度学习神经网络一个特别棒的特性。
第三次跨越:2017-Transformer self-attention机制,自我打标,不需要人工标注
2017 年 12 月,Google 在顶级机器学习会议 NIPS 上发表了论文《Attention is all you need》,提出在机器翻译上大量使用自注意力(Self Attention)机制来学习文本表示,并把这种机制模型起了个霸气的名字:Transformer。这篇论文一经出世就横扫了整个自然语言处理学术界,Transformer 迅速的取代了深度学习里传统的循环神经网络(RNN)成为了之后的大语言模型的标准配置。
Transformer 是目前 NLP 领域里最强的特征提取器,本质上 Transformer 是一个叠加的「自注意力机制」构成的深度网络。参照了人类的视觉注意力机制,核心目标就是从众多信息里选择出对当前任务更重要和关键的信息。
在 Tranformer 出现之前,我们要训练一个深度学习模型,必须使用大规模的标记好的数据集合来训练神经网络。对数据进行标注只能人工进行,金钱和时间成本都相当高。
而回过头来,Transformer 的核心是在数学上计算输入元素之间的关联(Attention),通过这种模式,Tranformer 成功的消除了训练数据集的标注需求!
Self Attention 机制还附带了一个很大的好处:因为网络层面抛弃了传统的 RNN(循环神经网络)模型,彻底规避了 RNN 不能很好并行计算的困扰,极大提高了模型并行训练计算的效率。更不用说,Attention 注意力机制只关注部分信息,参数较少,容易训练。
目前应用Transformer的模型:
特斯拉自动驾驶视觉感知 BEV/ Occupancy
Google BERT 语言模型(分析式AI)
OpenAI GPT (生成式AI)
AI作图
2009年开始,年轻的李飞飞以坚韧不拔的大无畏精神,推动完成了一个超大规模的开源图片标注数据库,这就是著名的 Image Net 项目。在 2009 年正式发布时,Image Net 有超过 1000 万数据,两万多个类别。2010年开始,Image Net 大规模视觉识别挑战赛(ILSVCR)开始举办,全世界图像领域深度学习的专家们同台竞技和交流,从此拉开了计算机视觉的新篇章。Image Net 的出现和发展给了自然语言 AI 模型研究一个很重要的启发。这就是图像领域深度学习的预训练概念。
2012年 Google两位大名鼎鼎的AI大神, 吴恩达和Jef Dean进行了一场空前的试验, 联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络, 用来指导计算机画出猫脸图片. 当时他们使用了来自youtube的1000万个猫脸图片, 1.6万个CPU整整训练了3天, 最终得到的模型, 令人振奋的可以生成一个非常模糊的猫脸
2014-生成对抗网络(GAN, Generative adversarial network)
GAN 解决这个问题的方式是,放一个老师,跟学生博弈(两个内部程序 "生成器(generator)" 和"判别器(discriminator)" )。模型就像一个学生,给出考题的答案,老师来判断正误,直到满意;老师满意以后,学生对老师不满意了,觉得这些题太简单,老师你得出点更难的题目,我还得继续提升成绩呢,于是老师也要进步,给新的考题,直到学生几乎答不出来;接下来学生继续努力学习、答题,到了阈值后,老师继续学习、出题......循环往复,就像 GAN 的名字里所述,对抗的模式来共同提升。
但是, 用基础的GAN模型进行AI绘画也有比较明显的缺陷, 一方面是对输出结果的控制力很弱, 容易产生随机图像, 而AI艺术家的输出应该是稳定的. 另外一个问题是生成图像的分辨率比较低.GAN在"创作"这个点上还存在一个死结, 这个结恰恰是其自身的核心特点: 根据GAN基本架构,判别器要判断产生的图像是否和已经提供给判别器的其他图像是同一个类别的, 这就决定了在最好的情况下, 输出的图像也就是对现有作品的模仿, 而不是创新......
2015年 Google发布的一个图像工具深梦(Deep Dream). 深梦发布了一系列画作, 一时吸引了很多眼球。但如果较真一下, 深梦与其说是AI绘画, 更像是一个高级AI版滤镜。和作品不尴不尬的Deep Dream相比, Google更靠谱的是2017年成千张手绘简笔画图片训练的一个模型, AI通过训练能够绘制一些简笔画. (Google, 《A Neural Representation of Sketch Drawings》) Google把相关源代码开源了, 因此第三方开发者可以基于该模型开发有趣的AI简笔画应用;2017年7月, Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型, 号称创造性对抗网络 (CAN, Creative Adversarial Networks)
2021年1月OpenAI团队 -CLIP(Contrastive Language-Image Pre-Training)
CLIP训练AI同时做了两个事情, 一个是自然语言理解, 一个是计算机视觉分析. CLIP模型的训练过程, 简单的说, 就是使用已经标注好的"文字-图像"训练数据, 一方面对文字进行模型训练, 一方面对图像进行另一个模型的训练, 不断调整两个模型内部参数, 使得模型分别输出的文字特征值和图像特征值能让对应的"文字-图像"经过简单验证确认匹配。CLIP最聪明的地方, 它用的是广泛散布在互联网上的图片! 互联网上的图片一般都带有各种文本描述, 比如标题, 注释, 甚至用户打的标签, 等等, 这就天然的成为了可用的训练样本. 用这个特别机灵的方式, CLIP的训练过程完全避免了最昂贵费时的人工标注, 或者说, 全世界的互联网用户已经提前做了标注工作了.
把CLIP嫁接到GAN上去生成图像, 这其中的思路倒也简单明了: 既然利用CLIP可以计算出任意一串文字和哪些图像特征值相匹配, 那只要把这个匹配验证过程链接到负责生成图像的AI模型 (比如这里是VQ-GAN), 负责生成图像的模型反过来推导一个产生合适图像特征值, 能通过匹配验证的图像, 不就得到一幅符合文字描述的作品了吗?
有人认为 CLIP+VQGAN是自2015年Deep Dream以来人工智能艺术领域最大的创新. 而美妙的是, CLIP+VQGAN对任何想使用它们的人来说都是现成的。
有意思的是, 在同一个时间(2021年初), 开源发布CLIP的OpenAI团队也发布了自己的图像生成引擎DALL-E. DALL-E内部也正是用了CLIP, 但DALL-E并不开源!
2022- LAION 是一个跨全球的非营利机器学习研究机构,今年3月开放了当前最大规模的开源跨模态数据库LAION-5B,包含接近60亿(5.85 Billion)个图片-文本对, 可以被用来训练所有从文字到图像的的生成模型,也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型,而这两者都是现在 AI 图像生成模型的核心。
2022-Diffusion模型(扩散化模型)
最基础的直觉原理来源于物理学。在环境中,气体分子会高浓度区域扩散到低浓度区域,这个过程,也类似噪声逐步扩散、最终导致信息丢失。
将这个原理运用在图像生成,便是将「噪声逐步扩散、最终信息丢失」的过程逆向运作。先生成一张充满大量噪声的图片,再基于 AI 能力,一边猜测哪些对于最终的图像而言是「噪点」,将其去除,那么剩下的便是所需的「信息」。通过迭代,在噪声中反复提取出「信息」,最终生成被指定的图片。这就是Diffusion扩散化模型的基本思路
Diffusion扩散化模型目前在计算机视觉领域的影响力越来越大,它能够高效合成视觉数据,图片生成完全击败了GAN模型, 而在其他领域如视频生成和音频合成也展现出了不俗的潜力.
Diffusion两大痛点, 1) AI绘画细节还不够深入, 2) 渲染时间过长, 实际上都是因为Diffusion扩散模型的一个内在缺点, 这就是反向去噪生成图片的迭代过程很慢, 模型在像素空间中进行计算,这会导致对计算时间和内存资源的巨大需求, 在生成高分辨率图像时变得异常昂贵。
2022-Stable Diffusion今年7月开始测试, 它非常好的解决了上述痛点
实际上Stable Diffusion和之前的Diffusion扩散化模型相比, 重点是做了一件事, 那就是把模型的计算空间, 从像素空间经过数学变换, 在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里, 然后再进行繁重的模型训练和图像生成计算.
基于潜空间的Diffusion模型与像素空间Diffusion模型相比, 大大降低了内存和计算要求。比如Stable Diffusion所使用的潜空间编码缩减因子为8, 说人话就是图像长和宽都缩减8倍, 一个512x512的图像在潜空间中直接变为64x64, 节省了8x8=64倍的内存!
这就是Stable Diffusion之所以又快又好的原因, 它能快速(以秒计算)生成一张饱含细节的512x512图像, 只需要一张消费级的8GB 2060显卡即可!
2022年。应用层
AI绘画服务 MidJourney (应用diffusion模型)基于discord提供服务,全网最火
Disco Diffusion 是在今年 2 月初开始爆红的一个 AI 图像生成程序,它可以根据描述场景的关键词渲染出对应的图像。用Disco Diffusion可以生成一些很有氛围感的草图, 但基本还无法生成人脸。Disco Diffusion, 正是第一个基于CLIP + Diffusion 模型的实用化AI绘画产品.
今年4月, 著名人工智能团队OpenAI 也发布了新模型 DALL·E 2代,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E), 同样支持从文本描述生成效果良好的图像.
AI文本/对话
首先,自然语言处理的研究里,有个基本概念叫做「语言模型」,就是想办法打造一个核心函数 P,这个函数通过一个句子里前面的所有单词来计算下一个单词的概率大小。一句话里的单词总是顺序出现的, 每个单词都可以通过前面所有单词计算出这么一个概率,把所有这些单词的概率乘起来,总概率数值越大,说明这越像是人说出的话。
2003-「神经网络语言模型」NNLM 概念出现,但没有得到重视
2013 -AI 研究人员倒腾了一个自然语言处理的处理模型 Word2Vec。 「Word2Vec」就是「Word to Vector,从词到向量」。研究人员的目标是把一个单词变成一个数学向量,这个数学量在 NLP 里有个专门的名词,叫做 Word Embedding(词嵌入)
NNLM 和 Word2Vec 使用了类似的神经网络结构,不过因为目的不同,其训练方法理念是截然不同的。NNLM 作为语言模型,是要看到上文预测下文,所以训练时输入的是句子上文单词--生成式AI;而 Word2Vec 呢? 因为它的目标是要找出所有单词之间意义远近的数学关系,所以训练时都使用句子上文和下文作为输入。--分析式AI
2018 -根据当前上下文来动态调整 Word Embedding 的想法就是顶级学术会议 NAACL 2018 年的最佳论文「Deep Contextualized Word Representation」,这个 NLP 模型命名为 ELMO(Embedding from Language Models,基于语言模型的词嵌入)
此外,ELMO 还有一个贡献,研究人员发现 ELMO 所使用的深度神经网络模型里,不同层次提取到的特征是有差异的。--适合进行预训练
因为技术原因,LEMO 模型在抽取文字特征方面还比较弱,这是一个技术上的缺陷,意味着这个模型就无法很好完成 NLP 的「预训练」梦想: 特征都抽取不好,怎么让网络里每一层具体表达不同逻辑层级的特征呢。自然语 AI 研究人员还需要继续找到一个方法,希望这个方法能很好的提取出文字的特征,就类似图像处理领域的神经网络模型,能很好的提取图像不同逻辑层面的特征。
恰就在时间刚好的 2017 年底, Google 研究人员发表了一篇里程碑式的论文, 这一篇论文提出的「自我注意力」机制让自然语言处理揭开了崭新的篇章---Transformer
GPT/chat GPT
GPT 全称是「Generative Pre-Training」,直译过来就是「生成式的预训练」
如前文所说,OpenAI 对 GPT 的生成式 AI 有坚定的信念,因此在训练模型的时候,只选用「上文」来训练模型,也就是说,GPT 本质上是一个极致的概率模型,它根据上文提示,来猜测下一个单词应该是什么。
这个坚持虽然在一开始 GPT-1 和 GPT-2 时代让其输出效果稍逊于同期 Google 的语言大模型 BERT,但到了 GPT-3 时期,在超级规模网络参数的加持下,GPT 这个 100% 纯粹的生成式 AI 终于迸发出耀眼的光芒,模型输出效果甚至大幅超越了研究人员的预期。
尽管没有实证,但笔者很倾向认为 GPT-3 的极大成功和 OpenAI 坚定不移的只用上文来训练模型有着某种必然的关系,人的语言沟通也从来都是按顺序表达的,没有谁先把一句话的最后一个词说完才回头考虑上一个词。从这点来看,GPT 系列模型顺应了人类思考的逻辑,最终由量变推动了质变。
终于,借助了 Transformer, GPT 这样的超大规模语言模型(GPT-3 有 1750 亿个参数)在不需要标记数据的情况下,可以借助现成的海量标准数据以及超级算力,得到通用的「预训练」版本模型。
ChatGPT
ChatGPT 是基于 GPT-3.5 模型的魔改。GPT-3.5 和 GPT-3 的区别呢,首先是和微软合作,在微软的 Azure AI 云服务器上完成了训练;另一个重要的区别是其训练数据集里除了文字,还加入了代码,因此 ChatGPT 现在已经可以写程序,甚至给现成的代码找 bug 了。
为什么试用过 ChatGPT 的同学都感觉提升很明显? 一个重要的原因是 ChatGPT 引入了一个新的训练方法 RLHF(论文《Training language models to follow instructions with human feedback》发表于 22 年 3 月),简单的说,就是用人类反馈的方式加强训练。
ChatGPT 还有一个很重要的特点,就是针对输出有效性上做了非常好的调整。使用过 ChatGPT 的同学一定能感觉到,ChatGPT 并非每一个问题都能回答详尽,但它绝对没有胡说八道,ChatGPT 的回答和真实世界的情况是相当一致的。
另一个和确保回答有效性同样值得关注的改进是,ChatGPT 在道德约束上做得很出色。如果我们去询问一些逾越了道德边界的问题,或者一些特别敏感的问题, ChatGPT 基本都能察觉和回避。
音频/视频/3D
音频大模型:Whisper(Google),Harmonai(Stability)
视频大模型:make-a-video(Meta),Imagen video(Google)
3D大模型:Dreamfusion(Google),Magic3d(英伟达) DreamStudio(Stability)
神经辐射场(Neural Radiance Field,NeRF)作为一种具有隐式场景表示的新型视场合成技术,成为 3D 内容生成上最受关注的方向。它可以支持通过训练 AI 算法,输入几张 2D 照片,进而可以渲染生成逼真的 3D 场景。
跨域:
3D<>视频: Open AI在Minecraft(3D小方块建模做游戏的软件)视频上使用反向动力学来寻找用户的行动
大模型vs专业模型
上述无论transformer还是stable diffusion、GPT、Bert,都是各自领域里的通用大模型,且可以互相学习借鉴。这比alphaGo只能用在特定领域,在其他领域需要重新训练显然更为高效,也会有更大的应用价值。
参考文献: