现在来写GPT,不算蹭热点了吧(笑
坦诚来说,我挺早就想写了,初衷和目的很明确:我看见了一些焦虑,我理解其为何而生,想要安抚,却也一直没有能够找到的好的切入点;同时,我也看见了一些漠视,我亦理解其何故如此,想要做点什么,却也怕度把握不好,变为焦虑制造者。
但,最终还是觉得:若然不知道什么才是最好的,不若直接开始。
当我整理了我所有想写的内容,我发现以我的笔力,难以浓缩成单篇文章,甚至,我不确定几篇能最终结束这个话题,故而,以“x”这个变量来计算。
今天便是首篇:1/x,先祛魅,再谈其他。(文中写的GPT,是一个代替,而不是某一个版本的GPT)
AI和我
2012年秋天,我因一个机缘巧合,走错教室,初遇AI,如今,已过10年,我热爱AI这项技术,对其未来以及对人类社会和科技的意义,从未有过一丝一毫的怀疑。但也正因为如此,我才对过度的宣传和预期,心存敬畏和警惕。
我非常喜欢ChatGPT这款产品,尽管它是天使和魔鬼的结合体,是一款伟大的产品,亦是一款非常糟糕的产品,我是plus会员,每天,我都会和GPT交互;我现在从事的工作,也是生成式AI模型层方面的工作,也因为如此,我更加深刻的认为,并且希望每一个人,能够客观、真实的认识它。
概念的诞生,未必源于真实
ChatGPT从出现在大众视野的那一刻,没少被称为“划时代的进步”、“人类的末日”、“xx生命的开始” 。不得不指出的是,这些抽象的概念是无法被证实的,既不能被论证为真,亦难以被界定为假。
举个🌰:
“天下乌鸦一般黑” 这话不客观之处溢于言表,但若要证明这句话是不对的,我们需要找出至少一只不是黑色的乌鸦,何其容易?
所以,我们不需要去证明它,只需要回归本源,意识到发明、传播这些称呼的人很难不是想从这些称呼里获得些什么。如果我们难以分辨何为事实,我们只需要回归表达者的身份、表达的场景,便不难得出:人们说的很多话,很多时候是以自己的身份和角色以及目的为出发点,而非真实/真相本身。
我认为,这一点无可厚非,但我们需要对此了然于胸。
如此,我们就能够以客观和逻辑的角度重新审视它们,即便我们不具备足够的认知基础来分辨,我们只要在心里记住,这些概念的存在都是有其具像化的利益目的便够了。
OpenAI的ceo Sam是我的偶像之一,但我并不会信他作为OpenAI的CEO讲的所有的话。一个伟大的企业的ceo,YC孵化器的领头人,当然知道说什么、怎么说才能最大程度的帮助自己的企业成功并且不断成功下去。
同样,当马斯克叫嚣要停滞AI研究6个月的时候,相信不少和我我内心的os一样:“停下六个月,等你超过吗?”一个坚持完全自动驾驶的企业家,怎么可能真的抵制AI,后来,我们看到他买了多少张GPU...
企业家如此,媒体当然更甚之。
技术本身,其实一点都不神奇,甚至发展亦算不上快
被ChatGPT或者现在的GPT-4、及以后的GPT-5神奇而感到震撼的人群,多是之前并不看好,或者不信语言模型可以有此造诣的。
这一点上,确实存在客观因素,一来,上一轮AI热潮,从大肆宣传的“取代人类”到“人工智障”也不过寥寥没几年。二来,在应用侧,无论是ASR技术、ChatBot、还是图像技术,均以雷声大雨点小的形式出现然后迅速普通化。
尤其是,过去三年,在公众视角甚至一些从业者眼里,AI=人工智障,确为一主流声音。而当这种主流声音称为默认认知的时候,“横空出世”的ChatGPT,颠覆了这种认知,为之惊叹,实属合情合理。
但对于一直研究语言模型/大语言模型的研究者/从业人员来说,感觉可能全然不同,ChatGPT的成功,虽然伟大,但却更多是大力出奇迹下的理所当然。
核心原因有二:
大语言模型的智能根源在于其【推理能力】,而【推理的本质】=【数学计算】但判断不止于计算。
Transformer解决根本问题是:如何用大量的计算资源来解决学习大量知识的问题而非学习方式的根本性进步
关于推理
用一个接地气的方法来讲“推理”—— 福尔摩斯的「基本演绎法」(当然,确切来说是柯南道尔的)
所谓「基本演绎法」便是:罗列出所有可能性,然后逐一用逻辑和事实排除、直到真相水落石出。即福尔摩斯的那句名言:
“当你排除了所有的不可能,剩下的那个无论多么令你难以置信,那就是真相。”
推理的过程,其实可以粗糙的分解为两个步骤:
罗列出所有可能性
排除不可能
其中,1.的本质为计算,2.的本质不止于计算。 1. 这件事计算机比我们任何人都擅长,2.的过程在数学模型里就只能演化成一个算概率的过程,但人类的判断并非只是基于概率判断。我们看到的GPT系列给出的任何答案,只是基于它对概率的学习而非判断本身。
所以,只要语言模型的学习方式不改变,2.这件事上,语言模型很可能永远也做不到人类的程度。
至少可以肯定的是现阶段它是绝对做不到的。
概率计算,还是概率计算
ChatGPT的成功,把“transformer”的概念代入了大众的视野,很多人都认为其是一种革命式的创新,但真相并非如此。
Transformer并非突然出现的颠覆式创新,而是标准的渐进式。
最初语言模型在1972年被提出的时候,首先是比较偏向于概率学的,然后因为算力的进步,允许研究者易“神经网络”(DNN)来代替概率学来建立模型,但DNN解决不了上下文记忆的问题,所以出现了循环神经网络,RNN解决了一部分,但解决不了长句/长文关联以及无效信息遗忘的问题,所以,研究者发明了长短期记忆模型(LSTM),LSTM解决了一部分,但局限是:只能做串行计算,这也意味着它不能够最大程度的通过横向扩展计算资源来收益,随之,Transformer出现,并解决这个问题,允许了大量的计算资源来加速模型的计算和训练。
这一系列的变化并不改变大预言模型已然只是在做概率计算的本质。不然ChatGPT也不需要RLHF了。(RLHF=基于人类反馈的强化学习,接地气的说法就是肯尼亚小哥哥姐姐辛辛苦苦标的)
追本溯源,语言模型最初是在1972年出现的,到今天ChatGPT的出现已然过了半个多世纪。这个过程并不是很快,但我们如今感知到的:一天一个变化,更多的是在transformer和diffusion模型出现了成功案例引发的研究资源聚焦后的微创新的爆发。这得益于ChatGPT和Stable Diffusion的成功但在它们基础上的微创新并不改变本质。
ps:Diffusion 模型基于的「非均衡热力学远离」其两大基础理论其实也是上个世纪的产物(于1931年和1941年提出)。
所以,ChatGPT并不神奇,它离xx生命很遥远,那些打着xxxx口号的人,更多的可能只是想从你口袋里捞点什么。当然,我确实认为它很有意思,是一个名副其实的伟大和糟糕并存的产品,它也值得我们所有人去探索和体验。
关于这一部分,下次再聊。