Issue 104 凯文凯利如何看待 AI

随意搜寻 | 2023Jimmy Wong2023-5-13 22:17

一、好好学习

▍1.1  凯文凯利如何看待 AI

上个月,Tim Ferriss Show 邀请了 Kevin Kelly(下面简写为 KK) 聊了下 AI 相关的话题。里面有非常多有意思的观点,给了我不少启发,也让我对 AI 的未来有了更多的想法。这里我做了一个总结,希望能给大家带来一些启发。

注意,整个总结过程,我使用 AI 技术,翻译并总结了 podcast 里的内容,最后再做人工编辑,可能会有错误的地方,请各位注意。

① 1,000 True Fans

KK 在播客开头聊了下他对 1000 个真实粉丝的补充:

1. 即使你的兴趣爱好非常小众,甚至只有百万分之一的人会感兴趣,但考虑到地球上有数十亿人,你依然能找到 1000 个真实粉丝。

2. 并不是每个人都适合做这个事情,艺术家可能只想画画,不想和粉丝打交道。

Jimmy:

我个人的理解是 1000 个真实粉丝,只是一个起点,并不是说只有 1000 个。如果你能找到 1000 个真实粉丝,那么你就能找到 10000 个,100000 个,1000000 个。这个数字只是一个起点,而不是终点。

② AI will replace many tasks, but not their job

KK 在播客中被问到「现在很多人认为 AI 会替代人类的工作,你的看法是怎么样的?」,他的答案是「AI 会替代人做很多任务,但无法替代人类的工作」。

有些任务因为 AI 替代而消失,但工作不会。KK 认为我们的担忧都是第三人称担忧(third-person worry),都是听说「别人的工作会被取代」,当并没有真的遇到过谁因为 AI 而失业。

拿设计公司为例,以前设计公司会雇佣很多实习生,然后让实习生做初稿,正式设计师审阅和调整。有了 AI 工具之后,这些设计师现在需要学习如何使用 AI 工具,然后让 AI 生成设计。

但这并不代表不需要这些初级设计师了,设计成本变低以后,需求会上涨,我们会在更多地方使用设计,比如以前制作 PPT 不会带图片,现在会带图片。这并不是零和游戏。

Jimmy:

我之前在即刻上发过这样的一个帖子:看完微软的发布会,很多人都说 AI 会提高效率,节省人的时间。这让我想起《More Work for Mother》一书里提到的观点—— 当家庭主妇用上诸如洗碗机或者吸尘器之类的家电之后,看似节省劳动力,但并没有节省时间,人们依然很忙,这些工具只会提高社会对干净的标准,抵消了使用家电带来的好处。

KK 的观点和这个很像,AI 会提高效率,但是会让我们的标准变高,让我们做更多的事情,所以我们的工作量不会减少。

另外,我觉得可能因为一些外界的影响,让大家产生 AI 影响到了就业的错觉。那就是经济环境,业务量萎缩,职位肯定会减少,这并不是 AI 带来的。

③ AIs

KK 认为现在的 AI 在某些地方非常聪明,但却会在某些地方非常愚蠢。It’s like, you’re insanely brilliant, but you’re so dumb here. 比如 KK 提到 AI 生成图片工具,能生成非常漂亮的图片,但却没法生成手指。

所以未来我们会有一个通用模型,但它只能算是一般好,但并不能说比所有的都好,所以未来可能会有很多个 AI 模型,每个模型都会有自己的特点,以及缺点。

④ Artificial Aliens

KK 看待 AI 的方式,是将 AI 想象成外星人,他们非常聪明,只是做的事情和我么那不一样,他们能帮助我们以不同的方式进行思考,这就是我们需要使用他们的原因。他们能想出人们想不出的东西。

⑤ Most of Them will be Unseen

KK 认为 AI 会融入到各种日常工作,以及设施中,这将会是 AI 真正成功的标志。我们不会去想他们,它会融入到幕后。

⑥ Wisdom of the Crowd

KK 在访谈中提到,他在用 ChatGPT 辅助写作,他将 ChatGPT 产生的内容比做是「wisdom of the crowd」(群体智慧),所以他们生成的内容基本基本上是正确的,且非常普通和平淡。所以 KK 建议,最好通过指令让 AI 生成更 snarkier(尖酸刻薄)或专业的内容。比如让 AI 就某个知识点,生成 10 个案例。

KK 还提到,他的编辑朋友,会将剧本扔给 AI  ,然后问 AI 「有哪些矛盾的情节?」

Jimmy:

解释下这里提到的「群体智慧」,因为 ChatGPT 生成的内容其实是根据人类写过的内容,通过数学计算,返回最有可能的结果,有点类似从众多人类写的内容中,求平均值,所以 KK 才觉得 AI 生成的内容类似群体智慧。

对了,我最近更新了我的教程,增加了一些语言模型相关的介绍,感兴趣的朋友可以看看。

▍1.2 一日一记

  • (127/365)我认为 AI 最好的应用是帮助人类提升 HI(Human intelligent ,人类智能)。从原理上看,现在的 LLMs 不可能突破人类的认知。因为它学习的是人类了解的东西,然后再将学到的东西复述出来,类似一个复读机。现在不太看好 AI 的人会认为复读机,没啥大不了的。但我觉得复读机也挺好的了,大大地提高了很多人的平均水平。比如写销售文案,发 Email 等。

  • (128/365)最近读到 A16z 的一篇文章,文章开头引用了一句老子的话:“Being deeply loved by someone gives you strength, while loving someone deeply gives you courage. But being understood by someone is everything.”翻译成中文是「被某人深深地爱着使你强大,而深深地爱某人则使你勇敢。」,但我查了好多资料,好像老子没说过这个话啊 😂

  • (129/365) 上周是伯克希尔哈撒韦公司股东会,巴菲特已经 92 岁了,查理芒格今年按虚岁算已经 100 岁了。看了下别人发的视频,他们还是如此健谈,太强了。希望我 100 岁的时候,也能这样。BTW,我听说查理芒格 90 岁以后,就没有离开过助步器(只是听说)。

  • (130/365) 美国 SEC(证监会)给举报人支付了有史以来最大的一笔奖金,金额接近 2.79 亿美元。这也太夸张了吧。

  • (131/365) 听完了吴军得到的 ChatGPT 课程,同时也听完了吴恩达的 AI prompt engineering 课程。两个大牛给我的感觉非常不一样。吴恩达教的东西更微观,教的更多的是技巧,教我们如何用好 AI,对 AI 的态度更多的是包容,且正面;而吴军教的东西更宏观,教的更多的是原理等,但给我感觉更像是「这东西并不牛逼,老子我十几年前就搞过了」😂

  • (132/365) 假期去了趟云南大理,买了一些鲜花饼,吃了几天,越吃越喜欢吃。推荐给大家(牌子是潘祥记,有淘宝店,我喜欢吃玫瑰和云腿的)。

  • (133/365)最近开始学习深度学习相关的知识。如果你也想学习,推荐这本书《深度学习入门》。我觉得最大的问题是数学,以前学过的东西都还给老师了😂。

二、小信号

▍2.1  当代员工必备的IT技能

根据咨询公司 Gartner 发布的《2022年数字员工调查》中发现,白领在工作中平均会用到 11 种应用程序,有 17% 的人会用到16种甚至更多。

那么 AI 时代,白领使用的工具,以及所需的技能是否有变化?WSJ 这篇报道,则是询问了一些企业管理者,以及猎头和咨询师,调研了下这个问题。结论是:

1. 数据解读 AI 能做,但仍然需要人类干预,所以人类仍然需要学习如何使用电子表格工具(Jimmy:但我觉得需要学习的东西不会特别多,比如我觉得公式就不需要学了)。

2. 沟通工具,比如邮件、PPT 等(Jimmy:不太赞同文章的观点,其实很多 IM 工具你根本不需要学,这个是最容易被 AI 替代的)。

3. 项目管理(Jimmy:我觉得和这个需要跟人交互的,AI 相对来说只能辅助,很难替代)。

4. 编程,以及自动化(Jimmy:这个我觉得对很多人现在估计比较难,但使用 AI 工具辅助,应该会简单很多)。

我的结论是:AI 不会替代人类,但使用 AI 的人会替代不使用 AI 的人。有点像是当年 CAD 还没出现之前,人们都是靠手工画图一样:

▍2.2 AI 孙燕姿

上周我在 B 站上看到了非常多 AI 孙燕姿的歌曲,听了几首,我觉得还挺像的。我发现好像也就 AI 孙燕姿比较像,其他歌手的都不太像,像孙燕姿这种声音比较有特色的歌手反会更容易训练。

很好奇孙燕姿本人对这些歌曲的看法。

在大洋彼岸,也有一位歌手遇到类似的情况,不过她更多地是抱着开放的态度拥抱 AI,她就是 Games(BTW 她还是马斯克前女友),她在她的 Twitter 上宣布她的声音开源(算是开源?可以任意使用她的声音):

甚至她还做了一个 GrimesAI 工具,你可以使用这个工具生成带有她的声音的 NFT,然后进行分发和售卖(?抱歉,我不是很懂 NFT),然后你和 Grimes 各分到 50% 的版税。

我觉得这个模式还挺好的,与其禁止,不如参与进去。因为禁止是不可能完全禁止的,作者单人去维权成本巨大,不如参与进去,裹挟更多人,形成利益集体后,维权会更容易。

另一个案例是 Caryn Marjorie,她没有用她的声音,而是用她写的文案作为训练材料,做了个虚拟女友 AI,上线第一周收入 7w 刀,并且她预计能赚 7 百万美元一个月。

从这两个案例中,我有了一个这样的想法:未来的艺术家需要花更多的时间差异化上,而不是基本功上。因为你的画作、甚至你的声音都有可能被人拿来训练,那关键就在于形成自己的风格,即使拿去训练,大家也能知道这是你。比如梵高就很有特色,拿梵高的画作来训练模型,这个模型生成的画,别人也能一眼辨别出来,你只会更出名。孙燕姿的 AI 歌曲,也是类似的。我觉得各位用腾格尔的声音训练,估计也能训练出不少有意思的歌曲。

▍2.3 每周 AI 记事

这个板块稍微升级下,后续除了总结本周值得一看的论文外,还会总结本周值得关注的 AI 新闻。

  • MJ office hour 2023-05-10

原文链接:https://twitter.com/saana_ai/status/1656403099807006720

我没去听这个线上直播,而是看了别人的纪要,几个值得关注的点:

  1. 他们正在做 V6 版本

  2. 提高一致性(我觉得这个是最需要提升的,而不是提升所谓的专业滤镜支持)

  3. 绝大多数 MJ 用户没有生成超过 1000 张图,MJ 的 Aha moment 是 100 和 1000 张图(我的感受是,100 张图靠引导和教程应该能到,1000 张图要靠一致性的提升,不然很难在商业场景上使用)

  • Claude 的 API 最大支持 100K token

这就意味着最大支持 7~8w 字的上下文,这就意味着一些基于短文档内容的 ChatBot,不再依赖 Embedding 技术,可以将整篇文档塞到 prompt 里,回答的结果准确率会有较大的提升。但另一个角度看,这就意味着每次提问的费用将会更贵,并且返回结果的速度会很慢。

刚好我最近也在研究 Embedding 技术,于是就有一个疑惑:Embedding 未来是否会被淘汰?或者换个角度:我们能否接受仅检索一部分信息,以换取成本和效率优势?

想了想,这个可能跟算力类似,随着技术的提升,我们对算力的需求是永不满足的。现在支持 100K token,但我们仍然有 1000K 的文件需要有到 Embedding,未来支持 1000K,我们还有 10000K 的数据。用哪种更有可能是取舍。

BTW,我比较好奇 Claude 100K 的费用,要是每次提问里都带上文件,那这个 token 消耗怕不是天文数字。另外这种直接将文本全部扔到 prompt 里,该怎么让 AI 给出引用位置的信息呢?🤔

  • Google 发布 PaLM2

Google 发布的 PaLM2 模型论文,并且辅助看了下发布会的视频,总结几个我认为比较关键的点:

  1. PaLM2 支持 100 种语言,论文提到这个模型在汉语水平考试 HSK 6 中得了 60% pass。法语水平考试在 C2 中得了 85.7%,西班牙语、德语考试、意大利都得了 60%,日文 J-Test 在 C2 level 考试中拿到了 90% pass。而且从论文中的案例上看,它好像比其他模型更擅长成语和俚语。

  2. 模型有 4 个 size,最小的 Gecko 可以在手机里运行,每秒生成 token 数可达到 20 个,完全够用了。我觉得这个比较值得关注,另外期待 Apple 的模型。

  3. 看了下各种媒体的报道,都说谷歌全面碾压 OpenAI,但感觉好像还是有点距离的,应该是部分超过。像编程场景,最新的模型 PaLM-2-S 在 HumanEval 中只拿到了 37%,而 GPT-4 拿到了 67%(不过需要注意这个测试主要是让模型写 Python 代码,有局限性)。

  4. 应用的整合上,基本思路跟微软类似,全家桶式的整合,其中一个叫 Project Tailwind 的 AI NoteBook 产品,可以申请玩下,看看谷歌做的类 PDFChat 效果如何:https://www.theverge.com/2023/5/10/23718707/google-io-2023-project-tailwind-personal-ai-notebook

  5. 论文链接:https://ai.google/static/documents/palm2techreport.pdf

  • Hugging Face Transformer Agents

这个 Agent 有点类似一个模型调用的路由器,

Hugging Face 上有很多开源的模型,解决以下几个问题:

  1. 在一个产品里同时调用多个模型:比如你想用 A 模型生成图片,那你需要去到 A 模型对应的页面,或者调用 A 模型的 API 去生成图片。当你需要用 B 模型生成音频时,又要切去使用 B 模型,比较麻烦。而现在你可以通过现调用 Transformer Agents,然后让 Agents 选择合适的模型,并将数据传过去,最后返回结果。

  2. 让 AI 找到合适的模型:前一个优点其实在程序里加一些逻辑判断,也能实现。但会存在另一种可能,开发者并不知道什么模型适合什么任务,而 Agent 另一个优点就是,能通过用户输入的任务选择合适的模型。比如用户输入「生成一张星空照片」,Agent 就会去请求一个最适合生成星空照片的模型。

原文链接:https://twitter.com/huggingface/status/1656334778407297027

项目文档:https://huggingface.co/docs/transformers/transformers_agents

三、惊叹时刻

▍3.1 Good Products

  • AudioPen:这个产品算是  AI  赋能的便签?录音自动转成文字,同时还支持将录音中的废话部分通过  AI  过滤掉,这是我最近看过 AI 融合得最自然的产品。

  • 书译-AI 全书翻译工具:支持多种语言的翻译,包括简体中文、英文、繁体中文、日文、韩文等。

  • News Minimalist:使用 AI 技术给新闻打分,然后只展示高分的新闻。看了下,感觉基本上都是国际级别的新闻才能达到「高分」。不过我觉得思路挺好的,

  • AI 法律助手:回答都是由 AI 检索完法律文件后生成。测试了下,如果你问得比较直接,效果就比较好,如果问罗翔老师那种「狂三」式的问题,就不太行了。比较适合检索场景。

▍3.2 Good Videos