2023-03-10 21:22

免费

番外篇 | AI Summary 会取代人工 Summary 吗?

最近 AI 相关的话题非常火爆，也有部分朋友留言说 AI 出现，我们这种人工 Summary 迟早要被淘汰。也有人说有了 AI，总结起来会不会更快。所以我想写一篇番外篇，跟大家分享下以下问题：目前 AI Summary 工具是如何实现的？又有哪些限制？AI Summary 有哪些缺点？AI Summary 会取代人工 Summary 吗？播客小捕手后续的计划。一些科普如果你想进一步了解 ChatGPT 或者 AI 的内容，不妨看看我写的教程。聊对比前，我想先科普一些 ChatGPT 相关的知识，各位了解这些知识后，才能更好地对比 AI Summary 和人工 Summary。Token：这个指的是 OpenAI 处理文本的基本单位，可以是单词或者字符的片段。例如，“hamburger” 被分成 “ham”、“bur” 和 “ger” 三个 Token，而 “pear” 是一个 Token。1个 Token 大约相当于 4 个字符或者 0.75 个英文单词。一些限制：OpenAI 的模型有一个固定的 Token 限制，例如 GPT-3 的 Davinci 模型最多可以处理2049 个 Token，大约 1500 个英文单词。最新 Turbo 模型大约是 4,096 个 Token，大约是 3000 个英文单词。另外这个限制还有一个细节，Token 限制的计数包含输入和输出的文本。换句话说，不是说我输入 3000 个英文单词，然后 OpenAI 能返回 3000 个英文单词的结果，而是输入+输出总共不能超过 3000 个英文单词。文字限制。目前 OpenAI 的 GPT-3 模型只能处理文字。懂了这几个限制后，我再讲解下，市面上的视频/Podcast Summary 是怎么做的。实际上你能直接用 ChatGPT 模拟这些插件。首先，因为限制 #3 ，需要将视频/Podcast 的音频转为文字。这一步因为 Youtube 有 Transcript，所以很多产品会直接拿 Transcript 来用。第二步将 Transcript 和 Prompt（一般是「请总结以下内容」）一起传给 OpenAI 。传给 Open AI 的东西类似这样，你也可以在 ChatGPT 上试试，只需要将下方 Transcript 的内容替换成 Youtube 上的真实 Transcript 即可：Please summarize the following sentences. Text: """ Transcript """最后 OpenAI 就会返回 Summary 结果。但某些视频和 Podcast 会非常长，一集可能有几万字，因为 #2 的限制，根本没法将一集完整的 Transcript 都传给 OpenAI，所以不同的产品，会有不同的处理方式。目前常见的处理方式是「裁切总结」，将 Transcript 切成多个时长为 5 分钟的 Transcript ，再传给 OpenAI ，让 OpenAI 先总结一遍，然后再将这些段落总结，传给 OpenAI ，再让它总结一遍，生成最终的总结内容。目前 AI Summary 的缺点了解完这些 Summary 应用的原理后，目前这类产品的缺点也就相对好理解了：缺点一：内容依赖 Transcript。某些没有 Transcript 的内容基本没法 Summary。比如短视频，或者 vlog，很多都是只有画面，没有说话内容。这些都没法 Summary。当然应该没有人需要短视频 Summary 吧，内容已经够快餐了 😂缺点二：内容质量依赖 Transcript 质量。如果 Transcript 质量不好，AI 总结出来的内容会非常奇怪，举个例子，如果 Transcript 包含了背景音乐里的歌词，AI 就会总结这段歌词。人看到就会很奇怪，突然中间来了一段「爱拼才会赢」的总结。缺点三：Token 限制导致内容缺失。人一分钟大约能讲 125 - 150 个英文单词，180 - 200 个中文。按照现在人们看视频的习惯，视频内容一般不会超过 15 分钟，换算下来大约是 2200 个英文单词左右，或者 3000 个中文字，不过很多视频都不会一直说话，所以字数会少于这个数。所以很多做视频 AI Summary 就会简单处理 Token 限制的问题，比如只传 2500 个英文单词，然后让 AI 返回 500 个英文单词的内容。这种处理方式就比较粗暴（但并不是不能用，哈哈哈），对于长视频来说，就会缺失后半段的总结，如果后半段有反转，那总结就会是完全错误的。比如 Glarity 这个插件，给 Knowledge Project 141 的总结是这样的：这段视频中，Kunal Shah谈到了他从家族企业中学到的几个成功做生意的要素。他们中的大多数人来自于商人的社群，这种社群的人更愿意承担风险、具有更低的羞耻感、更能理解事物的价值、更能发现新的趋势、并且愿意帮助自己的社群成功。这些特点让这些人更有可能在商业上获得成功。对比看看我的总结，这段总结应该只输入了前15分钟的内容。缺点四：层层总结导致内容缺失。当然也不是所有人都那么做，切分总结能部分解决缺失的问题，但切分时长就很关键，如果太长，比如 15 分钟，3000 个英文单词，AI 就没法返回总结了。另外，这种层层总结，也会导致信息缺失。第一次总结，类似讲照片切成一块块，然后逐个打码，最后再将这些打码后的块，组合成一张图，再打一次码，内容少了，也更不清晰了。缺点五：AI 并不知道什么是重点。如果前面 4 个缺点，在技术上未来应该能解决（比如 OpenAI 放开先知道 8K 个 Token），但最后的一个缺点，相对来说，我还没想到如何解决，举个实际的例子。还是以 Knowledge Project 141 为例，Summarize.tech 的 Summary 方式是将视频切分成 5 分钟的一段，然后再对生成的内容进行二次总结。我们一起看看这个结果：00:15:00 The author discusses how he has learned that many concepts in western society are not applicable to Asian societies, such as the value of time. He also discusses how Hinduism is not as scalable as other religions because it is not standardized.里面提到一个 “such as the value of time”，我在听这一段的时候，我认为这段内容很精彩。因为这段 Kunal 聊的是「为何很多工具产品在亚洲赚不到钱」，他解释原因是对于许多亚洲国家来说都是如此，时间作为一个价值概念从未被教导过。但如果你看上面的 AI 总结，其实省略了很多内容，并且吸引力不够，如果我读得快一点，很可能就会忽略它。再看看另一个例子：00:35:00 In India, less than six percent of urbanIndian women have financial income of their own, and 94 of them are currently taking care of kids or taking care of the family and not contributing to the labor force. Another interesting thing is 95 of all financial products in India are bought by men. Credit cards, car loans, and home loans are all by men, while investments are only by men. India has now nearly two thousand dollars per capita income yearly, but if you remove the top 30 million families or 30 million individuals, the per capita income would drop to maybe 600. This is why many western markets love to come to India, because its per capita income is never going to beat and grow like China's because before China started becoming affluent, 96 of Chinese urban women were working because of the one child policy which forced it to become a general neutral society. However, in India, female participation of labor is going down. The per capita income is not going to grow and therefore a lot of foreign companies love to come to India because India is the "dau farm of the world." All the big internet giants, like Facebook, Twitter, and YouTube, will say "I have 500 million billion users in India, but look at the arpu and peel the ar首先这个总结应该是 Token 到达上限，最后没有输出完。让后拿这个总结和上一个总结做对比，你应该会和我一样有相同的疑惑，为何这段总结更长？更详细？我自己也尝试写了一些 prompt，这一块即使 ChatGPT 也做不到很好的一致性（换句话说，你反复提问一样的问题，它会给你返回不同的答案），暂时不知道它以什么标准进行总结。但我也测试出来了一些有意思的东西，最后会跟大家分享。AI Summary 会取代人工 Summary 吗？我的想法是：值得总结的，它暂时还做不好。它能做好的，总结的意义感觉也不是很大。我目前尝试下来，AI 最擅长总结的是那些科技产品评测，特别是像钟文泽做的那些开箱评测，总结准确还很全。但我想说这些评测你会只看文字版本吗？我不太会。所以我也很好奇，这些 AI Summary 工具的次留是怎样的。我反而觉得可能将这些结果重新组装，做成新产品，可能还有意思一些。比如将全网评测 iPhone 14 的视频都总结一遍，然后将这些总结结果再做一些统计，那我就能知道各种 UP 主是怎么评价 iPhone 14 的，赞的人有哪些，赞的地方有哪些，踩的人又有哪些，又踩了什么。现在的 AI 产品玩法，都还是脱离不了文字的交互方式，以及直接跟 AI 交互的方式。为何不试试用 AI 的结果做产品？以前要想搞一个什么值得买很难，需要很多人力，现在会不会简单一些呢？再说说它暂时做不好的内容，我可能会用它来做辅助，但用它做辅助也有两个担忧：我不知道它总结的全不全。被动学习变成主动学习：这个跟第一条有点关系，纯听，或者看文字稿，我大部分时间是被动学习，我能很快判断这个是不是值得记录的，但现在它总结给我，我就要主动去想它总结的内容是什么，是不是值得细听。所以就我目前测试下来，文字稿对我的辅助作用最大。不过我相信未来应该会有更好的解决方案，比如未来应该会支持更多媒介，并且 Token 的限制也会放宽。后续的计划其实我和 fonter 在构思播客小捕手的时候，我们就有用 AI 的想法，但那个时候 ChatGPT 才刚出，还有很多限制，价格也很贵。所以我们就打算用小报童做个 MVP 试试，先人肉做一些看看，躬身入局，实际去做了，才能发现问题。另一方面也尝试用各种自动化工具解决效率问题，比如我们就高度依赖飞书的多维表格，很多内容都是程序自动化抓取和处理的。所以，后续我们会尝试更多 AI 工具，甚至自己去搭建一些 AI 产品。One More Thing前面有提到，我在测试 prompt 的时候，测试出了一些有意思的东西。是这样的。我在前面提到 AI Summary 不知道什么是重点。但如果你传给 AI 的 Prompt 里包含一些案例，它就能根据你给的案例做一些优化。某种程度上是告知它什么是重点。简单说，类似这样的：In India, less than six percent of urbanIndian women have financial income of their own, and 94 of them are currently taking care of kids or taking care of the family and not contributing to the labor force. Another interesting thing is 95 of all financial products in India are bought by men. Credit cards, car loans, and home loans are all by men, while investments are only by men. India has now nearly two thousand dollars per capita income yearly, but if you remove the top 30 million families or 30 million individuals, the per capita income would drop to maybe 600. Highlight: less than six percent of urbanIndian women have financial income of their own.然后下一段话，你就可以这样问，ChatGPT 会返回它理解的 Highlight 内容给你：This is why many western markets love to come to India, because its per capita income is never going to beat and grow like China's because before China started becoming affluent, 96 of Chinese urban women were working because of the one child policy which forced it to become a general neutral society. However, in India, female participation of labor is going down. The per capita income is not going to grow and therefore a lot of foreign companies love to come to India because India is the "dau farm of the world." Highlight: 未来基于 AI 做一个专属于个人的推荐或者 Summary 系统是有可能的。只是你需要给不少初始化数据给模型。比如人对某篇文章的开头段落进行高亮，后续 AI 就能自动根据你的高量结果，高亮文章后续可能被高亮的内容。当收集的数据足够多，新的文章都能自动高亮了。

文章预览

阅读全文

2023-01-08 22:36

免费

斯坦福大学教授教你如何科学健身

本期是 Huberman Lab 的第 94 期，其音频可以点击此收听。一、健身的一些概念健身基本概念少，方法多。主要的概念有：skill 技巧speed 速度power 爆发力strength 力量hypertrophy (growing muscle mass) 肌肥大（让肌肉块头变得更大）muscular endurance 肌肉耐力anaerobic power 无氧能力VO2 max (max heart rate) 最大摄氧量（最大心率）long-endurance 耐力随着时间的推移，如果你一直在做同样的练习，你很快就会达到一个平稳状态，无法进步。要想突破这个状态，就需要达到「Progressive Overload」（渐进超负荷）状态。达到渐进超负荷状态的方法有：加重量增加重复次数增加频率改变运动的复杂性二、Andrew 的健身习惯星期天：耐力至少 30 分钟或更长时间的有氧运动，最好是 60-75 分钟的二区有氧运动（每周最好进行 180-200 分钟的二区有氧运动），例如慢跑或徒步旅行。二区指的是心率区二区，大约是你的最大心率的 60-70%，要想监控这个指标你需要一些智能设备（Jimmy：最新的 Apple WatchOS 支持了此功能）。如果进入二区有点困难，可以考虑穿增重背心，当然也可以背一袋重物。星期一：下肢下肢拥有身体中最大的肌肉群，因此在新的一周开始时，可以用下肢训练，促进新陈代谢，并增强荷尔蒙活动，这个过程甚至可以持续一周。重点练 Quads（股四头肌）, Hamstrings（腿筋）, Calves（小腿）。星期二：热/冷循环根据研究发现，人如果一周去一次桑拿房，并且在桑拿房内待够最少一小时（可以分3-5次进入，一次20分钟），做完桑拿后，你会获得大量甚至 16 倍的生长激素。Andrew 的习惯是热桑拿（20 分钟）然后再去冰浴（5 分钟）x 5 轮。力量训练后不应立即进行冰浴，它会削弱锻炼的好处（Jimmy：所以健完身，不要马上去洗澡，并且不要洗冷水澡）。星期三：上肢上肢训练包括包括锻炼胸部，肩膀和背部。通过负重进行推/拉动作，能增强荷尔蒙活动。推荐动作：肩部推举、引体向上。重要提示：别忘了锻炼脖子！这有助于降低肩部受伤和不适的风险，并减少体前伸，但安全也很重要，想要了解如何锻炼颈部，可以查看ATHLEAN-X 颈部训练的视频。星期四：有氧运动只出 75-80% 的力去进行 35 分钟有氧运动，比如跑步、划船、骑自行车、爬楼梯、跳绳，心率最好也到达二区，但不要超过二区。星期五：高强度间歇训练 (HIIT)目标是提高心率，并在无负重的情况下，进行腿部力量和肌肥大训练。推荐：自行车间歇 20-30 秒全力冲刺 + 10 秒休息 x 8-12 轮。心率最好能达到 4-5 区。注意：只做你能做的动作，并保持完美的姿势。（Jimmy：我的理解是，质量比数量和重量都更重要。我的习惯是如果动作没法做到完美，那就做少几个，或者减少一些重量）星期六：手臂、小腿、颈部推荐动作（Jimmy：注意，以下视频皆来自 ATHLEAN-X，非 Andrew 推荐）：Triceps dip：Are You Doing Dips Properly? (AVOID MISTAKES!)Chin up（引体向上）：From 0 to 5 Pullups in 22 Days (GUARANTEED!)Dumbbell curls（哑铃弯举）：Stop Doing Dumbbell Bicep Curls Like This!Incline curls（上斜弯举）：How to Get Bigger Arms (IN LESS THAN 3 MINUTES!)Triceps kickback：The Tricep Exercise You STOPPED Doing (BIG MISTAKE!)Jimmy：如果可以的话，我建议请私教会是个不错的选择，推荐超级猩猩的私教。三、一些训练建议负重训练：训练开始前做 10 分钟的热身，然后进行 50-60 分钟的负重训练，如果训练超过 60 分钟，收益就会递减。根据身体的恢复能力，制定好锻炼间隔，有些人在两次锻炼之间需要休息多天。对于每个肌肉群，找到一个让你进入负重拉伸位置的运动（例如，站立小腿抬高），再加另一个让你在肌肉缩短位置收缩的运动（例如，坐姿小腿抬高）。如果训练次数较少且重量较重，您实际上需要更多的训练量。例如，较重的重量做 5 组，每组 5 次，如果减少重复次数，如每组 4 次，就需要多做一组。拉伸训练：每个肌肉群每周做 3 次静态拉伸，每次持续 30-60 秒。即使不运动的时候，也可以进行一些拉伸，比如睡前，亦或者在站立办公时候。其他：Dr Peter Atia 提出了一个衡量身体是否健康的方法。简单说来，就是抓住单杠，并使身体吊在上面，40岁男士的话，需要坚持 2 分钟，女士则为 1 分半。各位可以试试，是否能坚持那么久。详细的说明，可以查看 Andrew 的 #85 期。在洗澡的时候，或者在开车的时候，可以进行一个非常简单的训练——故意慢慢呼吸三到五分钟。它能帮助你更好地放松，以及恢复。四、常遇到的问题Q：睡眠不足怎么办？如果您的睡眠质量差，请考虑停止锻炼。这可能会让您生病，专注于恢复并延后一天的锻炼。如果睡眠质量不好，推荐使用 NSDR 的方法休息。Q：生病怎么办？如果是轻微的流鼻涕，可以健身，但需要保持体温。健身有增强免疫力的好处。但如果你发烧，请跳过训练。Q：空腹训练还是饱腹训练？这是一个有争议的话题。Andrew 的习惯是在空腹情况下做有氧前训练。但也不是说一直这样，如果健完身，会有应酬，则会在健身前吃东西，并且在做力量训练前，都会喝蛋白粉。不管怎样，即使是饱腹状态下训练，有训练总比没训练好。五、健身补充剂L-Tyrosine（L-酪氨酸）: 锻炼前 30-60 分钟，服用 500 mg。Creatine（肌酸）: 每天 5 g。帮助氨基酸合成，稍微增加总睾丸激素，增加睾丸激素转化为二羟色胺（如果你担心脱发，肌酸可能会火上浇油。但如果毛囊还在，几个月后头发就会回来）。Alpha-GPC: 锻炼前 30-60 分钟，服用 300 mg （注意长期服用 Alpha-GPC 的人可能会增加中风的风险）。Whey Protein （乳清蛋白）：锻炼后 30-60 分钟，服用 40 g。

文章预览

阅读全文

播客小捕手

免费内容

番外篇 | AI Summary 会取代人工 Summary 吗?

顶级企业 CEO 教你如何做决策

斯坦福大学教授教你如何科学健身

小报童导航