HomeRay的新能源产品笔记
Ray的新能源产品笔记

Ray的新能源产品笔记

@Ray

误入互联网行业13年的产品经理Ray,目前在一家主打智能化体验的新能源汽车公司做一些跟车大体不太沾边的事情。
既有今朝醉,也求万年长。
Enjoy.
订阅0
文章19
最后更新:2023-4-27 17:30
查看 【Ray的新能源产品笔记】 详情查看 【Ray】 主页
分享到微信打开

免费内容

2023-1-15 17:29

No.15 年终总结与展望

农历年前的最后一个工作周,适合写写年终总结。两周前加入了纯银老师的产品经理社群pmdogs,正好聊到他最近提的一个话题,我是这么说的:个人成就还是来自于工作上,只能阶段性切换行业,跟着趋势去走,所以起起伏伏是难免的。但过去的一年总体上很开心,在新的赛道获得了大量新的认知,同时过去十几年的积累也得到了综合实践的机会,对未来没有那么悲观了。科技还是在发展,商业社会也总有待解决的问题,我个人觉得产品经理只要找对赛道,能综合运用自己的技能树和不断扩展新的认知,大可不必太悲观的。这是在这个行业、社会、周遭普遍认为非常糟糕和难过的一年的年尾,作为一个微小个体的一点差异化的感受(如果你知道我上个农历年过的有多糟的话,或许更能理解一些)10月份的时候我在小报童开通了个人付费专栏,今天心血来潮也简单统计了下数据:截止目前服务97天,写了15篇文章,初步达到了在开篇时提到的flag(Hey,Strangers)订阅人数最高40左右,大概占我朋友圈人数的4-5%,由于我没有做啥外部推广,这个数据还算满意吧最近调了一次价格,可想而知的是续订率暴跌。其实调价的原因是我意识到我自己朋友圈的流量转化应该是到头了,但这个订阅人数坦白说很难有一直持续下去的动力,于是干脆就从价格上做点文章。目前的这个价格,哪怕就几个人愿意持续看,对我来说也是值得认真对待和交付的一件事儿了悄悄开了一个转发订阅分佣的功能,感兴趣的可以试试点下这里右上角的分享小按钮以下算是本专栏正儿八经的总结了,由于小报童没有标签功能,我给每篇文章标题打上了【主线】【支线】和【番外】,方便索引:智能化系列这是我最满意的几篇,满意的原因倒不是在于写得多好,而是这些内容也确确实实是我今年最大的认知收获。其中有几篇是访谈,某种程度上也证明了个人总结往往会枯竭,但交流中迸发的灵感却是源源不断的:何以“智能”?因上努力,果上随缘—新能源车智能化祛魅聊聊智能座舱的终局范式再谈自动驾驶智能新能源汽车的底座明年这个方向会继续深入,比如聊聊智能驾驶的具体体验、感知模型的演变、博弈算法的可能性等等,至于智能座舱,可聊的点甚至都无法穷举。新能源系列主要来自此前的一些行业积累。另外碳中和这个话题,坦白说我最早也觉得过于宏大和缥缈了,但如果你换个视角去看,会发现很多有意思的知识和一个极其有趣的思维框架:新能源汽车的"能"与"源"充电,换电还是加氢?万亿新能源汽车产业:重构、变局与十年发展红利(转载)为什么说实现碳中和的将会是有史以来最伟大的产品经理?新技术新应用系列非常有意思的一点是,无论是年初的web3,还是年尾的AIGC,又或者比如元宇宙相关的渲染引擎、3D化这类热点,今年我或多或少都做了一些实践。这大概就是陆奇所说的“智能汽车是未来先进技术的母生态”吧。web3整体来说还在迷雾中前行,而AIGC实实在在地震惊到了许多人,突然会有一种类似于2010年左右“一起才刚刚开始”的感受,这也是我觉得今年或许是个好年头的原因:Web3迷雾与探路AIGC综述 (这也是我自己回头经常来查查或者补充更新的一篇)3D/AIGC/机器人/web3/卫星与空间站-2022极客公园创新大会速记番外篇主要是有感而发的一些内容吧。主题无关,但也有关。无题一点新年感受与广告以上。下半年突发奇想开的副本,算是有了一点草率的雏形。给看到这里的朋友拜个早年,明年见:)图片来自Midjourney,prompt:Happy Chinese New Year, future city, fireworks.

2022-12-12 17:3

No.10 AIGC综述

这是一篇综述,几乎没有个人观点,因此免费。起心动念还是在于最近AI作图、chatGPT的火爆出圈。突然发现很久没有突破的AI领域,居然已经发生了剧变。想想Transformer是17年底18年初的产物,AI作图的底座stable diffusion更是今年7月份才发布。相比web3、元宇宙这些在口号中存在了许久的概念,这或许才是某种意义上真正的“未来已来”。个人观点表达完毕,以下enjoy:老规矩,先来看看chat GPT怎么说他真是一个挺诚实的AI...通用大模型的发展历史史前时代:1956年,达特茅斯会议,两个流派:符号主义(基于知识推理,演绎,包括知识图谱)vs 连接主义(基于数据,概率论,经验主义归纳)实践证明连接主义完胜。第一次跨越:2006 年,杰弗里·辛顿(Geoffrey Hinton)在 science 期刊上发表了重要的论文《Reducing the dimensionality of data with neural networks》,提出深度信念网络(Deep Belief Networks,DBNs),「深度学习」正式诞生,基于人工神经网络的第三次 AI 发展浪潮开始了,且一直延续至今。深度学习不需要逻辑推理,就是把所有的数据投入进深度学习的模型里去,它会自己去判断哪个有用、哪个没用。现代神经网络模型的网络结构层数很深,动则几百万上千万参数量。 而这些神经网络模型在能做特定任务之前,都是需要经过「训练」,即根据标注好的特定训练数据去反复调整模型里的参数,最后所有参数调整到位,模型能匹配训练数据集的输入和输出。第二次跨越:预训练要调整深度学习神经网络模型里那成千万的参数量,如果训练数据少了,肯定很难调整到位。但是,那些特定的 AI 任务往往没有那么多训练数据,这怎么办?非常值得庆幸的是,AI 科学家研究发现了深度学习网络一个有趣的特性,对于图像领域的深度学习神经网络而言,不同层级的神经元学习到的是不同逻辑层级的图像特征。比如图像:若将训练好的网络每层神经元学习到的特征可视化,会发现最底层的神经元学习到的是线段等特征,第二层学到的是人脸各个五官的特征,第三层学到的是人脸轮廓的特征,这三层构成了人脸特征的逻辑层级结构。神经网络越底层的特征越基础抽象,比如什么边角弧线等,而越往上层,就具体和任务相关。一个训练好的深度学习网络的内部参数,在底层体现了通用和基础的特征,而越到高层,越和特定任务相关。这是深度学习神经网络一个特别棒的特性。第三次跨越:2017-Transformer  self-attention机制,自我打标,不需要人工标注2017 年 12 月,Google 在顶级机器学习会议 NIPS 上发表了论文《Attention is all you need》,提出在机器翻译上大量使用自注意力(Self Attention)机制来学习文本表示,并把这种机制模型起了个霸气的名字:Transformer。这篇论文一经出世就横扫了整个自然语言处理学术界,Transformer 迅速的取代了深度学习里传统的循环神经网络(RNN)成为了之后的大语言模型的标准配置。Transformer 是目前 NLP 领域里最强的特征提取器,本质上 Transformer 是一个叠加的「自注意力机制」构成的深度网络。参照了人类的视觉注意力机制,核心目标就是从众多信息里选择出对当前任务更重要和关键的信息。在 Tranformer 出现之前,我们要训练一个深度学习模型,必须使用大规模的标记好的数据集合来训练神经网络。对数据进行标注只能人工进行,金钱和时间成本都相当高。而回过头来,Transformer 的核心是在数学上计算输入元素之间的关联(Attention),通过这种模式,Tranformer 成功的消除了训练数据集的标注需求! Self Attention 机制还附带了一个很大的好处:因为网络层面抛弃了传统的 RNN(循环神经网络)模型,彻底规避了 RNN 不能很好并行计算的困扰,极大提高了模型并行训练计算的效率。更不用说,Attention 注意力机制只关注部分信息,参数较少,容易训练。目前应用Transformer的模型:特斯拉自动驾驶视觉感知 BEV/ OccupancyGoogle BERT 语言模型(分析式AI)OpenAI GPT (生成式AI)AI作图2009年开始,年轻的李飞飞以坚韧不拔的大无畏精神,推动完成了一个超大规模的开源图片标注数据库,这就是著名的 Image Net 项目。在 2009 年正式发布时,Image Net 有超过 1000 万数据,两万多个类别。2010年开始,Image Net 大规模视觉识别挑战赛(ILSVCR)开始举办,全世界图像领域深度学习的专家们同台竞技和交流,从此拉开了计算机视觉的新篇章。Image Net 的出现和发展给了自然语言 AI 模型研究一个很重要的启发。这就是图像领域深度学习的预训练概念。2012年 Google两位大名鼎鼎的AI大神, 吴恩达和Jef Dean进行了一场空前的试验, 联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络, 用来指导计算机画出猫脸图片. 当时他们使用了来自youtube的1000万个猫脸图片, 1.6万个CPU整整训练了3天, 最终得到的模型, 令人振奋的可以生成一个非常模糊的猫脸2014-生成对抗网络(GAN, Generative adversarial network)GAN 解决这个问题的方式是,放一个老师,跟学生博弈(两个内部程序 "生成器(generator)" 和"判别器(discriminator)" )。模型就像一个学生,给出考题的答案,老师来判断正误,直到满意;老师满意以后,学生对老师不满意了,觉得这些题太简单,老师你得出点更难的题目,我还得继续提升成绩呢,于是老师也要进步,给新的考题,直到学生几乎答不出来;接下来学生继续努力学习、答题,到了阈值后,老师继续学习、出题......循环往复,就像 GAN 的名字里所述,对抗的模式来共同提升。但是, 用基础的GAN模型进行AI绘画也有比较明显的缺陷, 一方面是对输出结果的控制力很弱, 容易产生随机图像, 而AI艺术家的输出应该是稳定的. 另外一个问题是生成图像的分辨率比较低.GAN在"创作"这个点上还存在一个死结, 这个结恰恰是其自身的核心特点:  根据GAN基本架构,判别器要判断产生的图像是否和已经提供给判别器的其他图像是同一个类别的, 这就决定了在最好的情况下, 输出的图像也就是对现有作品的模仿, 而不是创新......2015年 Google发布的一个图像工具深梦(Deep Dream). 深梦发布了一系列画作, 一时吸引了很多眼球。但如果较真一下, 深梦与其说是AI绘画, 更像是一个高级AI版滤镜。和作品不尴不尬的Deep Dream相比, Google更靠谱的是2017年成千张手绘简笔画图片训练的一个模型, AI通过训练能够绘制一些简笔画. (Google, 《A Neural Representation of Sketch Drawings》)  Google把相关源代码开源了, 因此第三方开发者可以基于该模型开发有趣的AI简笔画应用;2017年7月, Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型, 号称创造性对抗网络 (CAN, Creative Adversarial Networks)2021年1月OpenAI团队 -CLIP(Contrastive Language-Image Pre-Training)CLIP训练AI同时做了两个事情, 一个是自然语言理解, 一个是计算机视觉分析. CLIP模型的训练过程, 简单的说, 就是使用已经标注好的"文字-图像"训练数据, 一方面对文字进行模型训练, 一方面对图像进行另一个模型的训练, 不断调整两个模型内部参数, 使得模型分别输出的文字特征值和图像特征值能让对应的"文字-图像"经过简单验证确认匹配。CLIP最聪明的地方, 它用的是广泛散布在互联网上的图片! 互联网上的图片一般都带有各种文本描述, 比如标题, 注释, 甚至用户打的标签, 等等, 这就天然的成为了可用的训练样本.  用这个特别机灵的方式, CLIP的训练过程完全避免了最昂贵费时的人工标注, 或者说, 全世界的互联网用户已经提前做了标注工作了.把CLIP嫁接到GAN上去生成图像, 这其中的思路倒也简单明了: 既然利用CLIP可以计算出任意一串文字和哪些图像特征值相匹配, 那只要把这个匹配验证过程链接到负责生成图像的AI模型 (比如这里是VQ-GAN), 负责生成图像的模型反过来推导一个产生合适图像特征值, 能通过匹配验证的图像, 不就得到一幅符合文字描述的作品了吗?有人认为 CLIP+VQGAN是自2015年Deep Dream以来人工智能艺术领域最大的创新. 而美妙的是, CLIP+VQGAN对任何想使用它们的人来说都是现成的。有意思的是, 在同一个时间(2021年初), 开源发布CLIP的OpenAI团队也发布了自己的图像生成引擎DALL-E. DALL-E内部也正是用了CLIP, 但DALL-E并不开源!2022- LAION 是一个跨全球的非营利机器学习研究机构,今年3月开放了当前最大规模的开源跨模态数据库LAION-5B,包含接近60亿(5.85 Billion)个图片-文本对, 可以被用来训练所有从文字到图像的的生成模型,也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型,而这两者都是现在 AI 图像生成模型的核心。2022-Diffusion模型(扩散化模型)最基础的直觉原理来源于物理学。在环境中,气体分子会高浓度区域扩散到低浓度区域,这个过程,也类似噪声逐步扩散、最终导致信息丢失。将这个原理运用在图像生成,便是将「噪声逐步扩散、最终信息丢失」的过程逆向运作。先生成一张充满大量噪声的图片,再基于 AI 能力,一边猜测哪些对于最终的图像而言是「噪点」,将其去除,那么剩下的便是所需的「信息」。通过迭代,在噪声中反复提取出「信息」,最终生成被指定的图片。这就是Diffusion扩散化模型的基本思路Diffusion扩散化模型目前在计算机视觉领域的影响力越来越大,它能够高效合成视觉数据,图片生成完全击败了GAN模型, 而在其他领域如视频生成和音频合成也展现出了不俗的潜力.Diffusion两大痛点, 1) AI绘画细节还不够深入, 2) 渲染时间过长, 实际上都是因为Diffusion扩散模型的一个内在缺点, 这就是反向去噪生成图片的迭代过程很慢, 模型在像素空间中进行计算,这会导致对计算时间和内存资源的巨大需求, 在生成高分辨率图像时变得异常昂贵。2022-Stable Diffusion今年7月开始测试, 它非常好的解决了上述痛点实际上Stable Diffusion和之前的Diffusion扩散化模型相比, 重点是做了一件事, 那就是把模型的计算空间, 从像素空间经过数学变换, 在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里, 然后再进行繁重的模型训练和图像生成计算.基于潜空间的Diffusion模型与像素空间Diffusion模型相比, 大大降低了内存和计算要求。比如Stable Diffusion所使用的潜空间编码缩减因子为8, 说人话就是图像长和宽都缩减8倍,  一个512x512的图像在潜空间中直接变为64x64, 节省了8x8=64倍的内存!这就是Stable Diffusion之所以又快又好的原因,  它能快速(以秒计算)生成一张饱含细节的512x512图像, 只需要一张消费级的8GB 2060显卡即可!2022年。应用层AI绘画服务 MidJourney (应用diffusion模型)基于discord提供服务,全网最火Disco Diffusion 是在今年 2 月初开始爆红的一个 AI 图像生成程序,它可以根据描述场景的关键词渲染出对应的图像。用Disco Diffusion可以生成一些很有氛围感的草图, 但基本还无法生成人脸。Disco Diffusion,  正是第一个基于CLIP + Diffusion 模型的实用化AI绘画产品. 今年4月, 著名人工智能团队OpenAI 也发布了新模型 DALL·E 2代,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E), 同样支持从文本描述生成效果良好的图像.AI文本/对话首先,自然语言处理的研究里,有个基本概念叫做「语言模型」,就是想办法打造一个核心函数 P,这个函数通过一个句子里前面的所有单词来计算下一个单词的概率大小。一句话里的单词总是顺序出现的, 每个单词都可以通过前面所有单词计算出这么一个概率,把所有这些单词的概率乘起来,总概率数值越大,说明这越像是人说出的话。2003-「神经网络语言模型」NNLM  概念出现,但没有得到重视2013 -AI 研究人员倒腾了一个自然语言处理的处理模型 Word2Vec。 「Word2Vec」就是「Word to Vector,从词到向量」。研究人员的目标是把一个单词变成一个数学向量,这个数学量在 NLP 里有个专门的名词,叫做 Word Embedding(词嵌入)NNLM 和 Word2Vec 使用了类似的神经网络结构,不过因为目的不同,其训练方法理念是截然不同的。NNLM 作为语言模型,是要看到上文预测下文,所以训练时输入的是句子上文单词--生成式AI;而 Word2Vec 呢? 因为它的目标是要找出所有单词之间意义远近的数学关系,所以训练时都使用句子上文和下文作为输入。--分析式AI2018 -根据当前上下文来动态调整 Word Embedding 的想法就是顶级学术会议 NAACL 2018 年的最佳论文「Deep Contextualized Word Representation」,这个 NLP 模型命名为 ELMO(Embedding from Language Models,基于语言模型的词嵌入) 此外,ELMO 还有一个贡献,研究人员发现 ELMO 所使用的深度神经网络模型里,不同层次提取到的特征是有差异的。--适合进行预训练因为技术原因,LEMO 模型在抽取文字特征方面还比较弱,这是一个技术上的缺陷,意味着这个模型就无法很好完成 NLP 的「预训练」梦想:  特征都抽取不好,怎么让网络里每一层具体表达不同逻辑层级的特征呢。自然语 AI 研究人员还需要继续找到一个方法,希望这个方法能很好的提取出文字的特征,就类似图像处理领域的神经网络模型,能很好的提取图像不同逻辑层面的特征。恰就在时间刚好的 2017 年底, Google 研究人员发表了一篇里程碑式的论文, 这一篇论文提出的「自我注意力」机制让自然语言处理揭开了崭新的篇章---TransformerGPT/chat GPTGPT 全称是「Generative Pre-Training」,直译过来就是「生成式的预训练」如前文所说,OpenAI 对 GPT 的生成式 AI 有坚定的信念,因此在训练模型的时候,只选用「上文」来训练模型,也就是说,GPT 本质上是一个极致的概率模型,它根据上文提示,来猜测下一个单词应该是什么。这个坚持虽然在一开始 GPT-1 和 GPT-2 时代让其输出效果稍逊于同期 Google 的语言大模型 BERT,但到了 GPT-3 时期,在超级规模网络参数的加持下,GPT 这个 100% 纯粹的生成式 AI 终于迸发出耀眼的光芒,模型输出效果甚至大幅超越了研究人员的预期。尽管没有实证,但笔者很倾向认为 GPT-3 的极大成功和 OpenAI 坚定不移的只用上文来训练模型有着某种必然的关系,人的语言沟通也从来都是按顺序表达的,没有谁先把一句话的最后一个词说完才回头考虑上一个词。从这点来看,GPT 系列模型顺应了人类思考的逻辑,最终由量变推动了质变。终于,借助了 Transformer, GPT 这样的超大规模语言模型(GPT-3 有 1750 亿个参数)在不需要标记数据的情况下,可以借助现成的海量标准数据以及超级算力,得到通用的「预训练」版本模型。ChatGPTChatGPT 是基于 GPT-3.5 模型的魔改。GPT-3.5 和 GPT-3 的区别呢,首先是和微软合作,在微软的 Azure AI 云服务器上完成了训练;另一个重要的区别是其训练数据集里除了文字,还加入了代码,因此 ChatGPT 现在已经可以写程序,甚至给现成的代码找 bug 了。为什么试用过 ChatGPT 的同学都感觉提升很明显? 一个重要的原因是 ChatGPT 引入了一个新的训练方法 RLHF(论文《Training language models to follow instructions with human feedback》发表于 22 年 3 月),简单的说,就是用人类反馈的方式加强训练。ChatGPT 还有一个很重要的特点,就是针对输出有效性上做了非常好的调整。使用过 ChatGPT 的同学一定能感觉到,ChatGPT 并非每一个问题都能回答详尽,但它绝对没有胡说八道,ChatGPT 的回答和真实世界的情况是相当一致的。另一个和确保回答有效性同样值得关注的改进是,ChatGPT 在道德约束上做得很出色。如果我们去询问一些逾越了道德边界的问题,或者一些特别敏感的问题, ChatGPT 基本都能察觉和回避。音频/视频/3D音频大模型:Whisper(Google),Harmonai(Stability)视频大模型:make-a-video(Meta),Imagen video(Google)3D大模型:Dreamfusion(Google),Magic3d(英伟达) DreamStudio(Stability)神经辐射场(Neural Radiance Field,NeRF)作为一种具有隐式场景表示的新型视场合成技术,成为 3D 内容生成上最受关注的方向。它可以支持通过训练 AI 算法,输入几张 2D 照片,进而可以渲染生成逼真的 3D 场景。跨域:3D<>视频: Open AI在Minecraft(3D小方块建模做游戏的软件)视频上使用反向动力学来寻找用户的行动大模型vs专业模型上述无论transformer还是stable diffusion、GPT、Bert,都是各自领域里的通用大模型,且可以互相学习借鉴。这比alphaGo只能用在特定领域,在其他领域需要重新训练显然更为高效,也会有更大的应用价值。参考文献:ChatGPT 的「神功」,是如何炼成的?AI绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的AI绘画发展史聊聊ChatGPT和OpenAI,通用AI的第一个里程碑谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了 |【经纬低调分享】从机器学习聊到 AIGC

2022-10-16 12:50

No.1 何以“智能”?

抬头看天:科幻与科技以下的内容摘自晚点LatePost:1957 年,人造物体第一次进入宇宙,绕着地球飞了三个星期。人类抬头就能在夜幕里看到一颗小小的闪光划过天空,与神话里的星宿并行。这样的壮举跨越种族与意识形态,在全球各地激起了喜悦之情。但并不是我们可能猜想的那种为人类壮举所感动的胜利喜悦。根据政治哲学家汉娜·阿伦特(Hannah Arendt)当年的观察,人们的情绪更接近于一种等待多时的宽慰——科学终于追上了预期,“人类终于在摆脱地球这个囚笼的道路上迈出了第一步”。人们总是根据技术探索,快速调整着自己对世界的预期。当科幻作家的一桩畅想变成现实,往往是技术终于追上了人们的预期,或者用阿伦特的话说,“科技实现并肯定了人们的梦想既不疯狂也不虚无。”Comments by Ray:或许人类对“智能”的认知首先来自于“抬头看天”。我们看过无数的科幻小说、科幻电影和漫画故事里描述的未来世界:随处可见可用的全息影像屏幕、智能满格的机器人AI助手、飞行器、光速飞行、空间折叠、虫洞旅行,抑或仿生人、科学怪物、赛博朋克式的末世等等。而阿伦特(就是提出恶的平庸性的那位)的洞察在于:当科技进步达到某个水平时,它仅仅是可能追上了人类的幻想而已。我上小学时写的科幻作文里描述了飞行器漫天飞的场景,而当最近看到小鹏汇天飞行器的新闻,不知道有多少人是觉得“哇好酷”,而多少人翻出童年时的幻想对比后心里冷笑一声:就这?低头看路:对智能化的三种阐述但科幻毕竟是科幻,如果回过头来看看我们身边的产品,又有哪些对“智能化”的践行?Created by Ray:阐述一:在具体场景下满足某个需求(一般是认知为比较复杂的需求)的过程中,需要消耗脑细胞的程度越低,智能化程度越高这句话的意思有一个很简明的概括:Don’t make me think. 这最早其实是讲交互设计的一本101的书里的概念,只是被满足的需求越来越复杂:-搜索“苹果”,结果展示苹果手机还是水果?又或者,我是不是应该搜索“苹果手机”?(如果用户出现这个疑问其实就已经输了)-当下的智能家居产品的“场景联动”,在设置场景联动时是需要每个都进行复杂的设置,还是能给出一键设定的模式阐述二:非主动发起式的需求,在合适的场景下被“推荐”,推荐的精准度越高,智能化程度越高-电商搜索的推荐关联度,最被诟病的是已经买了某件商品却被继续推荐其他品牌的同类商品-抖音/小红书的feeds推荐(用户既希望满足taste,又希望有新鲜感和边界扩展;这点小红书做得更好,是内容找人的逻辑;而抖音的逻辑本质上是内容找流量,流量再正向强化)-如果推荐能跟场景联动,也会体现比较强的“智能”感,比如多屏间的内容继承(手机/pad/电视/车机)阐述三:需求实现方式与人的沟通表达方式越接近的,一般会被认为智能化程度越高(即拟人化水平)-最典型的对比是Siri和微软小冰,也就是指令和聊天的差异。有的人会把这类差异归结为有没有情感,但事实其实会复杂的多。比如前阵子谷歌的一个AI工程师突然上报说训练的AI有了个体意识,但实际上只是这个AI善于应用网络内的文本而已。有了情感意味着有了主体性,这又是一个机器人伦理问题了。同行者:AI关于 AI 的释意,简单来说,它通常指通过计算机来实现人类智能的技术,比如让计算机像人类一样识别,像人类一样认知,像人类一样思考。在实现智能化的旅途中,靠人类智能单打独斗的时代,正在被人类与AI同行演进的时代所取代。以下观点来自于有自主意识的 AI 才是人类需要的真 AI | Founder 100Summary by Ray:AI 的发展有几条核心路径:大模型、强化学习、知识图谱。知识图谱是很经典的专家模型的 AI 做法,简单来讲就是把一些专家的知识抽象成知识的表达,然后放到一个图谱中,并且能够恰当地根据用户的输入进行调取。概括来说,有多少人工就有多少智能,专家知识库本身的提取非常困难,而且提取的范围有限,一般在一些特定的、范围相对明确的领域里,会采用这种实现方法。而流派里的另一端,就是基于深度学习或神经网络的大模型做法。像大模型这种完全基于生成的对话模型最近非常火,但这种技术存在的根本性问题是它并不具备思维的过程,完全是一个黑盒子,通过一些 PTM(预训练模型)或者引导语去调取语言的生成,本质上很难知道它到底怎么想。关于AI的话题和知识有很多,个人觉得核心还是要认识到每一种路径、方法的边界,去匹配你要解决的问题。知识图谱可以解决确定性问题但没有想象空间,大模型和深度学习可以去解决不确定性的概率问题但逻辑上的解释性就很弱了。比如特斯拉的自动驾驶的感知算法就是从多个摄像头的后融合 -》多个摄像头的静态前融合(BEV算法)&Transformer模型引入时序 -》Occupancy模型,解决模型没法学习所有物体语义的问题,实现比激光雷达点云更高精度和返回频率的通过性预测,再利用多神经网络规划最优路线选择(解决本地算力瓶颈);甚至将自然语言处理技术应用到矢量地图模型来代替高精地图,解决高精地图鲜度和成本问题。而这一些,还紧紧只是单车智能的路线,未来或许车路协同、车车协同会有更大的“智能化”空间,这种智能某种意义上超过了人类驾驶员的视野和思考能力,将会是更先进的智能。以上。关于智能化的一些个人理解就扯到这里。下一篇讲讲新能源车市场在智能化主题下都卷出来了哪些新高度(也可能将别的)。

2022-10-9 20:57

Hey,Strangers

致我的老朋友们,题文不符,是因为几个月前我的猫死了。我的猫叫舒动人,而我以前的ID是舒无戏。或许可以开始一段新的旅程了吧,我跟自己说。所以现在你可以叫我Ray。这是我新开的专栏,而上一次做这个事情,恰恰正好是在10年前。2012-2013移动互联网的黄金时代。2012年的我是一个工作两年的小学鸡,但已经换了一家公司(百度LBS->58的一个神奇的内部创业项目),也是极客公园的资深读者。于是在繁重的工作之余(年轻真好),响应公园的号召以“产品观察家”的名义写过一些稿子。前两天偶然想起,发现互联网真的是有记忆的,以下有图有真相:舒无戏|极客公园我一共写了五篇,第一篇是写韩寒的ONE app。之后公园写稿不给钱了,就没继续写了😄十年以后,这五篇文章里说的产品除了微信活得很好,360半死不活以外,其他产品都已经消失在黄金十年的浪潮里了,有趣的是微信那篇其实是diss文。。。韩寒“一个就够了”的思路没有成立,火了一阵的相机/P图软件被短视频终结,可穿戴这个概念至今还是只有apple watch作为一个看时间收通知记步数的存在算是出圈了吧,360产品理念很好但产品已经被淘汰了。历史的宿命吧,这仅有的五篇文章恰恰描绘出了一个流量为王的时代,一个创新奔涌而出,浪潮迭起却又落下的时代。我庆幸曾经历这样的时代。2012-2022我换了几家公司,从北京回到杭州,做过互联网金融、出行O2O、产业互联网,负责过增长、效率、体验、平台,也尝试过SaaS、CRM、供应链(很浅),经历过很多行业的兴衰,也开始带团队、做管理。但我越来越觉得无聊。很少有人再讲体验和创新,虽然他们在讲(嗯废话文学)。增长黑客。很高级,也很low。平台思维。很宽广,也很狭窄。价值分配。变着法子想赚钱的一种说法。生态搭建。相对来说养鱼更适合我。有很多人赚到了钱。也有很多人被套牢了。还有一些像我这样以为可以赚到钱,却被套牢的。(是的我上家公司是滴滴)我们不再以做出体验优秀的产品为傲。最终迷失在这次浪潮的尾声里。2022-至今Hey, Strangers. 重新介绍一下我自己:我是Ray,一个误入行业12年的产品经理(平行世界里我可能继续在P大研究一些经济学问题)。目前在一家以智能化为导向的新能源车企,做一些跟车大体上不能算特别沾边的事情。如果你愿意花10块钱听我唠叨,那么未来你可能(注意是可能)可以看到以下话题:怎么理解“智能化”怎么理解“新能源车智能化”新能源汽车行业都卷出了哪些有意思的东西“新品牌”“新消费”:为什么是体验驱动增长,又是什么驱动体验什么是虚拟体验?(是的我不想说元宇宙)web3是不是一个伪命题?NFT的两生花为什么说做成碳中和的将是一个伟大的产品经理?其他有的没的….更新频率希望超过12年的我吧。以上。--------------------------------------------------------------------------------------------附:本来已经结束了,我突然想起今天给团队讲的一个故事说加菲猫有一次走丢了,主人很心急,但找啊找也找不到它。半年以后。加菲猫一直被一家宠物店收养着,有一天他的主人走进了这家店。他惊喜的看到了加菲,抱它回家,他们又过上了从前幸福快乐的生活。但是画面最后加菲看着镜头说:我之所以这么快乐,是因为我从来不会去想,那天主人是因为什么原因,走进了这家宠物店。这个故事有很多种解读,但我想说的只是:人生没有早知道,只有当下酒和眼前人。Enjoy.