Home实用数据分析技巧
实用数据分析技巧

实用数据分析技巧

@数据人杰森

本专栏侧重数据分析的实用性与趣味性,技巧与方法能够在日常工作中快速落地,提高数据分析的效率,提升分析的专业性。适用于求职、分析能力提升、数据产品设计等场景。 © 数据人杰森
订阅18
文章31
最后更新:2024-5-10 20:2
查看 【实用数据分析技巧】 详情查看 【数据人杰森】 主页
分享到微信打开

免费内容

2024-5-9 23:48

番外01:数据向善

2020年9月,人物杂志的一篇文章《外卖骑手,困在系统里》引爆了网络。文章中提到了中国全行业外卖订单单均配送时长从2016年到2019年减少了10分钟。金壮壮做过三年的美团配送站站长,他清晰地记得,2016年到2019年间,他曾三次收到美团平台加速的通知:2016年,3公里送餐距离的最长时限是1小时,2017年,变成了45分钟,2018年,又缩短了7分钟,定格在38分钟——据相关数据显示,2019年,中国全行业外卖订单单均配送时长比3年前减少了10分钟。系统有能力接连不断地吞掉时间,对于系统(外卖平台)缔造者来说,这是值得称颂的进步,是AI智能算法深度学习能力的体现。这的确是系统缔造者的进步,通过采集更多的骑手、消费者、道路数据,优化调整调度算法,踩着骑手的身体极限,打造出「XX外卖,送啥都快」这样的消费者市场品牌心智。而这样的KPI考核机制下,从单个个体而言,工作时的压力提升(需要应对超时带来的罚钱动作的恐惧感),遭遇交通事故的风险提升(不得不逆行)。数据技术并没有让生活更美好,或者说并没有让所有人的生活更美好。针对这样的问题,浙江省在2021年12月1日起开始执行《浙江省维护新就业形态劳动者劳动保障权益实施办法》,办法要求平台企业要发挥数据技术优势,合理管控劳动者在线工作时间,对连续工作超过4小时的要安排工间休息。对于具体的算法逻辑,不再全靠企业的数据分析师跟决策者。这份实施办法要求企业制定修订平台进入退出、订单分配、计件单价、抽成比例、报酬构成及支付、工作时间、奖惩等直接涉及劳动者权益的制度规则和平台算法时,应当充分听取工会或劳动者代表意见建议,将结果公示或者告知劳动者,并接受经营所在地人力社保部门和行业主管部门监督。讲述这样的话题多少总是沉重,我们借鉴国内头部互联网企业CEO曾经提到的“科技向善”这样的表述,抛出一个“数据向善”的提议。图 2024年某微博大V感慨某网约平台的调度算法

2024-4-29 13:32

故事03:海内外BI类产品目录

欢迎留言补充更正~!海外 BI 公司与产品1989 MicroStrategy 公司成立1993 Qlik 公司成立2004 Tableau 公司成立2019.6 Salesforce 157 亿美元收购 Tableau2007.10 SAP 68 亿美元收购 BO(Business Objects)2007.11 IBM 50 亿美元收购 Cognos,这也是 IBM 第 23 次收购动作2010 DOMO 公司成立2012 Looker 公司成立2019.2 Google 26 亿美元收购 Looker2014 Sigma Computing 公司成立2018 推出了利用Spreadsheet作为交互式UI的云端运行的BI产品2015 微软发布 PowerBI 产品2016.11 亚马逊 AWS 正式发布 QuickSight中国 BI 公司与产品2006 帆软公司成立2022 发布借鉴 Tableau 交互的 FineBI 6.02006 亿信华辰软件公司成立2011 思迈特软件(Smartbi)成立2024,正式发布Chat类BI产品 —— Smartbi AIChat 白泽2012 永洪 BI 公司成立2023,宣布 vividime 品牌,宣布进军海外市场2013 海致科技成立,发布 BDP BI 产品2016 衡石科技成立,次年发布一站式分析平台,主攻嵌入式BI细分市场2016 观远数据公司成立,次年发布观远 BI 产品2016 网易有数 BI 产品发布2024 裁员后研发仅剩十余人2018 阿里对外发布 QuickBI 产品(同时配套发布 Dataphin、Dataworks 数据开发平台)2018 百度将内部的报表平台 ShowX 更名为 Sugar BI,并对外商业化售卖2021.9 字节跳动火山引擎发布智能数据洞察(BI)产品2.30 版本2022.2 腾讯云 BI 发布并售卖2023.9 华为云发布智能数据洞察 DataArts Insight ,自称新一代BI服务产品ChatBI等细分BI类公司船长BI CaptainBI —— 专注亚马逊精细化运营与数据分析,2016年MapTable —— 空间数据协同工具 ,主要面向海外AlgForce —— 数据洞察AI外脑,主要面向海外阿里系数据产品与数据公司阿里在国内数据赛道还是有那么点地位,我们也尝试制作阿里系对外商业化数据产品的年表。主要分为阿里原厂以及阿里系背景的数据类公司。阿里原厂参考资料:阿里数据中台始末2015阿里巴巴官宣数据中台战略阿里云内部自研 Dataworks 数据开发产品,随后在阿里云上线售卖2018阿里对外发布 Dataphin 数据开发平台,QuickBI 产品2021阿里创立专注企业数智服务的品牌瓴羊, 整合商业化数据中台与业务中台产品;后归属于阿里云智能集团;2024瓴羊官网不再透出业务中台类产品,新增数据流通类产品(瓴羊港)9月:蚂蚁集团发布DataFab(智能数据开发与治理平台),是基于蚂蚁集团在数据中台领域的最佳实践打造,提供从数据引入、架构规范、研发及数据资产管理的一站式服务,助力企业打造标准化、资产化、服务化及智能化的大数据体系与数据中台,高效实现数据资产的生产、治理与价值释放,驱动业务数智化转型与创新发展。阿里背景数据公司2015 袋鼠云(杭州玳数科技有限公司)成立,CEO陈吉平2016 奇点云(杭州比智科技有限公司)成立,CEO张金银(花名行在),Dataworks 背景2020 预策科技成立核心团队成员曾任阿里数据魔方创始人、阿里 Ali Express 跨境电商首席数据官等2021.5 大应科技公司成立 ,创始人来自蚂蚁集团数据平台2023.12 Aloudata 产品发布,包括逻辑数据平台、主动元数据平台、自动化指标平台

2024-4-27 17:17

常识05:指标还是标签

本没有战争,但是有了软件,就有了分工,就有了争议,或者说成为琢磨的对象。指标与标签也是如此。指标的定义与分类指标是数据分析师每天都在打交道的对象。比如零售企业里,销售额的非常常见的一个指标。指标在海外的企业级数据软件产品一般对应为Metric,翻译过来是度量的意思,个人理解“度量”是“度量衡”(度——计量长短用的器具称为度;量——测定计算容积的器皿称为量;衡——测量物体轻重的工具称为衡)的一种简化表达。因为长度、体积可能是最常用的一些描述性指标。 而指标一般也用于量化描述一个场景的好与坏,长或者短等。度量衡都会带上单位,比如长度的公里、米等;那么指标是否一定需要带单位呢? 大部分指标都会带上,但是一些占比类,百分比,或者比值类的指标就不需要单位了。“销售额”是一个指标,那么“昨日的销售额”跟“本月的销售额”是不是也是指标呢?这几者的区别又是什么? 我们先从商业与工程角度出发,来尝试对指标进行一个类别的划分。从计算逻辑层面对指标进行分类这里引用阿里巴巴数据中台方法论提出的指标分类方法。原子指标:一般表征一个业务动作最原始的“幅度”大小, 比如支付金额、销售订单数;这些指标一般都无法继续做拆解。衍生指标:在原子指标的基础上,叠加 ①统计周期 ② 业务限定(过滤条件)③ 统计粒度 这些约束条件;一个原子指标可以衍生出非常多,甚至成百上千个指标。图:阿里巴巴数据中台指标定义方式衍生指标结合统计日期(或者时间)这个概念就是一个明确的描述值。举个例子,在T+1 的计算模式(也就是隔日计算)下, 2021年12月10日计算的「最近7天线下渠道生鲜品类的销售额」就是指 2021年12月3日到2021年12月9日线下渠道生鲜品类的总销售额。从计算与展现层面对指标进行分类报表级别的指标:即数据分析师只是引入一个指标的计算规则,比如就是销售额的累计,但是具体算哪几天,算哪些渠道,算哪些品类是根据报表这一个级别的配置、甚至是即席的查询条件来决定的。 在第一张报表里,可能展现的是某一天某个渠道的销售额;在第二张报表中,展现的是某一天某个品类的销售额。指定计算粒度的指标:相比报表级别的指标,指定了计算粒度的指标的计算规则是相对固定的,比如 渠道累计销售额,是指在渠道这个维度上聚合后的销售额。报表级别的指标示例:上述三张表的分析粒度分别是 ① 日期 x 渠道 ② 日期 x 品类 ③ 日期 x 渠道 x 品类图表:报表级别的指标与指定计算粒度的指标混合显示示例从商业运营层面对指标进行分类以电商行业为例,营业销售额(GMV)可以被拆解成为用户浏览量×转化率×客单价。 这里销售额是一个结果性的指标,而用户浏览量、转化率、客单价都是过程性的指标,可以用于日常运营策略的设计。结果性指标:一般用于整体运营效果的考核过程性指标:一般用于具体运营策略的设计公司考核团队,一般都拿结果性指标来考核,具体怎么实现这个指标,设计怎样的策略,那就是具体一线团队要做的事情。 当然,到了一线团队实际运营动作时,每一个过程性的指标也会被定义为一个KPI(Key Performance Index)来做进一步的拆解。比如客单价就可以分为老客的客单价与新客的客单价,因为提升老客的客单价与新客的客单价的思路是可以做差异化的。标签的来源与分类随着消费互联网的蓬勃发展,精准营销、数据驱动运营等方法论的流行,这些方法论背后所依赖的标签也进入数据分析师日常讨论与关注话题之中。标签一般是基于特定的业务运营,比如广告投放或者用户运营目标,来对目标对象(最初以消费者为主)的一种描述,简单的比如男女,复杂的比如高价值用户,中价值用户等。2019年9月,阿里巴巴天猫与贝恩咨询公司发布《2019年中国快消品线上策略人群报告》就引入了八大策略人群这样的概念,其实也是对天猫的消费者打上了一个标签。在此次策略人群的划分过程中,基于贝恩多年的洞察积累,结合各个细分行业广泛使用的人群属性标签(如小仙女、都市潮男等),在天猫淘宝大快消海量消费者数据的加持下,我们对多个反映消费行为偏好的核心指标聚类分析,数次迭代,最终总结出八大特征鲜明的策略人群。他们是:新锐白领、资深中产、精致妈妈、小镇青年、Gen Z(Z世代)、都市银发、小镇中老年和都市蓝领。他们约占大快消平台用户数的八成,贡献九成以上的销售额。图:天猫全行业八大人群消费者体量&增速标签在业务层面分类每个品牌、平台其实都有自己的分类方式以满足不同时期不同的商业诉求,以下给出腾讯广告的一种分类方式。图 腾讯广告的标签分类(一级分类)标签的工程学分类数值类标签:一般都可以对应到指标,比如最近30天的登录天数非数值类标签:一般都对应到用户的属性,比如性别、居住的城市等;如果本没有这个属性,那么其实加工出来的标签就可以是用户属性。 比如上文提到天猫给消费者打上了八大人群标签,比如Z世代,小镇青年等。标签的来源直接从用户属性中提取 ,比如性别、年龄(每年在变化)、星座(一般不变化,除非用户修改生日信息)等算法预测,比如虽然用户填写的是男性,但是行为特征可能接近女性,那么在预测性别中,这个用户可能就会打上女性的标签(或者是一个男性用户注册的账号,但是实际使用人是女性)对行为属性进行简单加工,比如最近7天或者30天的登录次数(表征活跃情况)对行为或者用户属性进行复杂加工,比如上面提到的八大人群标签,即包含了年龄属性又包含居住属性标签与指标的相同与不同那么标签与指标有哪些相同的点,哪些不同的点呢?数据类型指标:基本都是数值型的,包含整数与小数标签:以文本型为主,也有数值型的维度与维度属性:以文本型为主应用目的标签:用于圈选人群,描述人群指标:用于描述人群,分析人群;有时候也用于圈选人群,比如把一个地方里年收入大于12万的人圈选出来分析层面上的技术处理方式(聚合方式)标签:一般对应计数(比如统计男性的比例)、无处理(直接显示)指标:一般包含累加、求最大值、求最小值、求均值等处理方式图:维度、标签、指标三者关系说明几者的重叠:部分指标就是标签,比如年度销售金额;部分指标会做分段处理后形成一个标签,比如 年龄。纯粹的一个年龄数字分析意义并不大,一般都会结合实际的业务运营场景进行分段处理。比如把成年与未成年的分开,具体的,我们在《数值标签的分段化处理》小节中再展开讨论。大部分维度与属性都可以是标签。 比如性别,居住城市等。不重叠部分:标签里还有一部分既不属于维度,也不属于指标? 比如多值型的标签,以及KV(Key - Value)型的。比如一个人对于多个咖啡茶饮品牌的偏好,比如对星巴克、奈雪、喜茶都有偏好,但是偏好度不同,分别是0.8、0.6、0.3。 这类标签可以被很多消费者运营产品所使用,但是这类标签如果要被用于做分析,就需要进行数据的二次加工。其实还有个词,特征(Feature)也跟指标、标签这些概念有这密切联系。这个概念主要是算法科学、数据挖掘岗位使用。 一个标签可以是一个特征,比如性别男女。标签的内部战争标签和指标有“战争”(争论),其实标签内部也有。 比如, 男与女,这是一个标签么?可以是。那么性别是一个标签么? 也可以是。那这两种的区别在哪里? 其实是标签与标签值的争论,在表述上都没有问题,在数据使用层面去做个划分即可。 那么遵循什么标准呢?业界有什么共识呢? 有一个思路供参考,你希望用户先看到哪个字眼,就把他当做标签?这里Y表示YES的意思,在技术处理上也有多种形式。市面上采用策略一的比较多,尤其是用关系型数据表来存储标签的时候;策略二一般与非关系型数据库这个技术方案一起出现,比如MongoDB。当然,部分标签的管理工具或者说明文档中,也会把男、女做为四级标签。但是用户在使用的时候,需要先点开上一级标签,就是性别,然后在里面选择。上文拿了性别作为标签的一个例子,具体的标签值在不同国家、不同产品有不同的处理方式,比如脸书公司在用户界面上就给出了56 种选项允许用户选择。还是挺好奇脸书广告平台上会开放多少种性别选项让广告主进行选择。 在国内,如果遵循《中华人民共和国国家标准:人的性别代码(GB 2261-1980)》,那么就是四大类:0 - 未知的性别;1 - 男性;2 - 女性;9 - 未说明的性别。 此外,部分标签的管理以及标签值的定义,还会跟公司的主数据系统进行关联。 比如男性或者女性,到底是存1跟2,还是F跟M,还是就直接存储中文,本文就不详细展开了。参考资料度量衡:《现代汉语·辞海》光明日报出版社数仓中的一些概念 https://blog.csdn.net/penriver/article/details/118890984天猫大快消8大策略人群 https://www.sohu.com/a/343932556_282725国内数据类产品消费者标签体系汇总 https://www.yuque.com/jiezhao/ontheway/lqul9l脸书的56个性别选项 https://www.guokr.com/article/438003/

2024-4-26 23:29

常识02:阈值还是阀值

从事数据分析,尤其是BI相关工作的读者一定对阈值或者阀值这个概念不陌生。数据分析师的日常工作中需要根据不同的数值,做不同的决策,或者做可视化的设置。比如当销售额或者其他核心指标增速低于20%,就把指标或者这个增速指标的颜色配置成黄色;增速低于10%,配置成红色;以及根据这些数值把这些异常情况作为预警发送出去,情况越严重,要预警的对象层级就越高。回到本文的话题,这些10%,20%到底是叫阈值还是阀值呢? 这在数据分析师圈子里,也是一个争论了好久的话题。在这本小册子里,我们还是认可阈值(yu,第四声)这个叫法。在海外的BI产品里,这个概念一般都对应Threshold 这个单词。这个词最初来自于工业场景,是测量值的一个对比值。然后这个对比值会被设置到机器中。比如当一个设备的压力超过了某一个指标,就会显示红灯,或者发起警报。而阀,通常指阀门的缩写,对应英文单词 Valve,这也是工业控制系统里的一个概念。但是阀门是一个执行器。阀门可以被人工或者被机器操控,或是完全打开,或者完全关闭,或是半开半闭,从而影响下游的生产。知乎用户Thinkraft也给出了他的答案,答案就是阈值,阀值是一种误用。他讲得比较直白,认为因为选了一个跟「阀」字形很相近的一个词 ——「阈」来表达这个含义,造成被误读的可能性就大大提升了;而人们又不容易承认自己的错误,相反还会找一堆理由来解释错误的合理性。当然,完整的自动化系统中既有测量也有控制,它们可以协同工作,但依然是两码事。 打个比方,显示器和键盘是两个不同的东西,就算绑到一起(如笔记本电脑),或者干脆融合(触控屏),你还是知道它们不是一回事,对么?那些大爷大妈管显示器叫电脑或者管键盘叫电脑时,你是怎么想的,感受一下我看你们把阀和阈搞混时的心情。 valve和threshold在工业上都是常用的术语。valve(阀)是控制系统中的组件,而threshold(阈值)这个则是测量中的信号点。看着像,区别老大了,所以才更要用不同的字翻译,防止有人把它俩搞混成一个东西。从这个角度「阈」这个字选得或许有些失败,字形太相近——但也无可厚非,你看氢和氧长得那么像也没见谁念错,终究还是念错者知识水平问题,不认识阈字,自己瞎理解念成阀,再强词夺理。阈值与数学的关系实际运用中,数据分析师设置阈值的时候一般都会用整数,因为这样用户看数,消费数据的人能有直观的理解。华大基因CEO尹烨在圆桌派的一期节目里提到,一个地方的人口达到10万,才够格叫城市;一个地方人口有50万,才有可能发生传染病。这里的10万,50万,其实就是是阈值的概念。 当然使用最广的阈值应该是0,0往上是正数,0往下是负数。资本市场的涨跌幅,就按照这个阈值来决定是显示红色或者绿色。对了,我们做个小调查,在你们公司销售业绩增长是用红色表示,还是用绿色表示呢?美股2021年年初至某日涨跌幅情况 2021.12.3此外,数学里有也有拐点、极值点这些概念,不过他们与阈值并没有直接关系。参考资料知乎作者Thinkraft对阈值与阀值的看法圆桌派

2024-4-23 0:30

故事01:比Excel更早的电子表格软件

财务领域的电子表格程序 VisiCalc1978年春天,哈佛商学院的一个讲座上,一位麻省理工计算机科学专业的毕业生蒙生了制作一款财务领域的电子表格程序想法。他就是丹·布里克林(Dan Bricklin),他毕业后在DEC从事过几年开发文字处理软件的工作,随后又进入哈佛商学院读书。他在讲座上看到教授在黑板上为一个财务模型绘制表格,当教授发现有错误或者想要更改一个单元格内的数值时,不得不用黑板擦更改许多其他单元格内的数值。布里克林是个有产品天分的软件工程师,开始构思一种使用鼠标和具有简单“定点——拖动——点击”界面的电子表格,想法成熟后,为了把这个设想变为产品VisiCalc,找到了一位搭档鲍勃·弗兰克斯顿(Bob Frankston)进行合作。他们都有出色的商业头脑和揣摩消费者欲求的能力,因此他们重点关注如何把VisiCalc做成产品而不仅仅是一款程序。他们把朋友和教授组成焦点小组,向他们征求意见,以确保界面直观而简便。具体动手之前,他们决定开发一款用于个人电脑上的电子表格程序,而不是开发只能跑在DEC商用计算机上的程序。1979年5月,产品接近成熟,摩根士丹利的一名分析师本·罗森(Ben Rosen)协助他们将VisiCalc进行商业化。他们适配的个人电脑便是苹果II,而且在整整一年时间里,VisiCalc一直没有推出针对其他个人电脑的版本。乔布斯后来说:“VisiCalc是推动苹果II取得成功的真正原因。”在此之后,市场上很快出现了Apple Writer和EasyWriter等一批文字处理软件。VisiCalc不仅刺激了个人电脑市场的发展,而且催生了一个由高利润的新兴行业,即专有应用软件发行行业。本篇内容参考了沃尔特·艾萨克森《创新者》中的表述,他也是《乔布斯传》的作者。DOS时代的电子表格Lotus-1231983年, Lotus Software 在VisiCalc这种所见即所得(WYSIWYG,What You See Is What You Get)的电子表格产品上更近了一步,发布了Lotus-123。 Lotus 随后在1995年被IBM公司收入囊中,并被IBM宣告2014年9月30日为退役日。Excel 1.0同是1983年,微软为了与Lotus竞争,发布了Excel的前任产品Multiplan (研发代码电子纸张,Electronic Paper)。在1984年,电子表格市场基本上被运行在MS-DOS系统上的Lotus-123所占据,而Lotus-123并不能在当时的Mac系统中运行。 微软的员工做了艰难的决定,为Mac系统开发一个性能更优的电子表格产品。Doug Klunder是其中之一,他的算法能够避免当一个单元格数据变化时重新计算整张表,而只计算相关的单元格。1985年9月30日,Excel的第一个版本发布,因为性能的优势,便开始占据了主导地位。1987年,适配微软新的Windows系统的Excel版本发布。Excel产品甚至被微软CEO认定为微软历史上最伟大的一款软件应用。参考资料:布里克林关于VisiCalc的回忆Microsoft Excel的故事 An Ode to Excel: 34 Years of Magic