从事数据分析,尤其是BI相关工作的读者一定对阈值或者阀值这个概念不陌生。
数据分析师的日常工作中需要根据不同的数值,做不同的决策,或者做可视化的设置。比如当销售额或者其他核心指标增速低于20%,就把指标或者这个增速指标的颜色配置成黄色;增速低于10%,配置成红色;以及根据这些数值把这些异常情况作为预警发送出去,情况越严重,要预警的对象层级就越高。
回到本文的话题,这些10%,20%到底是叫阈值还是阀值呢? 这在数据分析师圈子里,也是一个争论了好久的话题。在这本小册子里,我们还是认可阈值(yu,第四声)这个叫法。
在海外的BI产品里,这个概念一般都对应Threshold 这个单词。这个词最初来自于工业场景,是测量值的一个对比值。然后这个对比值会被设置到机器中。比如当一个设备的压力超过了某一个指标,就会显示红灯,或者发起警报。
而阀,通常指阀门的缩写,对应英文单词 Valve,这也是工业控制系统里的一个概念。但是阀门是一个执行器。阀门可以被人工或者被机器操控,或是完全打开,或者完全关闭,或是半开半闭,从而影响下游的生产。
知乎用户Thinkraft也给出了他的答案,答案就是阈值,阀值是一种误用。他讲得比较直白,认为因为选了一个跟「阀」字形很相近的一个词 ——「阈」来表达这个含义,造成被误读的可能性就大大提升了;而人们又不容易承认自己的错误,相反还会找一堆理由来解释错误的合理性。
当然,完整的自动化系统中既有测量也有控制,它们可以协同工作,但依然是两码事。 打个比方,显示器和键盘是两个不同的东西,就算绑到一起(如笔记本电脑),或者干脆融合(触控屏),你还是知道它们不是一回事,对么?那些大爷大妈管显示器叫电脑或者管键盘叫电脑时,你是怎么想的,感受一下我看你们把阀和阈搞混时的心情。 valve和threshold在工业上都是常用的术语。valve(阀)是控制系统中的组件,而threshold(阈值)这个则是测量中的信号点。看着像,区别老大了,所以才更要用不同的字翻译,防止有人把它俩搞混成一个东西。从这个角度「阈」这个字选得或许有些失败,字形太相近——但也无可厚非,你看氢和氧长得那么像也没见谁念错,终究还是念错者知识水平问题,不认识阈字,自己瞎理解念成阀,再强词夺理。
阈值与数学的关系
实际运用中,数据分析师设置阈值的时候一般都会用整数,因为这样用户看数,消费数据的人能有直观的理解。华大基因CEO尹烨在圆桌派的一期节目里提到,
一个地方的人口达到10万,才够格叫城市;一个地方人口有50万,才有可能发生传染病。
这里的10万,50万,其实就是是阈值的概念。 当然使用最广的阈值应该是0,0往上是正数,0往下是负数。资本市场的涨跌幅,就按照这个阈值来决定是显示红色或者绿色。
对了,我们做个小调查,在你们公司销售业绩增长是用红色表示,还是用绿色表示呢?
美股2021年年初至某日涨跌幅情况 2021.12.3
此外,数学里有也有拐点、极值点这些概念,不过他们与阈值并没有直接关系。
参考资料