数据看似客观什么融资杠杆,我们常说“一是一,二是二”,但是数据是对现实的简化,简化就容易被操弄。一不注意可能就被带偏了。
之前举了几个例子基金行业的例子,《数据是如何骗人的,以中证A50为例》、《数据是如何骗人之二,以兴证全球这个宣传为例》。还举了一个时兴的奥运会的例子《数据会说谎-来自奥运会的例子》。
今天想进一步聊聊这个话题,看看生活中是如何有意无意被带偏的。。
举三个常见的例子:
导致原油价格下跌的另一个因素是以色列和哈马斯加大了停火努力。哈马斯的一个代表团将于周一访问开罗,进行和平谈判。周六,以色列外交部长表示,如果提议的和平协议包括释放被哈马斯扣押的以色列人质,入侵拉法的计划可能会被搁置。
黄金上周整体走势有点探底回升的味道,周初直接大跌,但随后就是震荡慢涨,金价也是从极强的单边模式变为震荡修复,目前从周线来看其实已经修复的差不多了,价格也是重新回归布林带内运行和均线内,所以再稍微震荡一段时间又会出现加速上涨的走势,而消息面方面美债也是推高黄金上涨的主要因素之一,只要美债的问题不解决,美元就会出现信用危机,各国不想被美国收割就得加大黄金的储备,美债问题一日不解决,黄金就不会真正意义上的走弱!
1、黑人的智商低于白人?
第一次世界大战期间,有175万名美军新兵进行了智力测试。这项轰轰烈烈的运动由哈佛大学的心理学家罗伯特·耶基斯发起。
测试的结果:美国白人男兵的平均心智年龄只有13岁,再往下是来自东欧和南欧的移民,最后是黑人,平均心智年龄只有10.4岁。
但实际上,数据采集的过程既草率又匆忙。
斯蒂芬·杰伊·古尔德在其《人类的误测》一书中就描绘了给那些新兵做测试的屋子是什么样的:没有家具、光线不足还常常挤得人满为患,以至于后排的人根本听不到前面的人说了什么;有一些说德语的士兵则完全听不懂测试人员在说什么,因为他们才刚刚踏上美国这块土地没多久;其他会说英语的士兵中,很多人只是会说,但不会读也不会写;有些人甚至是第一次拿起铅笔写字,却要让他们回答例如“数一数图中有多少个立方体”或“按照前面图形所示的规律选择正确的图形”这样的问题。此外,给士兵们答题的时间还十分有限,因为下一组准备测试的新兵已经在门外的走廊上等着了。
甚至测试的基础也是不稳定的:到底什么样的人算“黑人”,什么样的人算“白人”?在智力测试的过程中,人种归属的选择通常取决于被测试者的自我认知。但是,这个分类并非固定不变的:以前,美国人不把意大利人视为白人;在巴西,如果你不是欧洲人,那你就算是黑人;与2000年的普查结果相比,
2010年的人口普查中,有数百万美国人更换了自己的人种类别。
2、烟草商的胜利
1939年,德国研究员利金特出版了一本名为《烟草与生物》的书。该书厚达1200页,里面总结了7000多项有关吸烟的研究成果。它和其他的元研究(对研究进行研究)一起使专家
们达成了一项共识,即大多数的德国医生和官员在20世纪40年代初期均同意一个观点:吸烟有害健康。
为了对抗,烟草商委托人写了一本书《如何用吸烟研究的统计数据说谎》。烟草业巨头们的目的并不是要证明吸烟有利于健康,他们只需要让人们对吸烟的后果犹豫不决就够了。
一个烟草业著名品牌的营销总监约翰·布加德曾在一份(当然是机密的)文件中,对这种营销手段有一句非常到位的描述:“怀疑就是我们的产品。”
公众对“吸烟有害健康”的怀疑,就是烟草商的胜利。
3、芝麻信用为啥让人讨厌?
2015年,蚂蚁金服又在支付宝内增添了一项新的服务:芝麻信用。麻信用的用户会获得一个350分至950分之间的分数。如果你的分数大于600,则可以获得阿里巴巴旗下网店里大约600欧元的信用额度;650分以上,你就可以享受免押金租车;超过700分,你申请签证时就会更轻松。如何获得芝麻信用分数呢?你必须按时支付账单,不落下任何一个月的房租,以及还清所有的贷款,并且,你在应用程序中填写的个人信息越详尽,例如住址、工作、学历等,你获得的分数就越高。
芝麻信用的总经理2015年曾表示,她希望拿到在高考中作弊的考生名单,让他们为自己“不诚信的行为”付出代价。同时,该公司还使用政府提供的黑名单,上面列有数百万名未缴纳罚金的人,以此下调这些“老赖”的芝麻信用分数。
实际上,芝麻信用可能更多的是被引导去信用消费。
遇到这样困境的人很多,在知乎上有这样一个帖子,2019年的老用户进入支付宝,用了芝麻信用,一步步陷入贷款,入不敷出的窘境。痛定思痛之后,关闭了芝麻信用,远离了支付宝,并发贴以志。
以上三个列子,对应着三个操弄的底层原因:
1、数据采集的不规范
把你自己想象成该研究的参与者。研究中是否有几个问题会把你往特定的方向上引导?有没有在某种情况下,你宁可说谎也不愿意说实话?如果答案是肯定的,那你也要多留意一下这份数据了。还有,假如该研究的样本并不是随机抽取的,那么你就得明白一点:这份数据仅仅适用于被研究的那个特定群体。
2、利益冲突
显示某项政策有利于统计经济的数据结果,是不是从提出该政策的政客那儿拿来的?表明巧克力对健康有益的研究,是不是由生产巧克力棒的玛氏食品公司资助的?仔细地找一找这个问题的答案,并搜索其他资料来源。
3、数据后的道德选择
这个数字描述的是一个人为创造出来的概念吗,例如经济增长或智力?如果是,那我们就需要额外注意一下了。在测量时,人们做出了哪些(道德上的)选择?这个数字是否最终会膨胀到脱离其本来的含义,变成对另外一个事物的描述?尝试去搜索一下,假如用其他方法衡量这个概念,得出的数据结果会是什么样。
这是《大数据如何误导了我们》(如想获取电子版,请留言)这本书里的例子(有些十五作了提炼和补充)。作者荷兰计量经济学家、数据分析记者桑内·布劳,在长期的生活工作中,感受到数字常常并不能客观反应真实的世界,他们常常有意无义的说谎。她觉得有必要把这一切揭示出来。在书中,她讲了数据误导的种种方法和成因,并给出了为了避免被“骗”,在看数据时的“核对清单”。
防骗清单里还有:
4、我对这个数字有什么感觉?
这个数字令你快乐还是害怕,生气还是悲伤?请注意,你要做的不仅仅是接受或者驱散自己的感觉。意识到直觉的存在,并从另一个角度寻找其他资料来源。
5、数据是如何被分析的?
这份数据是否涉及了一种因果关系?如果是,那就需要回答以下三个问题:有可能是偶然事件吗?还有其他因素在其中起作用吗?这种因果关系反过来说也成立吗?无论如何,你都不能认为某项研究永远是对的。去搜索一下能显示整个研究领域内容的元研究,或者去查一下所有与之相关的民意调查的合集,比如“民意调查指南”。
6、数据是如何呈现的?
最后来说一些在数字的呈现方式中经常出现的错误。
·一个平均值:如果数据中存在着能将其大幅拉高或者降低的异常值,则该平均值并不能完全反映整体情况的平均水平。
·一个精确的数字:有各式各样的原因均能导致数字最终无法被十分精确地呈现出来。请不要被从表面上看起来很精确的数字欺骗。
·一份排名:通常来说,在一份排名中的上下两个位次之间并没有什么太大的区别,因为其中存在不确定性。
·一个风险:当你读到“患某种疾病的可能性增加了x%” 时,如果你不知道这x%是什么的百分之x,那这句话其实没有什么意义。因为若是原本的可能性就很小,那么增加了百分之x之后的可能性依然很小。
·一张图表:一个不合适的纵轴可能会扭曲整张图呈现出来的结果。请确保它没有受到过度的拉伸或挤压什么融资杠杆。