时事 / Mar 27,2017

Queerty上有一篇比较短的文章,这篇文章介绍了威斯康辛麦迪逊大学心理学系的一项研究。研究结论认为Gaydar并不存在。(且别匆忙接受这句判断)。

William Cox是该大学的研究助理。他和他的同事们最近做了一项社会实验,他们试着去研究所谓的“Gaydar”,以确定到底人们是否在遇到性少数的时候具备“第六感”。

参与研究的人被告知通过查看一些人的社交媒体资料来判断不同的人,判断他们的性倾向,(其中一半的男性和一半的女性为直,本文后续中简化为直与弯,暂不考虑更多的变量比如BTQIA……)。

“部分人有一些十分gay刻板印象的兴趣,比如时尚、购物和戏剧,”Cox解释道,“另一部分有一些直男刻板印象的兴趣,比如运动、打猎、汽车,或者一些中性的与性别刻板印象无关的兴趣比如阅读和电影。”结果呢?

人们普遍认为“看起来像gay”的是gay,而“看起来像直男的”是直人,准确率大概在60%左右。不仅如此,最后研究者还承认,这个研究的基础(设定)与实际生活中的情况差距甚大。因为他们在研究中弯和直的比例在50%。但在真实的世界里,一般对定义为LGBTQ成人的预计比例在3%-8%。

如果你恰巧学过统计检验,那么你大概知道了,60%,诶,这个差异应该不显著喔(假设他们样本量是30)。随机乱猜的正确率是50%左右,但如果被测试者判定是不是同志的正确率达到70%以上,那么在样本数30人的状况下,统计上就已经达到了显著(卡方检验)。我们可以大体认为“Gaydar”还是有用的。

Cox 写道:60% 的准确率到底意味着什么?想一想,针对这个研究中的直男群里,如果人们只有百分之60 的准确率判断谁是直男,这意味着,40%的时候,直男会被错误地判断为gay。在一个人群中几乎95%的人都是直人,60% 的准确率意味着每100个人中会有38个直男被错误地认为是gay,只有3个gay是被正确认出来的。(这个38是用95*40%得来的。)

这里其实涉及到类似“伪阳性悖论”当中的情况。“Gaydar”至少同时包含着两个层面,辨别直为直,辨别弯为弯。性少数占据人群中的比例本来就不高,如果我站在大街上(随机一条大街,未必就是三里屯),迎面而来的每一个人,我都猜对方是直的,我猜对的概率肯定很高啊,那我可以说我拥有“Gaydar”么?

这也是实验中为什么要摈除这个变量让直弯比例对半分(即使这并不符合生活实际,但这样做实验算结果的似乎就很简单啊)。

如果实验中直弯比例并不对半呢,呵呵呵,那就需要采用双变量四格表卡方检验呢……

弯弯PanSci网站的一个小伙伴做出了下面的表格,为大家解答如何做这个实验。

每一次判断会有四种可能,分别是“判断同志为同志”(A)、“判断直男为同志”(B)、“判断同志为直男”(C)、以及“判断直男为直男”(D)。理想状况下,一个完美的Gaydar当然是“同志就同志,直男就直男”,也就是B跟C均为零,A跟D包含所有的案例。

利用这表格中四种结果的比例,可以换算出正确率以外的四个重要指标比率:

灵敏度 Sensitivity:A占所有同志的比例,也就是把所有同志都找出来的能力。

特异度 Specificity:D占所有直男的比例,也就是把所有直男都找出来的能力。

阳性预测值 Positive Predictive Value(PPV):A占A+B的比例,也就是判断人们是同志的预测力。

阴性预测值 Negative Predictive Value(NPV):D占C+D的比例,也就是判断人们是直男的预测力。

前面所说的准确率(类似William Cox得到的60%这个数值),是((A+D)/(A+B+C+D),但单独拎出来这个数据意义不大,也不能说明“Gaydar”能力的大小。

如上表,假设今天有一位号称有Gaydar能力的人来接受检测,他费尽心力做了三十次的判断。这个人还蛮“贼”的,一路押宝“直男”,单从结果看来,他的正确率有86.7%诶。但他的灵敏度和阳性预测值是0……可见单纯给出正确率,呵呵哒。

如上表,假设有另外一个人,每一次都踏踏实实地做出判断。虽然这个人的正确率也是86.7%,但是他的灵敏度有75%,阳性预测值PPV也有五成,虽然特异度比起前一个稍低,但总还是将近九成的88%,而且阴性预测值96%也比前一个高。

更可怕的是,这四个重要指标比率是彼此连动、此消彼长的。

也就是说,如果一个人放宽他的标准,那么他能够一个gay也不放过,但同时被他错误判断为gay的直男数量也会增多;如果一个人标准很严格,那么他将直男认错为gay的情况会好很多,但同时他会漏掉很多gay。

而一个人做出判断的标准明显也是波动的,他会根据场合与情形做出相应的调整。比如在偏僻的农村与在大城市,在同志酒吧附近还是在足球场看台上,基于一些常识和刻板印象,他显然会根据预期的不同来调整自己判断标准。

而各种各样的干扰因素几乎无法在实验室内得到完美的复原,大部分这类实验的设计会严格控制变量,尽可能地简化问题。比如有些实验据说仅仅依据面部肌肉的运用或者脸型来做出判断,而发型、装饰物、衣着品味、动作,兴趣爱好,这每一个都是不同的变量参数。

虽然很多网络流传的小新闻中提到某某实验就说他们在证明“Gaydar”存不存在。随即上维基百科查一下就知道,他们的结果都很不一样。有的说有差异,有的说没差异,反反复复。导致结果不同的原因可能就在这里,在一个具体的实验中,人们考察的因素,定义“Gaydar”的具体内容是不同的,最终得到的结论也可能完全不同。较真起来,他们测量的根本就基于不同的变量。

比如Cox的研究是基于社交网络信息,但其他对“Gaydar”的研究可能是基于其他的信息啊。

这些都还仅仅是针对一面之缘的陌生人,针对熟人呢?我们可供参考的信息就多了去了。据说日本人还基于一款社交网络发明了叫做“Gaydar”的电子设备,如果对方在离你距离12米以内,就可以接受到信号哟(震动,哔哔声,闪光……)。

所以回到Cox的研究,那么他总结出什么结论呢?Cox认为,基本上人们仅仅是依靠根深蒂固的刻板印象来对陌生人做出预测。这并不好,因为如大多数人所认同的,刻板印象常常会有很多负面影响。刻板印象能强化偏见,而偏见能引起歧视。

(当然刻板印象并不是一无是处,它能显著降低人们做出判断时候需要耗费的资源,也就是让你不用动脑子。但是下一次,当我们不过脑子仓促做出判断的时候,我们应该想到这匆匆做下的结论,即使通过了假设检验,也他妈的可能并不靠谱,在特定范围和限定之内也许是对,或者至少5%或者1%的几率还是错的。科学没有办法给你一个永远正确的结论。)

想当年,小Dean的统计学也是低分飘过,如果有不准确的地方也请多多指教。

整理/小Dean

图/网络