我为什么不赞成压低级别(续)

在我看来,面试就是对一个人的能力值的观察,而定级就是对观察值取整。

为了简化讨论起见,假设每个人本身都有一个能力值,比如8.1。这个值随着人的成长会变高。这个值可以通过观察得到,但观察结果总会有偏差。由于观察者本身的差异,不同的观察者会得到不同的观察值。有经验的观察者和没有经验的观察者得到的结果也会不一样。一般来说,观察时间越长,观察结果更接近真实值的可能性越大。无论是面试后的定级,还是内部晋升,都是对观察值取整。例如,内部晋升的取整策略往往就是round down,向下取整:观察出来的能力值达到8.0或以上的可以升8级,观察值是7.9的就继续留在7级上。这种做法基本就是行业惯例,而且无可厚非,因为不管怎么做,线总是要画一条的,画在哪里都是画。内部晋升的时候,观察时间会很长,一般都起码有几个月时间,所以观察值比较接近真实值的可能性很大,一个真实能力8.1的人,观察结果可能就会在7.9到8.2这个区间里。所以在内部晋升的过程中,真实能力没有到8.0但是被升到8级的情况一般很少发生,真实能力已经有8.1或8.2了但没有升到8级的也很少发生[1]

面试也是一个观察过程。这个观察过程时间非常短,手段非常局限,观察者数量有限。所以面试的观察结果的误差范围会相对大很多。而且由于某些因素的影响,观察值偏低的可能性比更大一些。这些因素包括:被观察者会紧张、劳累;观察者在询问被观察者一些问题的时候可能用了一些被观察者不熟悉的术语,或者同样的术语在双方的理解中含义不同;观察者询问时在无意中可能包含了未说明的假设;等等。再加上各种各样的unconscious bias,综合起来的结果就是观察值偏低。比如一个真实能力为8.1的人,面试下来观察值可能会在7.6-8.0这个范围。如果在面试的时候采取和内部晋升同样的策略,即round down,那么这个被观察者有很大可能就被round down到7去了。但是,如果在取整时使用四舍五入(也许叫五舍六入或六舍七入会更准确一些),那么这个人会被四舍五入到8。因此在这类例子里,“四舍五入”能比向下取整得到更准确一些的结果。

“四舍五入”的策略的确会带来一些风险。比如,一个能力值是7.5的人面试下来的观察值有可能是7.7,结果“四舍五入”就把他/她定到8级去了。不过,我认为这个风险是比较低的,主要原因就是前面所说的,面试作为一个观察过程,观察结果往往是偏低的。换句话说,要真实值在7.8到7.9左右的才有比较大的机会被“四舍五入”的策略“错误的”定到8级。7.8或7.9的被定到8级,这样的误差是否可以接受,这取决于每个公司的具体情况,取决于供需关系。每隔几年都会出现少数特别火爆的公司,所有的人都以加入这样的公司为荣,在这样的公司就职的经历是会给简历大大加分的。对于这样的公司来说,供需关系是极其有利于公司方面的,这样的公司因而可以施行“宁可错杀一千,也不漏网一个”的标准。这样的公司即使在面试中使用round down策略,也不会有损于它们的招聘需求。但另一方面,绝大部分公司都无法真正做到"we only hire the best",对它们来说,采用“四舍五入”的取整方法是一个比较好的折中:继续维持相对高水平的招聘标准,同时适当的降低招聘的难度。

在某些场合,面试得到的观察值并不会总体偏低,甚至有时候会总体偏高。在这些场合下,“四舍五入”的策略是不合适的。比如,当信息流动不畅,而candidate又顶着一块金字招牌的时候,很多观察者很容易受到金字招牌的影响而得到高估(甚至是大大高估)了的观察值。又比如,对较低层级的程序员的面试一般都比较标准化,主要就是编程题,考察的能力也主要就是算法和写代码能力。标准化考核的一个与生俱来的问题是可以事先准备,有题库,可以刷题,体现在结果上就是“高分低能”。编程题也不例外,有LeetCode等各种题库,还有人提供培训服务。我去年就在我的另一篇文章中指出,LeetCode之类的题库就像是体育比赛中的兴奋剂,它可以提高在面试时的表现,但效果并不能长久维持。很多能通过编程面试的人一旦进入真正的工作中,就会写出bug百出的代码。这些bug如果出现在面试中,他们是绝对没有机会通过面试的。所以,对于以编程题面试来说,不但不能用“四舍五入”,反而应该适当的把观察值调低一些[2]。相对来说,“四舍五入”更加适用于那些“非标准化”的考查类型,例如,对PM和manager的面试。

“四舍五入”的另一个作用是对那些undersale的被观察者的补偿。面试中,有些candidate比较能sale,说的难听点,比较能忽悠、能吹,能把自己做过三分的事情说成五分、七分。而另一些candidate比较不太能“吹”,容易undersale自己。大多数有经验的观察者对于前一类的candidate的甄别能力都比较强,但往往对后一类的判断力比较弱。这是有原因的:那些把三分说成五分、七分的人更有可能拿到超过他们自身能力的offer,因此更有可能take offer;而undersale自己的candidate更有可能拿到undervalue自己的offer,因此更有可能拒绝offer。我们作为观察者,提高自己观察能力、观察准确度的一个途径是考查过去的样本,把自己在面试时候的判断跟一起共事工作以后的判断做比较。由于overvalue的样本更多,久而久之我们鉴别这类人的能力就有更大的提高。另一方面,我们身边undersale的样本数量总体偏少,因此我们鉴别undersale的candidate的能力提升得就不太多。“四舍五入”能帮助观察者纠正对undersale的candidate的判断。

“四舍五入”作为一种对观察值进行修正的策略会不会导致over-correction呢?这个可能性不是没有。但对是否over-correction的判断本身也是一个观察过程,也会必定无法给出真实值,只能给出一个观察值。只要是观察值,就会存在error和bias。常常是当我们对over-correction担心的时候,其实correction得还不够。有很多传统智慧都是鼓励over-correction的。比如帆船界有一句俗语,“When in doubt, take a reef”。很多关于unconscious bias的实验数据都指出,哪怕我们有意识地对unconscious bias做出补偿,我们仍然可能补偿的还不够。


[1] 不考虑其他因素,比如名额限制、组织架构变动等。
[2] 这是非常不幸的。这让我想起了前几年美国大学对中国学生的GRE成绩会打折处理,原因就是中国学生普遍使用题库刷题来提高GRE成绩,而少数不刷题的中国学生也不得不开始刷题,这样年复一年,GRE考试作为一个对学生能力的观察过程,在运用在中国学生身上时,得到的结果越来越偏高,导致观察者不得不把观察值进行人为调低。

Comments on “我为什么不赞成压低级别(续)

Leave a Reply