长篇介绍:什么是“预期进球”以及什么是“真实射门率”
几乎在我写的每一篇跟数据有关的文章里,我都会提到一个数据点——“真实命中率”。评论区有朋友问我这个数据点是什么,想科普一下。这其实就牵涉到一个问题:
如何量化一名球员的射门能力?媒体对待这个问题一直采取非常简单粗暴的办法:看进球数。进球数虽然简单,但在有水平差异的情况下,还是有意义的。但问题在于:我们无法从进球数中看出每一次射门的难度,因此并不知道球员在每一次射门中“克服难度”的能力。例如,下面两个进球,显然难度差别很大,但在传统标准中,它们的数值是一样的,都是1球:
当然,媒体会通过“十大进球”等节目给予谢尔维的世界级进球更高的推崇。但每一次射门的难度可能各不相同。单纯选取10次甚至100次“精彩射门”还远远不足以衡量大样本下多名球员的射门表现。而我们并不知道一名球员在打进一粒世界级射门后,到底有多少次空门,又有多少次“保姆球”。因此,最好的办法是将每一次射门的难度量化,这样才能对射门本身的质量给出更公正的评价。好消息是,我们有“预期进球”(Goal,一般简写为“XG”)这个数据。
其实这并不是什么新鲜数据,微博上很多博主甚至会在比赛结束后立即更新每场比赛双方的预期进球数,当然他们大多会将其翻译成“预期进球值”(不过我看不出这两种翻译有什么本质区别)。其实这个数据有很多版本,不同数据公司的算法略有不同,具体算法大多没有公布。 微博上用的算法,大部分来自贴吧,其姊妹网站给出了一个大概的方向:它指的是射门的位置(包括距离和角度)、射门前的传球情况(是否传中、传球次数多少、是否是截球后立即进攻)、控球情况(是否已经带球过人、是否已经过门将、是否是OPTA定义的“绝佳机会”)等因素,结合近期数十万次射门,用大数据计算出“射门发生前,这一脚射门得分的概率”——注意,是在射门发生前,换句话说,就是量化“射门难度”。比如刚刚给出的两粒进球:凯恩的门前射门预期进球数为0.77,而谢尔维的世界波预期进球数只有0.07。
当然,作为“射门前”的数据,预期进球数并不能考虑一些意外情况。比如,下面这个球,由于防守队员的阻拦极其严密,预期进球数仅为 0.01,但反弹后的皮球路线诡异,竟然在门将没有反应过来的情况下,就飞向了横梁:
至此,我们无需担心“未公开的算法是否可信”,因为就算数据公司想告诉你具体的公式,他们也做不到——这个大数据算法可能根本就无法形成具体的公式。当这些数据产生之后,我们要做的,就是思考该怎么去利用它。其实它的根本性质“量化射门难度”已经为我们指明了使用方向:有了难度量化,就必须要有“克服难度的能力”量化。我们只需要在样本足够大的情况下,利用每次射门的实际进球数和预期进球数做一个差值,就能得到一个球员的“修正射门难度的能力”。
因此,我想出了“真实射门得分率”这个概念——之所以这么命名,纯粹是因为我不知道该怎么命名。公式为:“真实射门得分率=(实际进球数-预期进球数)/射门次数*100%”。由于每次射门的实际进球数只有0、1两种可能,而预期进球数,即使我们取两位小数,也有99种可能,所以这个算法中最大的变量就是预期进球数。显然,少量的高难度射门不会带来太大影响,但一旦射进,就是巨大的加分项;反之,如果总是进一些保姆球或者点球,那么最终的真实射门得分率也不会太高。
当然,除了极少数可以忽略不计的乌龙球,射门其实是足球场上进球的唯一途径;而且足球没有24秒规则,比赛双方的进攻机会很可能不对等,因此培养更多的射门也很重要。对于射手来说,产出和质量是最能兼顾的两个维度。因此,我们在量化的时候,也要注意射门次数的叠加——注意,对于一个优秀的射手来说,射门多是好事,虽然我们无法量化“产出”和“质量”之间的关系。除此之外,还有一个重要的因素,就是“上场时间”。
接下来我们通过三张散点图来简单清晰的看一看本赛季英超(16轮)、西甲(15轮)、意甲(15轮)中谁是最佳射手。样本选取给出的前30名射门。
第一张图片告诉你谁是英超最佳射手
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
其实在英超,大家的射门次数普遍都不会太多,最多的阿奎罗,每90分钟也只有4.14次射门。而在整个联赛中,能够兼顾射门产量和质量的,依然是瓦尔迪。严格来说,此人射门频率并不高,但他的真实射门得分率却达到了夸张的16.54%(梅西上赛季还不到8%)。当然,这个数据肯定会调回来,但即便大幅下降,也依然是一个极高的数字。再加上他目前的总出场时间长达1547分钟,最终积累了17粒进球,也就不难理解了。
值得注意的是,位于纵轴顶端的阿里和谢尔维之所以能出现在这份榜单上,很大程度上是因为样本量太小,门槛太低,导致数据“失真”。谢尔维至今只有19次射门,阿里则更少,只有12次。极少的难以射门的射门对真实射门率的影响非常恐怖。比如,以下两粒进球中阿里和谢尔维的射门预期进球数分别只有0.15和0.07:
当然,这样的进球,尤其是谢尔维的进球,不太可能持续很长时间。当然,也存在着谢尔维接下来很少射门的可能,因此他的真实射门得分率会保持在极高的水平;不过,如果30轮过后再看,两人很有可能会因为进球数太少而被直接排除在考虑范围之外。
另外,我还要提醒大家两点:第一,最终决定进球数的不仅仅是射门准度和射门权,第三个变量“上场时间”也很重要;第二,我们的图表只是针对射门次数的量化,盘带、传球、过人等进攻环节并不在考虑范围之内。这两点其实有一个共同的典型案例,那就是孙兴慜。韩国天王每90分钟的射门次数和真实射门得分率相比上赛季其实有所下降,而射门难度基本持平。真正导致本赛季产量上升的,是作为绝对主力,他本赛季的上场时间暴涨;同时,他肩负的大量盘带和推进任务,与这张图表无关。
第二张图告诉你谁是西甲最佳射手
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
在西甲,梅西无疑是最强的球员,输出最高,质量第二。其中,他18.00%的真实射门得分率最恐怖——我们刚才提到,谢尔维在射门次数不多的情况下,真实射门得分率非常高,但也只有19.16%。要知道,梅西的射门次数是谢尔维的两倍。
事实上,梅西最终能以一球之差超越本泽马,暂时登顶西甲射手榜,靠的正是真实射门得分率上的巨大优势——两人90分钟的射门次数相差无几,均位列西甲前两位,本泽马在出场时间上遥遥领先,梅西只不过是在高难度射门上更自信一些。
其实,之前梅西的射门准度虽然不错,但也没有这么高。之所以这两年他突然大涨,就是我在《数据告诉你,梅西转型后的升华》一文中说过的。梅西这两年在禁区前和任意球方面的射门都有所提升,尤其是后者,他每次打进任意球都是巨大的加分项。比如下面两粒进球的预期进球数分别只有0.07和0.05,这显然大大提升了梅西的真实射门准度:
同样值得关注的还有苏亚雷斯和本泽马。两名球员单位时间内的射门频率和射门准确率相差不大,两名球员3球差距的主要原因是本泽马比苏亚雷斯多踢了300分钟。但如果我们对比这两名球员近5年的数据,就会发现,他们一个在上升,一个在下降。我们将这两名球员近4年的数据做成散点图,分别进行分析:
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
显然,苏亚雷斯整体状态在下滑。2015-2016赛季是他“质”与“量”平衡的典范,那个赛季的MSN组合也非常成功。随着内马尔的离开,苏亚雷斯的射门机会直线下降,射门准度这两年也进行了调整,甚至不看数据统计也是如此。其实相对而言,本赛季他的状态有所提升,在赛场上也看得出来。
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
本泽马的情况就不一样了,他在15-16赛季也达到了质与量并举的巅峰,但随后迅速下滑,尤其是17-18赛季,他飘在外线搞点“配合”,宁死不肯进禁区,其实是坑了球队也坑了自己。要知道那时贝尔已经失去了主力位置,禁区里就C罗一个人,本泽马“空挡禁区”毫无意义,再加上他远射也不行,最后射门次数和射门准度都创下“双低”。不过本泽马的聪明之处在于,他很善于自我总结,从18-19赛季开始,他仿佛一夜之间意识到“我是中锋”,结合C罗离队打开封盖的机会,不断往禁区里钻。 在禁区内触球频率创新高的同时,射门的产量和质量也得到了提升。
此外,还有一个人也不得不提——格列兹曼。格列兹曼在过去几个赛季的真实射门率上堪称超神。放眼世界足坛,恐怕没有人比格列兹曼更懂得“中产高效率”的含义。此人几乎不会尝试什么极难的射门,但一旦中等难度的射门摆在面前,基本都是轻轻松松就能接住。一旦鸭子煮到三十分熟,他就不会让它飞走。然而本赛季环境突变,格列兹曼经常依靠自己并不擅长的爆发力在左路谋生,要求他用左脚保持超高的真实射门率已经有些困难了。即便如此,此人也有5.07%的真实射门率,如果能保持到赛季结束,这依然是一个不错的数据。
第三张图片告诉你谁是意甲最佳射手
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
在意甲,目前能够兼顾产出和质量的无疑是榜单第一射手希罗·因莫比莱。他在纵轴上似乎并没有那么领先,纯粹是因为西奥和若昂·佩德罗在小样本中精度太高。而且因莫比莱和瓦尔迪相似的地方在于,他们都有大量的出场时间。射门权、精度和时间三个维度共同作用,他们进的球数非常高也是理所当然。此人远射并不多,大部分射门都分布在禁区内。原本这对于真实射门得分率的积累并不太有利,毕竟所有射门都离球门很近,意味着预期进球数会上升。但因莫比莱本赛季有一技之长:擅长在封堵下射门,对真实射门得分率的正向加成不容忽视。比如,下面这个球的预期进球数仅为0.11:
另一个重点自然是C罗。我知道他现在的情况不太好。从图表上看,他本赛季在联赛中的表现确实有些“高产低效”,真实射门得分率甚至跌入了负值。这里必须要说的是,虽然偶尔的一两次远射不会对真实射门得分率造成太大的影响,但如果这样的尝试过于频繁,累积起来就会成为相当大的负面因素。本赛季C罗的射门选择确实显得有些不合理,远射次数过多。下面我们给出本赛季至今C罗在联赛中的射门分布:
说实话,这里的远射实在是太多了,有些甚至分布在边路。这些选择确实值得怀疑。比如下面这两次射门的预期进球只有 0.02 甚至 0.00(是的,你没看错)。的确,一旦进球,奖金是巨大的;不过偶尔这么做没关系,但尝试太多就另当别论了:
其实,C罗可以主动做出一些调整,比如更多地去门前突击——别小看去门前突击对真实射门得分率的累积效应。要知道,决定每次射门预期进球数的不仅仅是距离球门的远近,角度、接球方式,甚至射门位置都会产生很大影响。虽然下面的球离球门很近,但防守球员的对抗和干扰加上角度阻挡,再加上侧身传中和头球(通常这两个要素被认为不太利于进球),最终的进球数只有0.09个C罗进球,那可是一笔巨大的加分项:
当然,我并不是说一个球员的存在要服务于某种高级数据,而是说,既然这种射门被参考了过去几十万次射门的大数据算法定义为进球概率只有9%,那么就意味着这种射门其实非常难。而C罗就非常擅长这一点。因此,他发挥自己的优势,多去门前踢球才是更合理的。
不过需要注意的是,C罗近几年的职业生涯呈现出一种极其奇怪的趋势,似乎在他年满 30 岁之后,开始在一个赛季里刻意调整自己的身体分配。联赛前期,C罗的射门准度基本都不太好,后面才有所矫正。更重要的是,他在欧冠赛场上的表现要比联赛好很多。我们做了一个柱状图,对比一下 C罗近 5 个赛季在联赛和欧冠赛场上的真实射门得分率:
说实话,C罗在欧冠和联赛中的表现差距确实很大。我不想用“关键时刻大心脏”这种毫无根据的词汇来形容,因为一是联赛同样关键,二是我们没有球员激素分泌的数据,没有一手资料来研究球员心态的变化,三是如果把所谓的关键时刻全部筛掉,样本就太小了,失去了量化的意义。这时候谈心态,连隔岸观火都算不上。只能根据这份履历猜测:或许本赛季C罗在欧冠和联赛中还能打出反差巨大的表现。
其实,无论我们怎么分析,都要注意一个客观事实:把所有球员放在一起比较的数据模型,不会把球员的年龄考虑进去。罗纳尔多即将年满35岁,如果把这个年龄段的球员全部聚集在一起进行评估,很可能无法形成全貌,因为大多数人此时都很难进入榜单。其实,我们每个人都知道,自己终有一天会老去;我们会从热血青年变成看着下一代茁壮成长,然后擦干汗水继续工作,为妻儿多挣几百块钱,暂时压抑住年轻时的很多梦想——我们都会老去,职业生涯更短的运动员又何尝不是呢?
所以,一方面我相信C罗一定能适当调整射门准度,但另一方面我也清楚,有些东西可以学习珍惜,却不适合用来“勒索”。我的偶像劳尔,已经35岁了,已经远赴卡塔尔踢球了。
(半夜花花嚎叫)