我们地球上最聪明的生物怎么会输给一只章鱼呢?!
为了恢复人的尊严,成楠把目光投向了2018年俄罗斯世界杯。
虽然距离2018年世界杯开幕还有半年多的时间,但是经过一番分析之后,城南已经基本锁定了谁将是最后的冠军!
闲话少说,我先来结论部分:
预测2018年世界杯最终夺冠球队,有四个步骤:
1、利用爬虫获取数据;
2.计算各队的进攻、防守实力;
3.构建泊松模型;
4. 多次模拟该时间表,并统计结果;
下面,程楠就来为大家一一分析一下。
(一)
使用爬虫获取数据
首先给大家介绍一个神奇的网站: 。
统计了全球大大小小的各种足球比赛,数据相当详细,除了每场比赛的比分,还包括犯规次数、红黄牌、控球率等详细数据。
通过scout网站,你可以轻松获得参加2018年世界杯的32支球队以及他们近十年来参加的各项比赛的数据。
对于我们来说,最终的目的是预测2018年世界杯的夺冠队伍,太过陈旧的数据显然没有太大的意义。因此,程楠选择了2008年以后的数据作为预测的依据。
(二)
计算每支球队的进攻和防守实力
获得数据之后,我们需要利用数据来推算出各支球队的进攻实力和防守实力。
这里我给大家介绍一个算法。
对于A队来说,我们可以根据得到的数据计算出A队每场比赛的平均进球数,假设为2个。
接下来,我们需要以得到的数据为基线,计算出全部32支参赛球队每场比赛的平均进球数。假设所有球队每场比赛的平均进球数为1个。
现在,我们可以根据这两个数据来计算出A队的进攻实力,即:A队平均每场比赛的进球数/全部32支球队平均每场比赛的进球数。
在我们的例子中,A队的进攻实力是2/1=2。
同样的,我们可以根据得到的数据算出A队每场比赛的平均失球数(假设为1),然后再算出全部32支参赛球队每场比赛的平均失球数(假设为2)。
那么A队的防守实力就等于A队每场比赛平均失球数/全部32支球队平均失球数(这种情况下结果为1/2=0.5)。
程南按照这个算法计算,做出了下面两张图:
进攻实力方面,德国领先,其次是西班牙、巴西、英格兰和葡萄牙;防守实力方面,西班牙排名第一,法国、伊朗、巴西、英格兰分列第二至第五位。
等等,这里面好像有什么奇怪的东西,伊朗队的防守实力居然排在了第三?!
这个问题后面会进行分析。
另外要提醒大家的是,这里的攻防实力并不是进球数和失球数,防守实力越低说明该球队的防守实力越强。
(三)
构建泊松模型
泊松分布是一个数学概念,描述某一事件在一定时期内发生的概率。
举个例子,假设你在公交车站等车,虽然站牌上写着平均每5分钟一班,但是如果你在公交车站等了5分钟,可能会等到1班,也可能等到3班,当然,如果你运气不好,一班车也来不及,也是很正常的。
因此,当你等公交车时,5分钟内到达的公交车数量符合泊松分布模型。
同样的道理,我们可以利用上面得到的数据,计算出一支球队在一场比赛中可能进的球数,也就是进球数的期望值。不过,一支球队在一场比赛中能进多少球,是一个符合泊松分布的事件。
对于泊松分布来说,最重要的值是期望值,也就是说,我们需要计算一支球队在一场比赛中的进球的期望值。
那么,当A队和B队比赛时,我们如何计算两队进球的预期值呢?
程南采用了另一种算法。
当A队和B队比赛时,A的进球期望值等于A的进攻实力*B的防守实力*全部32支球队的平均进球数。同样,B的进球期望值也等于B的进攻实力*A的防守实力*全部32支球队的平均进球数。
如果我们假设A队进球的期望值为1.5,B队进球的期望值为1.7,那并不代表最终比分就是1.5:1.7。那么,最终比分该如何得出呢?
我们可以用泊松分布来求解,如果给定泊松分布的期望值,那么就可以计算出某个事件发生次数的概率。
例如,如果A队进球的期望值为1.5,B队进球的期望值为1.7,那么根据泊松分布,A队和B队进球的概率分布如下:
因为在一场世界杯比赛中一支球队进球超过4个的情况并不常见,所以我们在计算时假设总进球数不超过4个。
有了这个概率分布表,我们就可以计算出A队和B队比赛时任意比分的概率了。
例如A队与B队0-0打平的概率为0.041(0.2231*0.1872),4-2打平的概率为0.017(0.0657*0.1827)。
(四)
多次模拟时间表并计算结果
建立好泊松模型后,我们就可以预测任意两支球队的比分,接下来就是对每场比赛进行模拟,并根据2018年世界杯的小组赛成绩和赛程来决出冠军。
程南共进行了仿真,得到以下结果:
差点夺得欧洲杯冠军的法国队确实风头正劲。在城南进行的十万次模拟中,法国队夺冠次数超过一万次。而完成新旧交替的西班牙队紧随其后。毕竟他们曾经创造了一个称霸世界的王朝,冠军之心永远不容小觑。
且慢,如果说明星云集的英格兰队和五星巴西队分列第三、第四都可以接受的话,那么排在他们后面的伊朗、尼日利亚等球队呢?
城南无意贬低这些球队,但恐怕就连他们的铁杆球迷也没有想到这些球队能够夺得世界杯冠军。
“如果大家还记得的话,我们当年计算各队的攻防实力的时候,伊朗队的防守实力排在第三。”成楠当时表示,“这个问题我们以后再谈。”
现在,是时候讨论这些问题了。
(五)
数据清洗与调整
完成以上四个步骤之后,我们就可以得出结论了,但是显然这样的结论并不是很令人满意,所以我们需要回到起点,对获取的数据进行进一步的处理。
首先,我们有近十年来各队在所有比赛中的进球数和失球数数据。在计算各队平均每场比赛的进球数和失球数时,我们假设这些比赛同等重要。比如,以法国队为例,假设法国队在上届欧洲杯决赛中进了1球,在与中国的友谊赛中进了4球,我们能说法国队平均每场比赛进球数是2.5球吗?同样,假设伊朗队在上届世界杯小组赛中丢了4球,在与叙利亚的另一场友谊赛中一球未失,我们能说伊朗队平均每场比赛失球数是2球吗?
因此,我们需要根据比赛的重要性,对球队的进球和失球赋予不同的权重。
程南将“世界杯”、“欧洲杯”、“美洲杯”、“亚洲杯”、“非洲杯”、“世界杯预选赛”等比赛的权重设为1,其他杯赛(如“东亚杯”)的权重设为0.8,友谊赛的权重设为0.6。然后重新计算各队的攻防实力,再次模拟2018年世界杯,结果如下图所示。
如今,西班牙已经取代法国成为榜首,其次是五星巴西,然后是无敌的德国坦克,前三名看起来非常有说服力。
但为什么日本排在第四?伊朗为什么还在榜单上?克罗地亚排在第八,看起来还挺靠谱的?
这表明我们的数据还有进一步优化的空间。
如果你看一下世界杯的历史就会发现,世界杯冠军全部都是来自欧洲和南美洲的球队,可见欧洲和南美洲的足球水平是比较先进的。
在我们的数据中,球队跨洲比赛并不多,比如日本队大部分比赛都是对阵亚洲球队,法国队大部分比赛都是对阵欧洲球队。但在计算各队的攻防实力时,我们依然没有区分它们,这显然是有问题的。
比如世界杯上法国队对阵巴西队,进了3个球,亚洲杯上日本队对阵中国队,也进了3个球,那么能说日本和法国的进攻实力差不多吗?
为了解决这个问题,城南把32支球队分成两个层级,欧洲和南美洲的球队属于第一层级,权重为1,其他大洲的球队属于第二层级,权重为0.8。
随后,程楠重新计算了各队的攻防实力,并再次模拟了2018年世界杯,结果如下图所示。
这幅图就是一开始在城南所展现的图。
西班牙继续高居榜首,毕竟过去几年,尤其是2008年至2012年这四年间,西班牙的战绩实在是太耀眼了,他们夺得2018年世界杯的概率高达15%以上。
巴西队作为世界杯夺冠次数最多的球队,仅次于西班牙队,排名第二;德国队位列第三,是世界杯卫冕冠军,目前世界排名第一。
这份名单上比较让人意外的球队或许是克罗地亚和瑞士,但每届世界杯总有冷门出现,这两支球队未必能夺冠,但却很有可能成为2018年世界杯最大的黑马。
(六)
最后,城南还发现了一些有趣的数据。
虽然以上情况说明西班牙夺冠几率较大,但世界杯毕竟分为小组赛和淘汰赛两个阶段,不少强队因为小组赛表现不佳而遭遇挫折,比如西班牙自己就经历过小组赛直接被淘汰的尴尬。
因此,城南也对各支球队小组赛成功出线之后,夺冠的概率进行了分析,从中发现了一些不同的东西。
西班牙若小组赛顺利晋级,其夺冠概率将飙升至24.2%,成为唯一一支夺冠概率超过20%的球队。
德国超越巴西位居第二,这意味着如果成功突围小组赛,德国夺冠的几率将大于巴西。
此外,葡萄牙和阿根廷夺冠的概率也在快速增加,这或许意味着这两支球队想要从小组赛出线并不容易,但一旦出线,他们也将成为夺冠热门。
法国队或许是感到有些遗憾的一方。
尽管法国队在欧洲杯上击败德国队,几乎成为欧洲杯冠军,但他们在世界杯上的夺冠前景似乎也变得艰难。不过,这或许是因为法国队在过去十年中表现不佳,但并不代表现在这支充满青春气息的法国队真的不如别人。
最后,城南也趁机从十万次模拟的结果中,对各个小组每支球队出线的概率做了一下统计,结果同样让人吃惊。
拥有C罗、梅西和阿扎尔的葡萄牙、阿根廷和比利时凭借绝对实力和球星魅力成为关注焦点,但从数据预测来看,他们或将无法小组出线,从而成为2018世界杯最大冷门。
此外,在德国所在的小组中,韩国有可能超越墨西哥和瑞典,突围而出,这也可能是一大冷门。
最后,城南想说的是,一场足球比赛最终结果受天气、球员状态、比赛时间、甚至裁判等太多因素影响,所以以上预测仅代表观点,仅供娱乐,请勿当真。