图1-2 哈雷尔(左)、路威廉姆斯(中)、比永博(右)

那么, 自由球员在自由市场中的价值,具体表现为其下一份合同的薪金大小,是由哪些因素决定的?就经验而谈,主要的因素应该包括其在球场上的表现以及其展现的天赋和能力,再或者是对胜利的贡献。对于球队经理来说,需要主观的综合考虑多方面的因素,给出合适的合同。但有时片面的考虑,则可能会导致溢价合同的诞生,如上述的比永博的例子。因此对球员薪金影响因素的量化分析,可以更合理的估计出球员对应的真正的价值,即对应合理的薪金合同,一方面可以避免球队给出多份溢价合同,从而避免高额的奢侈税支出;另一方面,挑选更具性价比的球员,组建更为合理的阵容,对球队战绩的提升、球队运营收入的增益,有着重要的意义。

二、数据说明

爬取某专业篮球网站的关于 NBA 球员2018-19赛季的各项技术统计,以及其对应的合同薪金作为研究所用的数据集,共计345个样本。因变量为NBA球员2018-19赛季当季薪金。为了更准确的研究薪金影响因素,自变量除得分篮板等常规数据外,还考虑了个人信息、进阶数据和生涯数据三个方面的影响。首先对爬取的数据做初步的清洗工作,包括部分字段缺失值的处理、根据已有字段生成新的变量(如根据球队信息,生成所在球队排名)等处理。再通过初步的筛选,形成了如表 2-1 所示的指标体系。个人信息主要是体现球员身体素质、竞技水平的变量;当季数据基本是根据球员在本赛季常规赛中的直接获得计数数据,体现球员的表现情况;进阶数据则是采用更加科学的算法,得到的更有效的衡量球员在球场的表现好坏或对球队胜利贡献的变量;生涯数据是球员职业生涯的数据,可以体现球员在整个生涯的竞技水平。其中个人信息中的“球队排名”、“位置”、“是否最佳阵容”、“是否当季全明星”为分类变量,其余均为连续变量。

表2-1 指标体系说明

三、描述分析

3.1 薪金的分布

首先,观察所要研究的因变量——薪金。这里取的是345名球员2018-19赛季的合同薪金。其中,本赛季薪资最高的球员为勇士队的斯蒂芬库里,其薪资为3746万美金。数据集中所有345名球员的平均薪金为707万美金,中位数为462万美金。也就是说,在所有345名球员中,有一半的球员低于462万美金,这似乎与大家对NBA球员的薪金的印象有所出入。绘制薪金的频数分布直方图以观察薪金的分布情况,如图3-1所示,观察发现,球员的薪资呈现严重的右偏分布,事实上,大多数球员都是拿着500万以下的中产或底薪在打拼,而2000万以上高薪的球星的名字虽然更耳熟能详,但数量相对较少。图中以250万为一组,发现1000万以上各分组球员数量集聚下降,1000万以下占据了球员中的大多数。

图3-1 2018-19赛季薪金分布直方图

3.2 个人信息对薪金的影响

球队经理在考量一名球员的签约价值或交易价值时,除了球员的数据,自然会将球员的一些个人信息纳入考虑,如该名球员的年龄、身体天赋、位置等。选取“年龄”、“球队排名”、“位置”、“臂展身高差”四个变量,探究个人信息对球员薪金的影响。其中,“球队排名”根据2018-19赛季所效力的最后一支球队的最终常规赛排名;“位置变量”只包括“后卫”、“前锋”、“中锋”三个取值,对于一些位置如“前锋/后卫”取第一个位置信息;“臂展身高差”为臂展与身高的差值,臂展可以作为衡量身体天赋的一个重要指标,而臂展又受身高影响,所以不同位置的臂展不适合直接横向比较,故采用臂展身高差这一变量。另外,再对“年龄”、“球队排名”、“臂展身高差”做分箱处理,并绘制箱线图如图1-2所示。

图3-2个人信息各变量箱线图

由上图发现,薪金关于年龄的分布,符合正常的认知,25岁及以下的年轻球员薪金较低,其中中位数位置偏下,由于25岁以下有很大一部分是拿着新秀合同的球员。25-30岁是球员的巅峰,竞技水平达到高峰;30-35岁且仍在NBA获得合同的球员相对也保持着较高的竞技状态,因此这两组的薪金偏高。35岁以上的老将,竞技状态一般都呈现下滑趋势,故这一组的薪金相对偏低且波动幅度较小。从位置看,中锋的薪金相对高一些,由于优秀的中锋更为难得,而后卫的薪金从平均水平上看最低,因此说“NBA不缺后卫”是有一定道理的,而后卫的上限并不低,顶尖的后卫同样可以获得顶薪合同。从关于球队成绩分组的薪金平均水平看,成绩越好的球队球员的薪金越高,从上四分位数和箱线图顶端的线看,成绩越高的球队汇集了薪金更高的球星,这也体现了球星对球队成绩的作用。从臂展身高差来看,这一变量对薪金的影响似乎不是很大,只能看出臂展小于身高的球员(身体天赋较差)球员的薪金上限不高。

3.3 当季数据vs生涯数据

衡量球员的能力,最直观且常用的是球员的数据,如得分、篮板等。这里采集了球员的当季数据和生涯数据,当季数据指球员在本赛季常规赛中的基本数据;生涯数据为球员整个职业生涯的平均数据。 那么,当季数据和生涯数据对于薪金的影响如何,哪个指标对薪金的影响更大,当季数据和生涯数据对薪金的影响是否有差异?带着这一系列问题,这里筛选了六个平时最为关心的指标:“得分”、“篮板”、“助攻”、“抢断”、“盖帽”、“最高得分”,分别对当季数据和生涯数据的这六个变量进行标准化变换,并按薪金大小分组计算各分组内的平均数据,绘制雷达图,如图3-3所示。

图3-3当季数据(左)与生涯数据(右)六大变量按薪金分组雷达图

从上图中,可以得出以下几点信息:

(1)数据越漂亮,薪金越高。无论是当季数据还是生涯数据,对于四组薪金分组,可以明显看出薪金不同的球员在数据上的差异,各个变量与薪金正向相关,变量值越高,薪金越高。另外2000万以上的球员各项平均指标明显高于其他组别,1000万-2000万分组(图中黄色线)的数据较500万-1000万分组(图中蓝色线)数据有微弱的领先,而500万以下球员的平均数据各方面都相对较低。

(2)"抢断”影响最小,“得分”影响相对最大。由于数据经过标准化变换,已消除量纲的影响,可以直接观察比较雷达图的形状判断各变量对薪金的影响。可以发现,“抢断”这一变量在这六个变量中,对薪金的影响最小,不同分组在“抢断”这一变量上的差异最小,甚至500万以下分组的球员抢断数据与500万-1000万分组和1000万-2000万分组的几乎没有差异。相对来说,“得分”这一变量的影响最大,所以对球员来说,要想获得更高的薪资,在“得分”上取得进步和突破是最有效的方式。

(3)当季数据和生涯数据对薪金的影响有着差异。当季数据中,500万-1000万分组和1000万-2000万的各项数据差异非常小,这可能有一些球员在球场上有着“数据无法体现的作用”的原因。而生涯数据,相比与当季数据,500万-1000万分组和1000万-2000万分组的差距更为明显,从这一角度可以进一步证明,在职业生涯中证明过自己而当季发挥一般的球员,可能可以比当季表现相当的球员得到更高的薪金。生涯数据体现了球员整个职业生涯的能力,有一些球员可能由于伤病或年龄本赛季发挥不佳,但是其整个职业生涯或者其本身的能力可能是非常优秀的,因此在考虑薪金影响时,需要考虑到职业生涯的数据。

3.4 进攻能力vs防守能力

常规数据是根据球员在比赛中直接获得的计数数据,受上场时间和球队战术等影响,存在一些缺陷,比如上一节中,500万-1000万分组和1000万-2000万分组在数据上差异小。而进阶数据具有更加科学的计算方法,可以更准确的反映球员的各方面的能力或对球队比赛的影响。这里筛选了“进攻效率”、“真实命中率”、“回合占有率”、“关键得分”四组代表进攻能力的变量以及“防守效率”、“干扰投篮”这两个代表防守能力的变量分别探究进攻能力和防守能力对薪金的影响。

首先对各个进攻变量稍作解释,“进攻效率”,用来衡量该球员在场时球队每 100 回合得分,相比得分,这一指标可以更好的衡量球员的进攻能力和与球队的化学反应;“ 真实命中率”考虑了三分的权重和额外获得的罚球数据,是更科学的体现球员把握得分机会能力的数据;“ 回合占有率”是一个球员在场上时占据球队回合率的估算值,体现了其在场上的自主进攻能力和球队对其的依赖性;“关键得分”是指比赛进入第四节或加时赛最后5分钟内,且两队分差不高于5分时球员的得分,表现球员关键时刻的攻坚能力。同样对各组变量作分箱处理,绘制与薪金的箱线图,如图3-4所示。

图3-4 四项体现进攻能力的变量关于薪金的箱线图

总的来看,四项数据都与薪金呈现正向相关,进攻能力越强,球员薪金越高。“进攻效率”越高代表球员进攻能力越强,在场上时球队的进攻越顺畅,从图上看,球员的薪金平均水平和薪金上下限也越高。“真实命中率”较“投篮命中率”,更好的体现球员把握得分机会的能力,“真实命中率”越高,薪金的平均水平也越高,不过65%以上分组的薪金上限略低于55%-65%分组,事实上,55%-65%已是不错的水平,不过真实命中率还是保证了薪金的下限。“回合占有率”和“关键得分”都体现了球员的进攻能力以及球队对其的依赖。“回合占有率”除0.1以下分组外同样是占有率越高薪金越高,0.1以下分组可能包含一些不占用球权的功能型球员,所以一定程度上提高了平均的水平,从上限看仍低于0.1-0.2分组的球员;“关键得分”则呈现良好的正向相关的规律,所以,这也往往是体现球星真正实力的一项数据。

“防守效率”,与进攻效率类似,指每百回合被对手攻下的分数,在防守能力很难被量化的情况下,这是一个很好的衡量防守的变量;除此之外,“干扰投篮”为防守球员在进攻球员投篮前上去紧逼并伸手封堵,一定程度上体现了球员的防守积极性。同样对这两项数据进行分箱处理,绘制关于薪金的箱线图,以观察防守能力对薪金的影响,如图3-5所示。

图3-5 防守效率、干扰投篮关于薪金的箱线图

从图上看,防守效率与薪金的相关性不强,无论是薪金平均水平还是薪金的上限,不同分组间的差异不大;而“干扰投篮”变量,从薪金平均水平看,除“4次以下”分组外,其余三组薪金平均水平差异不大,但是关键时刻的干扰投篮这一数据,也基本保证了薪金的上限与下限。由此可见进攻能力是更为重要的衡量球星以及球员薪金的标准,防守能力强可以在 NBA 拥有一席之地,但却很难仅仅因此获得高薪。

3.5 比赛贡献度

比赛贡献值是一项综合衡量球员对比赛影响程度的数值,是通过各项指标综合计算得出的指标。绘制比赛贡献值与薪金的散点图,如图3-6所示。

图 3-6 比赛贡献值-薪金散点图

根据比赛贡献值和薪金的散点图看,总的来看呈现一个正相关的规律,比赛贡献值越高,薪金越高。标注出了部分大家喜爱的球星,如哈登、杜兰特、字母哥、库里,他们在获得高薪的同时,也具有非常高的比赛贡献值。另外,从图中可以看到有一部分球员有较高的比赛贡献值,而薪金非常低(图中椭圆标注处),如小萨博尼斯,比赛贡献值为16.2,联盟排名第12,而其薪金仅为255 万。这些就是需要挖掘的“高性价比”球员,对比赛有着重要的贡献,且薪金非常低。而图上左上角的部分,可以说是表现不及其薪金价值了。被球迷诟病“养生篮球代表”的威金斯,本赛季的薪资2525 万美金,而其贡献值仅为7.8,位于联盟中游水平。当然这仅是比赛贡献值一个指标,除此之外还有很多进阶指标可以衡量球员的能力和对比赛的贡献。

四、建立模型

4.1 主成分分析

观察当季数据与生涯数据各指标的相关系数热力图,如图4-1所示,发现多个变量间的呈现高度相关,如“得分”与“上场时间”、“赛季最高分”、“生涯最高得分”、“生涯场均得分”等。且这两组数据变量较多,因此对这两组数据进行主成分分析,进行降维,并避免自变量间的线性相关。

图4-1 当季数据与生涯数据多个变量间的相关系数热力图

对数据进行标准化变换,避免量纲的影响,并进行主成分分析。选取了前2个主成分,方差贡献度达到0.7以上,即可包含当季数据和生涯数据的大部分信息。主成分分析的因子载荷矩阵如表4-1所示,由因子大小可对主成分含义做出解释。第一主成分主要为“得分”、“助攻”类的数据,因此解释为进攻数据指标;第二主成分主要为“篮板”和“盖帽”数据,因此解释为防守数据指标。

表4-1主成分分析因子载荷矩阵

4.2 多元回归分析

4.2.1 建立回归模型

将上述两大主成分得分作为新的变量,替代当季数据和生涯数据加入自变量指标体系,并对其他连续变量作标准化变换,对多分类变量作one-hot编码处理。另外,由于因变量呈现明显的右偏分布,因此对薪金进行Box-Cox变换,改善其正态性。由于直接对所有自变量进行建模,模型效果比较一般,且多个变量的回归系数不显著,因此再根据AIC值进行变量筛选。最终,根据筛选的变量体系建立回归模型,建模结果如表4-2所示。变量回归系数基本通过显著性检验,且F检验p值远小于0.05,认为该回归模型整体是显著的, 为0.602,调整后的 为0.593,认为模型拟合度较好。

表4-2 回归系数及检验结果

4.2.2 模型诊断

绘制残差与预测值的散点图、残差概率密度曲线、残差QQ图,如图4-1所示。

图4-1 模型诊断图

(1) 残差正态性检验。如图4-1所示,概率密度曲线基本符合正态分布曲线,且QQ图几乎呈一直线,基本认为残差服从正态分布。

(2) 残差独立性检验。若DW值接近于0,则认为残差序列完全正相关,该模型中Durbin-Watson统计量为1.060大于1,故认为自相关性不强。

(3) 方差齐性检验。图4-1中的残差关于预测值的散点图大致不存在着异方差性,对残差进行BP检验,p值为0.54,大于0.05,故认为方差齐性,不存在异方差。

4.2.3 模型解读

通过变量筛选后,最终模型的变量回归系数基本是显著的。首先观察这几个变量的回归系数,如图4-2所示。其中“年龄”是一个较为重要的变量,且系数较大,事实上与NBA新秀合同有关,由于没有NBA实战数据参考,NBA球队对于刚进入NBA的年轻新秀的首份长合约都是非常廉价的合同。“身高”和“是否为中锋”变量的回归系数,体现了NBA中锋的稀缺,大个子球员对于取得更高的薪金是更有优势的。“进攻数据指标(F1)”的回归系数为0.152,这也体现了基本数据(包括当季数据和生涯数据),尤其是“得分”、“助攻”等偏向体现进攻能力的数据。“防守数据指标(F2)”的回归系数为0.021,回归系数不大,且没有通过显著性检验,说明体现防守能力的数据与薪金的影响不太大。

另外“比赛贡献度”和最终的回归系数为-0.155,这主要是由于,如图3-6的散点图所示,有太多的底薪球员在场上有着良好的贡献度,最终导致模型中的系数为负。“干扰投篮”的最终回归系数-0.321,这与图3-5中的信息似乎有所相悖,但仔细想想,这与“比赛贡献度”一样,箱线图的下半部分更窄,说明同样是有太多底薪球员,防守非常积极,该数据表现较好,因此,导致模型系数为负。尽管如此,不能说球员对比赛的贡献和防守积极性对薪金有不好的影响,反过来想,实际上对球队经理来说,有很多比赛贡献度高,或者防守积极的球员,其薪资相对较低,更值得被挖掘。

图4-2 回归系数图

4.3 模型预测应用

通过上述模型,对球员的薪金进行预测,将预测值转换为与原薪金同一量纲之后,将预测值与实际值进行比较。于是得出预测值与实际值比值排名的前十名球员,如表4-3所示。

表4-3 最具“性价比”球员(前十名)

如上表所示,所列10名球员都是非常公认的具有“高性价比”的球员,其中包括了曾经的MVP后受伤病折磨,并焕发新春的德里克罗斯;仍处于新秀合同但已打出身价的球员如库兹玛、布克等;还包括今年的最佳进步球员并代表猛龙队夺下2018-19赛季总冠军的西亚卡姆。可见模型预测结果可以值得参考,这些球员的实际表现出的价值远远高于其当季所获得的实际薪金。不过模型同样存在缺陷,即将体现防守积极性的干扰投篮、表示对球队胜利贡献的胜利贡献度系数为负,导致仍然有些球员的真正价值没有预测出来。

五、结论

通过对薪金及相关变量的描述分析和建模分析,可以得出以下结论:

(1)NBA球员薪金呈现右偏分布,绝大多数球员薪金在500万美金以下。

(2)位置是球员薪金的一大影响因素,NBA联盟对中锋位置的需求度更高,中锋的平均薪金也相对更高。因此对于球队来说,中锋球员的交易价值和培养价值更高。

(3)年龄是球员薪金的一个重要影响因素之一,年轻球员的薪金较低,球员巅峰期的薪金更高。因此,选秀和对新秀的培养非常重要,若能培养出非常有能力的年轻球员,既能极大的增强球队的实力,且合同的性价比极高,可以对薪金空间有更多发挥的空间。

(4)球员的基本数据对薪金的影响较大,是球队衡量一名球员能力的基本因素。另外生涯数据和当季数据对薪金的影响具有一定的差异,生涯数据更为优秀 而当季发挥一般的球员,可能可以比当季表现与之相当的球员得到更高的薪金。

(5)对于获得更高的薪金来讲,球员的进攻能力比防守能力更为重要。进攻能力,具体表现为“得分”等数据,是更好的衡量球星以及球员薪金的标准。NBA绝对需要防守,但球员很难仅仅因此获得高薪。

(6)德里克罗斯、西亚卡姆等球员是经过模型验证的极具性价比的球员,具有极高的交易或签约价值。另外,联盟中有很多底薪球员,有着不俗的能力或防守积极性,对于球队来说,非常值得挖掘。

人才计划,注重过程,相信过程,一段探索未知的过程,收获颇丰,感谢狗熊会!返回搜狐,查看更多