NBA 数据揭秘:PBP 数据与追踪数据的详细介绍

2024-07-11 21:52:13 篮球资讯 JRS直播

pbp数据和追踪数据简介

我一直在介绍高阶数据的算法,突然意识到也应该介绍一下NBA这几年的数据,这些数据是高阶数据计算的基础,某种程度上比高阶数据重要得多。

1.PBP

pbp:play-by-play data。不知道为什么叫这个英文名。它的主要内容基本可以理解为虎扑的文字解说。基本格式就是某个人在某个时间做了什么。

数据库nba球员管理功能_nba球员数据库设计_nba数据库统计

基本格式是这样的,当然我没有截取完整的截图。表格标题的含义很清楚,但我可以简单解释一下这 14 个数字对应的含义:

nba数据库统计_数据库nba球员管理功能_nba球员数据库设计

这大概就是各种NBA文章中那些诡异的数据是怎么来的。(比如前段时间有一篇文章回答了谁抢断后得分概率最高。)它还能统计出一些其实球迷很难注意到的东西。比如(来自博主,我没核实)邓肯的队友在盖帽后抢到篮板的概率是70+%,而其他球员的概率都在60%以下。从某种意义上来说,你可以认为邓肯的盖帽比其他人更有价值。

其实有了这些pbp数据,你就可以做大部分的数据分析工作了。如果想减少工作量,有一个叫的工具包很有用。如果想直接看结果,有一个依赖pbp数据的著名网站:

其中有很多有趣的东西,由于文章很长,请自行探索。

当然pbp数据现在多用来计算高级数据,通过pbp数据我们可以记录球队每轮比赛的得分,以及场上球员,从而计算出著名的rapm

2. 追踪数据

然后我们来介绍重头戏,追踪数据。从价值上来说,追踪数据远超pbp数据。它被引入联盟的时间很晚,2013年才开始。2013年,NBA与数据提供商STATS LLC合作,在联盟全部30支球队的球场上安装了光学追踪系统。该系统以25Hz的分辨率追踪球场上每个球员的精确二维位置(以及球的三维位置),一个赛季产生超过10亿个时空观测值。可惜的是,NBA官网从2015-16赛季开始就不再为普通人开放下载通道了(真是一个悲伤的故事),不过2015-16赛季的数据已经被网站上的好心人保存了下来,如果怕以后被删的话,现在就可以下载一份。

虽然现在追踪数据还不能下载,但是其衍生数据在NBA官网上还是可以获取到的,比如球员在场上的奔跑速度,投篮时防守球员距离投篮者有多远等等,大大丰富了NBA数据库。基本格式如下:

nba球员数据库设计_nba数据库统计_数据库nba球员管理功能

从上到下,第一个1表示第一节,长字符串是时间的毫秒表示(具体时间我没研究过,不重要),720表示本节剩余时间,24是计时盘,不知道none代表什么意思,后面11个数组分别是球的3D坐标和5个主队球员、5个客队球员,每个数组的内容依次为球员所在球队号码(如果代表球则为-1)、球员id(球也是-1)、x、y、z(球员没有z坐标所以为0)

说得夸张一点,有了 PBP 数据和追踪数据,如果你不是特别在意球员的技术动作,基本上可以用这两者直接重构一场比赛。下面是将两者结合起来重构一场比赛 5 秒过程的例子。

此后,2015-16年的跟踪数据基本成为研究的终点,大部分论文也都是关于此的。

例如,我们可以这样直接模拟比赛期间的预期得分:

还有基于数据的射击能力和干扰射击能力模型:

数据库nba球员管理功能_nba球员数据库设计_nba数据库统计

(这张图其实展示了如何利用PBP数据来判断两个球员是否处于正确的位置,但是对人们来说没有多大意义)

nba数据库统计_nba球员数据库设计_数据库nba球员管理功能

直接衡量进攻球员在有球或无球情况下吸引防守的能力(注:下表为2015-16赛季)

三个未来

这纯粹是猜测,但我怀疑未来可能会有某种方法,直接通过比赛视频进一步分析球员的技术动作,直接通过 NBA 视频生成评论(这也意味着你可以判断球场上发生了什么)。这是一篇非常新的论文nba球员数据库设计,但可能需要 NBA 更多的支持。很难让 AI 仅凭一个角度的视频就能纵览全局。

nba球员数据库设计_数据库nba球员管理功能_nba数据库统计

我说最后一篇文章可能是我最后一篇文章,因为我觉得我所剩无几了。最近我发现其实还有很多可以写。

pbp数据和追踪数据简介

我一直在介绍高阶数据的算法,突然意识到也应该介绍一下NBA这几年的数据,这些数据是高阶数据计算的基础,某种程度上比高阶数据重要得多。

1.PBP

pbp:play-by-play data。不知道为什么叫这个英文名。它的主要内容基本可以理解为虎扑的文字解说。基本格式就是某个人在某个时间做了什么。

数据库nba球员管理功能_nba球员数据库设计_nba数据库统计

基本格式是这样的,当然我没有截取完整的截图。表格标题的含义很清楚,但我可以简单解释一下这 14 个数字对应的含义:

nba数据库统计_数据库nba球员管理功能_nba球员数据库设计

这大概就是各种NBA文章中那些诡异的数据是怎么来的。(比如前段时间有一篇文章回答了谁抢断后得分概率最高。)它还能统计出一些其实球迷很难注意到的东西。比如(来自博主,我没核实)邓肯的队友在盖帽后抢到篮板的概率是70+%,而其他球员的概率都在60%以下。从某种意义上来说,你可以认为邓肯的盖帽比其他人更有价值。

其实有了这些pbp数据,你就可以做大部分的数据分析工作了。如果想减少工作量,有一个叫的工具包很有用。如果想直接看结果,有一个依赖pbp数据的著名网站:

其中有很多有趣的东西,由于文章很长,请自行探索。

当然pbp数据现在多用来计算高级数据,通过pbp数据我们可以记录球队每轮比赛的得分,以及场上球员,从而计算出著名的rapm

2. 追踪数据

然后我们来介绍重头戏,追踪数据。从价值上来说nba球员数据库设计,追踪数据远超pbp数据。它被引入联盟的时间很晚,2013年才开始。2013年,NBA与数据提供商STATS LLC合作,在联盟全部30支球队的球场上安装了光学追踪系统。该系统以25Hz的分辨率追踪球场上每个球员的精确二维位置(以及球的三维位置),一个赛季产生超过10亿个时空观测值。可惜的是,NBA官网从2015-16赛季开始就不再为普通人开放下载通道了(真是一个悲伤的故事),不过2015-16赛季的数据已经被网站上的好心人保存了下来,如果怕以后被删的话,现在就可以下载一份。

虽然现在追踪数据还不能下载nba球员数据库设计,但是其衍生数据在NBA官网上还是可以获取到的,比如球员在场上的奔跑速度,投篮时防守球员距离投篮者有多远等等,大大丰富了NBA数据库。基本格式如下:

nba球员数据库设计_nba数据库统计_数据库nba球员管理功能

从上到下,第一个1表示第一节,长字符串是时间的毫秒表示(具体时间我没研究过,不重要),720表示本节剩余时间,24是计时盘,不知道none代表什么意思,后面11个数组分别是球的3D坐标和5个主队球员、5个客队球员,每个数组的内容依次为球员所在球队号码(如果代表球则为-1)、球员id(球也是-1)、x、y、z(球员没有z坐标所以为0)

说得夸张一点,有了 PBP 数据和追踪数据,如果你不是特别在意球员的技术动作,基本上可以用这两者直接重构一场比赛。下面是将两者结合起来重构一场比赛 5 秒过程的例子。

此后,2015-16年的跟踪数据基本成为研究的终点,大部分论文也都是关于此的。

例如,我们可以这样直接模拟比赛期间的预期得分:

还有基于数据的射击能力和干扰射击能力模型:

数据库nba球员管理功能_nba球员数据库设计_nba数据库统计

(这张图其实展示了如何利用PBP数据来判断两个球员是否处于正确的位置,但是对人们来说没有多大意义)

nba数据库统计_nba球员数据库设计_数据库nba球员管理功能

直接衡量进攻球员在有球或无球情况下吸引防守的能力(注:下表为2015-16赛季)

三个未来

这纯粹是猜测,但我怀疑未来可能会有某种方法,直接通过比赛视频进一步分析球员的技术动作,直接通过 NBA 视频生成评论(这也意味着你可以判断球场上发生了什么)。这是一篇非常新的论文,但可能需要 NBA 更多的支持。很难让 AI 仅凭一个角度的视频就能纵览全局。

nba球员数据库设计_数据库nba球员管理功能_nba数据库统计

网站分类
标签列表