分析考研录取率,我竟然发现了著名的辛普森悖论!_数据_统计_录取人数(考研录取率是什么意思)



分析考研录取率,我竟然发现了著名的辛普森悖论!_数据_统计_录取人数(考研录取率是什么意思)缩略图

↓推荐关注↓

今天给大家分享一个数据分析中著名的现象—— 辛普森悖论。

辛普森悖论不光可以 助我们z正确地理解数据,还能应用到生活、工作中。

无论是否从事数据分析,都有必要了解一下这一理论。

1. 奇怪的录取率

这里用的是 上海交大和 同济大学2021年硕士研究生报考录取人数统计。

都是来源于高校官网的真实数据。

在这两所高校的报录数据中,发现了下面非常奇怪的录取率。

分高校来看, 精神病与精神卫生学专业的录取率都比 电子信息专业要高,但合计后的录取率却是相反的。

我们先来看看为什么会产生这样的现象。

我们都知道,如果计算录取率的分母是相同的,那么合计前后的大小关系肯定不会发生变化。现在变了说明它们的分母不一样,分母不一样说明这两所高校在这两个专业上报考的人数分布不一样。

其实,报考人数的分布不仅不一样,而且相差很大,才会导致这一现象。以 精神病与精神卫生学专业为例, 上海交大报考该专业的人数占比是 41%,而 同济大学报考该专业的人数占比仅 0.2%。

我们再来看看应该信哪个数据。

经过上面的解释也能看出, 合计录取率是没有意义的。因为两所高校在两个专业的报告人数分布相差极
分析考研录取率,我竟然发现了著名的辛普森悖论!_数据_统计_录取人数(考研录取率是什么意思)插图
大,本就不应该将二者做简单的加和统计。

上面这种数据现象就是 辛普森悖论,简单来说就是 在分组比较中都占优势的一方,在总评中有时反而是失势的一方。

2. 直观理解

我们再举一个更直观例子 助大家深入理解 辛普森悖论。

下面是两个选手,参加两种级别挑战赛的胜率统计。

选手1在两种级别的挑战赛胜率都比不上 选手2,但在合计胜率里却比 选手2更高。

但让我们来看明显 选手2更强一些。

高手挑战赛难度大, 选手2打了 10% 的胜率,比 选手1更强。但在计算合计胜率的时候,却无视它的难度,直接跟 平手挑战赛胜场简单相加。所以,最终合计胜率上 平手挑战赛胜场更多的 选手1占了便宜。

如果非要看和合计数据,正确的做法应该增加 高手挑战赛的权重,再相加。这样对 选手2才是公平的。

这也是为什么 nba 会分别统计 二分球和 三分球命中率,而不会统计整体命中率。

3. 延伸到生活

生活中 辛普森悖论也是很常见。

我们上学的时候,经常有偏科,如果某个同学在 数学上的成绩非常好,甚至可以比肩数学家,但他的其他学科成绩很差,所以算总成绩排名就很靠后。

如果没有更好的选拔机制,那这个人才基本上就被埋没了。所以,类似奥赛得奖可以高考加分,也是为了增加他们在优势学科的权重,更公平的参会与竞争。

包括现在 全民短视频时代,很多网红表面上学历、经历和工作经验等等加起来不如一线城市的白领。但却不能得出他们不如一线白领的结论。因为他们依靠短视频这一单一优势,收入上并不差。

学习 辛普森悖论之后,再看数据就不要一股脑地将数据简单相加看表面的数字。而是该分组分组,该加权加权。

数据不说谎,前提是要被正确统计。

今天的文章就到这里,如果本文对你有用就点个 在看鼓励一下吧。

转自:渡码

– eof –

点击标题可跳转

1、 写了个自动批改小孩作业的代码

2、 删库跑路大神的一生,真狠人!

3、 8 个最流行的 py 可视化工具包,喜欢哪个?

看完本文有收获?请转发分享给更多人

推荐关注「数据分析与开发」,提升数据技能

点赞和在看就是最大的支持??返回搜狐,查看更多

责任编辑:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

|京ICP备18012533号-338