Kaggle 2018社区调研出炉:女性从业者比例降低,00后登上历史舞台!

来自:大数据文摘(微信号:BigDataDigest),作者:文摘菌,编译:涂世文、蒋宝尚、魏子敏


不管是初学者还是大魔王,只要浸润过数据科学和机器学习界,那么对于Kaggle一定不陌生。各路英豪在这个平台上实战练习、膜拜大神、打怪升级,用某个媒体人的一句话,“简而言之,Kaggle 是玩数据、机器学习的开发者们展示功力、扬名立万的江湖。

 

Kaggle之所以成为继Deepmind之外,谷歌收购的另一家震动业界的企业,得益于其对于竞赛平台和社区运营的专注:活跃用户基数大(具体数据从50万到100万仍有待确认)、粘性强。


每年,基于自己庞大的数据科学用户,Kaggle社区都会进行一场问卷调研来了解社区发展,其结果对于整个数据科学以及机器学习领域的发展都是一次很好的反馈。上个月,2018年的Kaggle调研《2018 Kaggle机器学习和数据科学调研》顺利完成并发布,一起来看看今年机器学习和数据科学领域有哪些新的变化。


右侧显示了数据来源


本次调研涉及用户信息、工作习惯、数据使用行为、数据分析工具、数据偏见算法黑盒伦理问题等各方面的50个问题,共回收有效问卷23859份。


除了问卷本身,结合一些其他相关信息和可视化,我们可以得到一些有趣的故事。


是的,女性从业者还在减少!


在上图中,我们设计数据可视化,使用了超级英雄的主题风格,其中,#batman(代表男性)和#wonderwoman(代表女性)


在这一领域,男多女少的问题一直存在,且并没有得到改善。


Kaggle 2015 年的调查显示,数据科学岗位中女性所占的比例只有26%,而在2018年的调研中,女性填写者的占比仅为16.8%。相比三年前,女性从业者的比例下降了。



尽管调研结果和数据科学从业者的真实性别构成仍有一定偏差,但是这一结果还是从一定程度反映了,在技术领域女性角色的缺失。


这显然并不是一件好事情。福布斯杂志甚至认为,女性比例的失衡导致了女性视角缺失,进而产生一些“盲点”,这是导致类似2018年谷歌大规模罢工等极端事件发生的重要原因。


00后登场,90后数据科学家占主力


上图展示了Kaggle用户的年龄分布情况。将条形图分解和重构成可用知识的一种方法是减少它们的数量,并以熟悉的形式将它们分组。


数据从业者的年龄普遍比较小,从调研数据来看,问卷填写者中占比最高的为25-29岁的年龄段;18-21岁的从业者也开始占据重要比重。也就是说,至少在数据科学界,00后已经开始登上舞台。


比如今年9月份,17岁的英国高中生Mikel Bober-Irizar就成为了Kaggle史上最年轻的Grandmaster,并且自己透露相关知识都来自自学。



是的,数据科学家很有钱!


问卷问题:你的年收入是多少?



将2018年调研结果与全球收入水平一起对比可以发现,23%受访者跻身全球财富榜的前1%!


其实,在美国,只有跻身1%的精英阶层,每年的收入才超过42 万美元。大约有23%的受访者认为他们达到了这个水平。


此外,大约6%的人隶属全球财富排行前10%,在美国,10%人群的收入大约是166000美元。


然而,这些数字反映的是美国家庭收入的水平。在全球范围内,跻身前1%的年收入大概是3.2万 。有60%的受访者跻身前1%。60%与1%差距甚大,所以在全球范围内,这个数据并不足以支持包容性的论断,因为它并没有反映全局分布情况。


Kaggle竞赛冠军最常用的机器学习框架



根据调研结果,Kaggle用户最长使用的机器学习框架是Sci-Kit,占据了48%的份额,TensorFlow占据了16%,紧随其后的Keras占据了14%。


而对于数据分析来说,多数从业者推荐你从Python开始学习,远高出排名二三的R、SQL占比。


金砖国家正成为社区新生力量发源地



新兴的数据科学家主要来自哪里?1145名新受访者被认定为“数据精简主义者”,其中2018年增加了100多个国家的问卷填写者,分别来自美国、印度、中国、俄罗斯、巴西等地区。



将这些国家按经济水平划分(美国、欧洲、金砖四国和世界其它地区)更有意义。从上图可以看到,金砖四国不仅以2018年总增长率的42%为增长贡献最大,而且是三大经济体中增长最快的。2018年,在“定义自己为数据科学家的用户”类别中,欧洲增加了302个用户,美国131个,世界其他地区231个,金砖四国:481个。关于增长率,根据预测,2020金砖国家将超过欧洲和美国的总和。


新加坡Kaggle用户占比最多,美国被挤出TOP5



尽看各国用户数似乎并不能说明该国的数据科学家有多流行。


当我们将这个国家的问卷填写人与该国人口进行比例运算时,可以看到一个更有意义的排行榜:数据科学家流行率。


问卷用红色标示顶级国家,新加坡、以色列占据冠亚军,用黑色标示美国(最大的调查社区所在地),仅占第六位。

  • US 均值: 0.14 per 10,000

  • EU6 均值*: 0.09 per 10,000

  • BRICS 均值*: 0.03 (5x less than US)


从图中,我们可以看出:美欧差距约为50%。然而,英国意味着接近EU6的平均值,而不是美国的平均值。这是否意味着我们放弃语言障碍作为解释差距的因素?注:金砖四国和欧盟6的平均值是国家平均值,不由受访者加权。


另外,在这个部分的可视化部分可以聊聊审美思考:这个配色方案叫做灰红配色,这是非常棒的图表配色方案。不像其他的方案,如灰色-灰色,它是中性的。然而,为了使它呈现好的视觉效果,红色表面尽可能小,否则会产生喧宾夺主的视觉效果。灰色-灰色的方案没有这个限制。然而,灰色-红色有一个秘密优势。通常,在图表中使用三种颜色会造成混乱,但是因为红色和任何灰色阴影之间的色度距离都很大,所以我们可以通过使用黑色(作为灰色的85%)作为第三种颜色来避免混乱的折衷。


创新水平(~80% 的相关性)



每年,Insead、Cornell和Wipo都会发布当年的全球创新指数。2018年,当选最具创新力的国家是Switzerland。依据Spearman相关系数计算结果显示,指数和用户流行(User Prevalence)之间的相关度达到了79%。


使用均值回归进行预测



上图添加了一条回归直线。灰色部分表示95%的SE水平。不同的国家分布在直线的上下方。被红色特别标注的国家是日本,作为一个“离群点”,有着很高的创新水平(y)经济发展水平(x)却比较低。在这里,应用均值回归的准则我们会发现,彷佛有一只看不见的手推动着这些国家朝着均值(图中虚线部分)的方向靠近。


可视化支持方面




上图显示了最常用的可视化工具。这是著名的图表模板Marimekko和符号图表Shiva House的组合。象征意义:柱子,即在支撑社区可视化努力(屋顶负荷)方面的力度。“列”的宽度表示每个列支持多少工作/负载。右边的灰色列表示其他不太主流的库,如:D3、Shiny、bokeh、Leaflet、Lattice。


最后,感兴趣的读者可以戳下边的链接获取完整的Kaggle 2018调研结果和相关数据哦

https://www.kaggle.com/paultimothymooney/2018-kaggle-machine-learning-data-science-survey

推荐↓↓↓
人工智能与大数据
上一篇:从0到1:神经网络实现图像识别(上) 下一篇:“超级芯片”或在十年内诞生,摩尔定律再续一命!