从事数据科学,这5本书无论如何都要读一读

程序员书库(ID:OpenSourceTop) 整编

书单来自:https://towardsdatascience.com/five-books-every-data-scientist-should-read-that-are-not-about-data-science-f7335fb1f84f

2010年,我在华盛顿大学(UW)写下我第一行R代码,我开始意识到编程比电子表格更强大。过去的10年里,“数据科学”这个词越来越被广泛使用,接连出现的还有大数据、商业智能、数据分析还有现在大火的人工智能等


我的专业是“计算金融学”,金融危机在每个人的脑海中都记忆犹新,对工程师们来说,这也是十分值得重视的,如果你想要一份高薪的工作就进入金融行业,成为一名定量分析师,就像今天的数据科学一样。


如今的数据科学家经常被要求学习一系列的建模技术、方法等。诸如线性回归,很多人都在使用它,但却不知道为什么使用它,因此就会出现这么一种情况,很多新人随时都准备好部署模型,但却不了解实际情况,这些技术群体没有把重心放在解决技术盲目性上面,而是放在关于选择何种工具的争论上(R或Python)



本文我将列出了一份书单,这些书可以帮助你在部署之前激发关于模型技术假设的问题,帮助你成为更加优秀的数据科学家



1、《Incerto》



这本书是纳西姆·塔勒布的作品集,他最著名的书是《黑天鹅》,我认为最好的是《反脆弱》。塔勒布是,我们这个时代最伟大的思想者之一。他也是一个推特巨魔,从背景来看,他曾在纽约和伦敦交易多种衍生性金融商品,后来成为数学哲学家。你要么爱他,要么恨他,因为他会在所有的写作中不断挑战你的假设。如果他写了什么,你应该马上把它列在你的阅读清单上。



2、《财富公式》



这本书讲述了麻省理工学院早期诞生的凯利公式的故事,它被称之为巨大的财务成功背后的原因。通过它你将了解信息论之父克劳德·香农以及点卡骗局的起源,后来在埃德·索普(Ed Thorpe)的《Beat the Dealer》中成名。索普现在被认为是量化对冲基金的教父。最重要的是,这本书展示了一个好的模型永远不会被忽视,不好的模型也一定会让你崩溃。这个故事是历史上第一次通过计算机科学和数学合作来解决一个现实世界的问题(恰好是为了赌博)。这个故事是数据科学产业在60年前诞生的一个预兆。



3、《混沌学传奇》



是美国最伟大的科普畅销书作家詹姆斯·格雷克的成名之作,作者深入浅出地记录了混沌现象的研究历程,写就了一部图文并茂的报告文学。由于非线性过程的原因,目前正在开发和部署的许多深度学习模型无法得到真正的理解。这本书将帮助你理解这些局限性。此外,对Benoit Mandelbrot个人的生活和工作的全面回顾使其成为任何数据科学家都必须阅读的一本书。詹姆斯·格莱克是一位出色的作家,他的许多书籍都值得你读



4、《暗池》



本书描写了科技如何改变了股票交易市场,如今,预测模型被应用于高频交易领域,在那里,决策是以纳秒的速度做出的。这本书介绍了这个隐藏但强大的生态系统的创建过程。这个故事的奇妙之处在于,它讲述了当你知道一些代码时,就可以解决许多问题,以及让你明白创造真正的价值是做一些真正创新的事情,而不是依赖于现有的假设。有时候你必须疯狂一点才能解决一个难题



5、《The Theory That Would Not Die》



本书讲述了贝叶斯公式和贝叶斯统计的历史以及频率理论,统计的历史和对关键技术主题的回顾配上通俗易懂的语言使得本书备受欢迎,通过它你将了解历史上一些最伟大的思想,如皮埃尔·拉普拉斯和R.A.费舍尔,以及他们的哲学如何塑造了世界上几个世纪以来的数据处理方式。


这五本书虽然不详尽,但将有助于你处理实际工作中的难题,帮助你建立一个哲学基础,寻找更好的技术和模型,而不仅仅是机械地运用某种技术,记住我们的专业是无价的。

推荐↓↓↓
程序员书库
上一篇:《领域专用语言实战》如何快速进阶领域特定语言,看这本书就对了 下一篇:Gartner力推的百页机器学习书,可以免费下载了!《The Hundred-Page Machine Learning Book》