Python机器学习开源项目Top 20,Tensorflow排行第一

开源最前线(ID:OpenSourceTop) 猿妹 编译

原文:https://www.kdnuggets.com/2018/02/top-20-python-ai-machine-learning-open-source-projects.html

近日,KDnuggets网站发布了Python机器学习开源项目Top 20,直观呈现了从2016年至今,最热门的20个机器学习开源项目的发展趋势。


进入机器学习和人工智能领域并不是一件简单的事情,目前市场上有许多大量的学习资源,但许多开发者和想要进入的爱好者往往很难找到适合自己的发展路径。下面就是《 Python 机器学习开源项目 Top 20》,希望能对你有所帮助


Tensorflow在贡献者增长方面排行第一位。Scikit-learn下降到第二位,但仍有非常大的贡献者群体。


与2016年相比,贡献者人数增长最快的项目分别是:

● TensorFlow,增长 169%,从493个增加到1324个贡献者

● Deap,增长86%,从21个增加到39个贡献者

● Chainer,增长83%,从84个增加到154个贡献者

● Gensim,增长81%,从145个增加到到262个贡献者

● Neon,增长66%,从47个增加到到78个贡献者

● Nilearn,增长50%,从46个增加到69个贡献者


在2018年,还出现了两个新面孔:

● Keras,629名贡献者

● PyTorch,399名贡献者



项目的规模大小与贡献者的数量成正比,颜色代表贡献者数量的变化 - 红色越高,蓝色越低。


不难发现,像TensorFlow,Theano和Caffe这样的深度学习项目是目前最受欢迎的项目。


下面的清单将会根据Github上贡献者的数量从高到低排序。如果你对其中的项目感兴趣,可以通过链接到GitHub上的文档详情页面,开始学习使用Python的机器学习方法。


1、TensorFlow   


TensorFlow最初是由谷歌机器智能研究机构的Google Brain Team的研究人员和工程师开发的。该系统旨在促进机器学习方面的研究,TensorFlow一大亮点是支持异构设备分布式计算,它能够在各个平台上自动运行模型,从手机、单个CPU / GPU到成百上千GPU卡组成的分布式系统。


贡献者:1324(增长168%),提交数量:28476

GitHub地址: https://github.com/tensorflow/tensorflow



2、Scikit-learn  


Scikit-learn是一个简单而又高效的数据挖掘和数据分析工具,可在各种环境中重复使用,基于NumPy,SciPy和matplotlib构建,遵循 BSD 许可且可进行商业使用。


贡献者:1019(增长39%),提交数量: 22575

Github地址:https://github.com/scikit-learn/scikit-learn



3、Keras 


Keras是一种高级神经网络API,用Python编写,能够在TensorFlow,CNTK或Theano上运行。


贡献者:629,提交数量:4371

Github地址:https://github.com/keras-team/keras



4、PyTorch


PyTorch 是一个 Torch7 团队开源的 Python 优先的深度学习框架,提供两个高级功能:强大的 GPU 加速 Tensor 计算(类似 numpy);构建基于 tape 的自动升级系统上的深度神经网络


贡献者:399,提交数量:6458

Github 地址:https://github.com/pytorch/pytorch



5、Theano  


Theano允许您高效地定义,优化和模拟数学表达式计算,用于高效的解决多维数组的计算问题。


贡献者:327(增长24%),提交数量:27931

Github网址:https://github.com/Theano/Theano



6、Gensim  


Gensim是一个免费的Python库,具有可扩展的统计语义,分析用于语义结构的纯文本文档,语义相似性检索等功能。


贡献者:262(增长81%),提交数量:3549

Github网址:https://github.com/RaRe-Technologies/gensim



7、Caffe  


Caffe是一个深度学习框架,由表达式,速度和模块化组成。Caffe 是 Berkeley Vision and Learning Center (BVLC) 社区贡献者开发的。


贡献者:260(增长21%),提交数量:4099

Github地址:https://github.com/BVLC/caffe



8、Chainer  


Chainer是一个基于Python的深度学习的框架。Chainer提供灵活,直观和高性能的方法来实现全面的深度学习模型,其中包括递归神经网络和变分自动编码器等。


贡献者:154(增长84%),提交数量:12613

Github地址:https://github.com/pfnet/chainer



9、Statsmodels  


Statsmodels是一个Python模块,包含统计模型、统计测试和统计数据挖掘python模块。对每一个模型都会生成一个对应的统计结果。统计结果会和现有的统计包进行对比来保证其正确性。


贡献者:144(增长33%),提交数量:9729

Github网址: https://github.com/statsmodels/statsmodels/



10、Shogun  


Shogun是一个机器学习工具箱,它提供了许多统一且高效的机器学习(ML)方法。还包含有大量的线性方法,如线性判别分析(LDA),线性规划机(LPM),(内核)的感知,和算法训练隐马尔可夫模型。


贡献者:139(增长32%),提交:16362

Github网址:https://github.com/shogun-toolbox/shogun



11、Pylearn2  


Pylearn2是一个机器学习库。其大部分功能都建立在 Theano之上 。这意味着您可以使用数学表达式编写Pylearn2插件(新模型,算法等),Theano将为您优化和稳定这些表达式,并将它们编译为您选择的后端(CPU或GPU)。 


贡献者数量:119(增长3.5%),提交数量:7119

Github网址:http://github.com/lisa-lab/pylearn2


12、NuPIC  


NuPIC是一个开源的人工智能平台,它基于一种名为Hierarchical Temporal Memory(HTM)的新大脑皮层理论。部分HTM理论已经在应用中实施,测试和使用,而HTM理论的其他部分仍在开发中。


贡献者数量:85(增长12%),提交数量:6588

Github地址:http://github.com/numenta/nupic



13、Neon  


Neon是Nervana System基于Python的深度学习库。它在实现易用性的同时还提供最高的性能表现。 


贡献者数量:78(增长66%),提交数量:1112

Github地址: https://github.com/NervanaSystems/neon



14、Nilearn  


Nilearn是一个Python模块,用于在NeuroImaging数据上进行简单快速的统计学习。它利用  scikit-learn  Python工具箱进行多变量统计,并提供预测建模,分类,解码或连接分析等应用。

 

贡献者数量:69(增长50%),提交数量:6198

Github地址: http://github.com/nilearn/nilearn



15、Orange3  


Orange3是一套开源机器学习和数据可视化方案,能同时满足新手和专家的需求,其中的大规模工具集可实现交互数据分析工作流。


贡献者数量:53(增长33%),提交数量:8915

Github网址:https://github.com/biolab/orange3



16、PyMc  


PyMC是一个实现贝叶斯统计模型和马尔科夫链蒙塔卡洛采样工具拟合算法的Python库。PyMC的灵活性及可扩展性使得它能够适用于解决各种问题。


贡献者数量:39(增长5.4%),提交数量:2721

Github网址:https://github.com/pymc-devs/pymc



17、Deap 


Deap是用于快速原型设计和思路测试的新型计算框架。旨在使算法更加明确并提升数据结构的透明性。其与多进程及 SCOOP 的并行机制能够完美契合。。它与多处理和 SCOOP等并行机制完美协调 。

 

贡献者数量:39(增长86%),提交数量:1960

Github网址:https://github.com/deap/deap



18、Annoy 


Annoy是一个C ++库,它使用Python绑定来搜索空间当中与给定查询点相信的各点。它还可创建基于文件的大型只读数据结构并将其映射至内存当中,以便多进程可以共享相同的数据。 


贡献者数量:35(增长46%),提交数量:527

Github网址:https://github.com/spotify/annoy



19、PyBrain  


PyBrain 是Python的模块化机器学习库。其目标在于为各类机器学习任务及多种预定义环境提供灵活且易于使用的强大算法,从而测试并比较各类算法。贡献者数量增加 3%。


贡献者数量:32(增长3%),提交数量:992

Github地址: http://github.com/pybrain/pybrain



20、Fuel 


Fuel是一个数据管道框架,它为开发者的机器学习模型提供所需的数据。该项目只给Blocks和Pylearn2神经网络库使用。 


贡献者数量:32(增长10%),提交数量:1116

Github地址:http://github.com/mila-udem/fuel

 

以上数据均取自GitHub上2月份的数据

推荐↓↓↓
Python编程
上一篇:Python 之父获得计算机历史博物馆的会员奖 下一篇:70个NumPy练习:在Python下一举搞定机器学习矩阵运算