出处|AI 前哨

二十大年夜Python人工智能与机械进修开源项目TensorFlow升为榜首_进献者_数目 AI快讯

我们更新了 Python 下的各大顶级人工智能与机器学习项目。
TensorFlow 凭借着三位数的贡献者增长量成为新的冠军,Scikit-learn 虽然跌落至第二,但仍旧拥有相称弘大的贡献者群体。

迈入机器学习与人工智能领域绝非易事。
考虑到目前市情上存在着大量可用资源,浩瀚怀有这一抱负的专业人士及爱好者每每创造自己很难建立精确的发展路径。
这一领域正不断演化,我们必须紧随时期的步伐。
为了应对演进与创新带来的压倒性速率,保持机器学习认知与知识积累的最好方法无疑在于同技能社区开展互助,进而为浩瀚顶尖专家所利用的开源项目及工具供应贡献。

在本日的文章当中,我们更新了原有信息,旨在对此前于 2016 年 11 月发布的二十大 Python 机器学习开源项目清单呈现出的趋势作出一番全面整理。

Tensorflow 凭借着三位数的贡献者增长量成为新的冠军,Scikit-learn 虽然跌落至第二,但仍旧拥有相称弘大的贡献者群体。
相较于 2016 年,各项目的贡献者增长速率分别为:

TensorFlow,增长 169%,由 493 名贡献者增加至 1324 名。

Deap,增长 86%,由 21 名贡献者增加至 39 名。

Chainer ,增长 83%,由 84 名贡献者增加至 154 名。

Gensim,增长 81%,由 145 名贡献者增加至 262 名。

Neon,增长 66%,由 47 名贡献者增加至 78 名。

Nilearn,增长 50%,由 46 名贡献者增加至 69 名。

图一:GitHub 上的二十大 Python 人工智能与机器学习项目。

项目规模与贡献者数量成正比,颜色表示贡献者的数量变革——赤色更高。

可以看到,TensorFlow、Theano 以及 Caffe 等深度学习项目目前拥有极高人气。

以下清单整理自 Github 上的贡献者数量,以降序形式排列。
感兴趣的朋友亦可点击个中的链接以查看各项目的解释文档页面,并以此为出发点开始协作及学习利用 Python 实现机器学习的详细办法。

1.TensorFlow 最初由谷歌公司机器智能研究部门旗下 Brain 团队的研究职员及工程师们所开拓。
这套系统专门用于促进机器学习方面的研究,旨在显著加快并简化由研究原型莅临盆系统的转化。
贡献者数量增长 168%。

提交数量:28476 次。
贡献者数量:1324 名。
Github URL:https://github.com/tensorflow/tensorflow。
排名变革:+1。

2.Scikit-learn 是一套大略且高效的数据挖掘与数据剖析工具,可供任何人群利用,可在多种场景下进行复用,立足 NumPy、SciPy 以及 matplotlib 构建,遵照 BSD 容许且可进行商业利用。
贡献数量增长 39%。

提交数量:22575 次。
贡献者数量:1019 名。
Github URL:https://github.com/scikit-learn/scikit-learn。
排名变革:-1。

3.Theano 许可大家高效对关于多维阵列的数学表达式进行定义、优化与评估。
贡献者数量增加 24%。

提交数量:27931 次。
贡献者数量:327 名。
Github URL:https://github.com/Theano/Theano。
排名变革:0。

4.Gensim 是一套自由 Python 库,个中包含可扩展统计语义、纯文本文档语义构造剖析、语义相似性检索等功能。
贡献者数量增加 81%。

提交数量:3549 次。
贡献者数量:262 名。
Github URL:https://github.com/RaRe-Technologies/gensim。
排名变革:+1。

5.Caffe 是一套深度学习框架,紧张面向表达、速率与模块化等利用方向。
此框架由伯克利大学视觉与学习中央(简称 BVLC)以及社区贡献者共同开拓完成。
贡献者数量增加 21%。

提交数量:4099 次。
贡献者数量:260 名。
Github URL:https://github.com/BVLC/caffe。
排名变革:-1。

6.Chainer 是一套基于 Python 的独立开源框架,专门面向各种深度学习模型。
Chainer 供应灵巧、直不雅观且高效的手段以实现全面的深度学习模型,个中包括递归神经网络以及变分自动编码器等最新模型。
贡献者数量增加 84%。

提交数量:12613 次。
贡献者数量:154 名。
Github URL:https://github.com/chainer/chainer。
排名变革:+3。

7.Statsmodels 是一套 Python 模块,许可用户进行数据探索、统计模型评估并实行统计测试。
其供应包含描述统计、统计测试、绘图功能以及结果统计的广泛列表,适用于各种不同类型的数据与估算工具。
贡献者数量增加 33%。

提交数量:9729 次。
贡献者数量:144 名。
Github URL:https://github.com/statsmodels/statsmodels/。
排名变革:0。

8.Shogun 是一款机器学习工具集个中供应多种统一且高效的机器学习(简称 ML)朝阳东升。
这套工具集能够以无缝化办法对多种数据表达、算法类以及通用型工具加以组合。
贡献者数量增加 33%。

提交数量:16362 次。
贡献者数量:139 名。
Github URL:https://github.com/shogun-toolbox/shogun。
排名变革:0。

9.Pylearn2 是一套机器学习库。
其紧张功能以 Theano 为实现根本。
这意味着大家可以利用数学表达式编写 Pylearn2 插件(新模型以及算法等),而 Theano 将对这些表达式进行优化与稳定调度,并将其编译至您所选定的后端(CPU 或 GPU)。
贡献者数量增加 3.5%。

提交数量:7119 次。
贡献者数量:119 名。
Github URL:https://github.com/lisa-lab/pylearn2。
排名变革:-3。

10.NuPIC 是一个开源项目,基于所谓新皮层理论中的分层韶光影象(特立独行 HTM)观点。
HTM 理论中的部分内容已经在现实层面得到运用、测试以及利用,而该理论的别的部分则仍处于开拓阶段。
贡献者数量增加 12%。

提交数量:6588 次。
贡献者数量:85 名。
Github URL:https://github.com/numenta/nupic。
排名变革:0。

11.Neon 为 Nervana 的基于 Python 的深度学习库。
其在实现易用性的同时,亦可供应极高的性能表现。
贡献者数量增加 66%。

提交数量:1112 次。
贡献者数量:78 名。
Github URL:https://github.com/NervanaSystems/neon。
排名变革:0。

12.Nilearn 是一套 Python 模块,用于对 NeroImaging 数据进行便捷学习。
其利用 scikit-learn Python 工具集进行多变量统计,并可供应预测建模、分类、解码或者连接剖析等运用选项。
贡献者数量增加 50%。

提交数量:6198 次。
贡献者数量:69 名。
Github URL:https://github.com/nilearn/nilearn。
排名变革:0。

13.Orange3 是一套同时面向新手与专家的开源机器学习与数据可视化方案。
个中的大规模工具集可实现交互数据剖析事情流。
贡献者数量增加 33%。

提交数量:8915 次。
贡献者数量:53 名。
Github URL:https://github.com/biolab/orange3。
排名变革:0。

14.Pymc 是一款 Python 模块,可实现贝叶斯统计模型与拟合算法,包括马尔可夫链蒙特卡洛算法。
其出色的灵巧性与可扩展性使实在用于多种任务。
贡献者数量增加 6%。

提交数量:2721 次。
贡献者数量:39 名。
Github URL:https://github.com/pymc-devs/pymc。
排名变革:0。

15.Deap 是一种用于快速原型设计与思路测试的新型进化打算框架。
其目标在于提升自满的明确度与数据构造的透明性。
其与多进程及 SCOOP 的并行机制能够完美契合。
贡献者数量增加 86%。

提交数量:1960 次。
贡献者数量:39 名。
Github URL:https://github.com/deap/deap。
排名变革:+4。

16.Annoy (全称为近似最近毗邻) 是一套 C++ 库,且绑定有 Python 以搜索空间当中与给定查询点相信的各点。
其亦可创建基于文件的大型只读数据构造并将其映射至内存当中,从而实现多进程间共享相同数据。
贡献者数量增加 46%。

提交数量:527 次。
贡献者数量:35 名。
Github URL:https://github.com/spotify/annoy。
排名变革:+2。

17.PyBrain 是一套面向 Python 的模块化机器学习库,其目标在于为各种机器学习任务及多种预定义环境供应灵巧且易于利用的强大算法,从而测试并比较各种算法。
贡献者数量增加 3%。

提交数量:992 次。
贡献者数量:32 名。
Github URL:https://github.com/pybrain/pybrain。
排名变革:-2。

18.Fuel 是一套数据管道框架,旨在为您的机器学习模型供应其须要的数据。
该项目原来专供 Blocks 与 Pylearn2 神经网络库利用。
贡献者数量增加 10%。

提交数量:1116 次。
贡献者数量:32 名。
Github URL:https://github.com/mila-udem/fuel。
排名变革:-2。

19.PyMVPA 是一套 Python 工具包,旨在简化对大型数据集的统计学习剖析流程。
其供应一套扩展框架,可通过一套高等接口实现分类、回归、特色选择、数据导入与导出等多种算法。
贡献者数量增加 8%。

提交数量:9373 次。
贡献者数量:28 名。
Github URL:https://github.com/PyMVPA/PyMVPA。
排名变革:-2。

20.Pattern 是一套面向 Python 编程措辞的 Web 挖掘模块。
其捆绑多款工具,可用于数据挖掘(谷歌 +Twitter+ 维基百科 API、Web 爬取器、HTML DOM 解析器)、自然措辞处理(词性标注器、n-gram 搜索、情绪剖析、WordNet)、机器学习(向量空间模型、k-means 聚类、朴素贝叶斯 +k-NN+SVM 分类器)以及网络剖析(图形中央性与可视化)。
贡献者数量减少 5%。

提交数量:968 次。
贡献者数量:19 名。
Github URL:https://github.com/clips/pattern。
排名变革:0。

以长进献者与提交次数数据截至 2018 年 2 月 13 日。

原文链接:https://www.kdnuggets.com/2018/02/top-20-python-ai-machine-learning-open-source-projects.html