R和Python是目前最流行的两款高级编程语言,被大量运用于数据科学领域。两者都是开源的,也都有非常活跃的社区来支撑。那么问题来了:r语言和python有必要都学吗
R:
R语言由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman于1995设计出来(由于两人的名字均以 ‘R’ 字母开头,因此命名为R语言),现在由“R核心开发团队“负责开发。
虽然R主要用于数据分析、绘图以及数据挖掘,但也有人用作矩阵计算。其计算速度可媲美专用于矩阵计算的开源软件GNU Octave和商业软件MATLAB。
起初R主要在学术研究中使用,但近年来在企业界也表现突出,这使得R成为企业中使用的全球发展最快的统计语言之一。对于数据科学任务,R的语法更直观形象
对于数据处理任务,很多时候R的语法会更简单。函数和参数的命名设计也更好,很容易记住和使用。
举个例子,我们将分别用R和Python来删掉Iris数据框中的两个变量(由于R和Python都有Iris数据框,因此我们使用这个数据框)。
我们来看看各自的语法:
Python
import seaborn as snsimport pandas as pdiris = sns.load_dataset('iris')iris.drop(['sepal_length', 'species'], axis = 1)
R
library(dplyr)select(iris, -sepal_length, -species)
为了删除变量,Python中使用了drop函数,而R中使用了selec本文来源gaodaimacom搞#^代%!码&网(t函数。我们来对比这两个函数(都在最后一行代码)的语法。
先讲Python,drop函数命名得很好,容易记住。但是参数设计得很复杂。
第一个参数是包含想要删除变量的列表,Python中用方括号[ ]代表列表。这里你必须要用方括号,而且变量一定要用引号' ',要不然代码会运行错误。
在数据可视化方面,R非常优秀
可视化是选择数据分析软件的一个重要的标准。
除了擅长数据分析外,R的另外一个闪光点就是它的画图能力特别强,几乎可以绘制出所有类型的图。不信的话,你可以Google一下,输入 'R visualization' 关键字。
Python的优势
对于数据科学初学者,尽管我强烈推荐学R,但也不是唯一的选择。
对于某些人,Python可能是最好的选择。下面讲一下哪些情况下选择Python更好。
如果你有软件开发或计算机科学基础,学Python
如果你曾经有软件开发经验或者你是计算机科学专业的话,我认为Python会更适合你。因为你已经有编程经验了,使用Python会让你更舒服。
想开发软件,学Python
我已经说了R更擅长数据科学。如果你想建立软件系统的话,我认为Python更合适。Python的闪光点就是写软件,效率很高。就像一些专家所说的那样,写Python代码就如同写伪代码。
此外,Python是一门通用语言,基本啥都能干。然而R比较专,只是擅长统计分析和可视化。
我想澄清一下,不是说R不能写软件。只是更多人喜欢用Python去建立产品软件。因此作为数据科学家,如果你想创立软件系统,我觉得Python比R更合适。
想搞机器学习,学Python
如果你想长期从事机器学习方面的研究,我建议你学Python。
其实R也有机器学习生态系统。特别地,R的caret 包开发得很好,它有能力完成各种机器学习任务。比如:使用caret包建立回归模型(regression model)、支持向量机(SVM)、决策树(包括回归和分类)以及执行交叉验证(cross validation)等等。总之,R的机器学习生态系统发展得很好。