由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 自学R, 谁能介绍个各种函数功能附带详细解释的网站?
相关主题
问个R的问题来讲讲SAS的优点吧
学习Pig Latin【旧文重发】 Python and R study guide
想系统学一门计算机语言,是学c呢,还是c++?一月份上Python/R/Hive 课的同学请与我联系
R 有点令人失望二月份上Python/R/Hive 课的同学请与我联系
求推荐Python, R方面的书问题回复: Python为啥只有两个小时的课?
最近又被深深震撼了一次!!想做SAS programmer,求教各位前辈如何找intern机会
大家推荐下学习python,hadoop的网上资源六月份上Python/R/Hive 课的同学请与我联系
~StatsGuy: 再次感谢选课的同学们!最近统计工作好找吗
相关话题的讨论汇总
话题: sas话题: python话题: 数据话题: dplyr话题: 函数
进入Statistics版参与讨论
1 (共1页)
m******r
发帖数: 1033
1
没有google到, 板上高人多,请各位 use_R!多赐教。
本人sas背景,如今也想跟上时代潮流 用用最先进的东西。
s******t
发帖数: 34
2
R只是随着数据科学的流行变得比较热门,本身就是高级计算机语言的一种。我的建议
可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
tutorial,从Introduction to R开始到怎么建立R Package。然后去google一两本统计
的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。
m******r
发帖数: 1033
3
多谢。 正在研究base R. 感觉这base R晦涩难懂,而且从来没见过正式文档,(也许
我孤陋寡闻没找到?)。 R有些术语, 明显借用了面向对象的东西。 感觉是画虎不成
反类犬。 我们搞数据的无非把数据拆开,合并,变成各种形状,和'对象'有个毛关系。
这点不像sas, 输入输出永远是数据集,数据集,数据集。所有函数都在其官方网站有
详细解释。pdf文档可以说是精心制作。我用过的这么多软件里, 论文档质量,也只有
matlab可以与之媲美.

议: 可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
计: 的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。

【在 s******t 的大作中提到】
: R只是随着数据科学的流行变得比较热门,本身就是高级计算机语言的一种。我的建议
: 可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
: tutorial,从Introduction to R开始到怎么建立R Package。然后去google一两本统计
: 的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。

s******t
发帖数: 34
4
你说的非常对,matlab和sas的help文档都做的非常的好。但是他们是商业软件。统计
学界里面有相当一些教授用matlab和sas。还有只用C和fortran的。如果你觉得R的help
文档难用,可以去看看C和fortran的。面向对象的东西还是有很多好处,比如说两个长
向量之间的运算,只用for循环跟R自带的向量运算比起来就差太远了。统计做的好的人
不会太在乎help文档的好坏的。
s********0
发帖数: 2625
5
一年要上千刀买licence和免费的,用户体验肯定差很多啊。
不过你只是思维还习惯性的停留在sas,没必要着急下结论,习惯了r就不会感觉那么别
扭了,当然这也是废话。。。。。。
r***e
发帖数: 10135
6
R的缺点就是开源软件的通病
测试不充分,经常哼哼哧哧换个版本package就用不了了
bug也很多

【在 s********0 的大作中提到】
: 一年要上千刀买licence和免费的,用户体验肯定差很多啊。
: 不过你只是思维还习惯性的停留在sas,没必要着急下结论,习惯了r就不会感觉那么别
: 扭了,当然这也是废话。。。。。。

z*********i
发帖数: 146
m******r
发帖数: 1033
8
前辈亲自回帖,本楼楼主深感荣幸。
你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中之
一。

【在 z*********i 的大作中提到】
: http://www.statmethods.net/
: http://www.r-tutor.com/
: http://tryr.codeschool.com/

E**********e
发帖数: 1736
9
你在R的命令端输入?函数命,就有帮住文,比如,?glm(). 你也可以用RStudio. R跟SAS
是很不一样的。

:前辈亲自回帖,本楼楼主深感荣幸。
:你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中
之一。
m******r
发帖数: 1033
10
多谢回帖。 如果我根本不知道一个命令,如何输入这个命令?
R是我迄今见过最古怪的语言,完全找不到用户手册。 要是你老板让你学一门语言,比
如,spss, matlab, mysql, hive,你怎么办? 我肯定
1.从官网下载用户手册
2.看看数据类型
3.都有什么函数(数值型,字符型)
4.看看例子
我学最流行的hive sql,也是这个思路,两个月以后就可以不依靠数据组的技术支持,
自己处理实际问题了。 (不久前有人说一天就学会了hive sql, 有点夸张,但也不是
没有可能。 原因很简单: 跑到https://cwiki.apache.org/confluence/display/Hive
/LanguageManual+UDF#LanguageManualUDF-DateFunctions 所有函数都写在里面了,
不懂hadoop那些命令? 没关系,半天时间看看用户手册 https://hadoop.apache.org/
docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html 就可以。 只要
用过sql的估计三天就可以上手。)
R就不一样了。
1.没什么简单的用户手册(当然你也可以写?XXX)
2.数据类型也是一笔糊涂账。(不是vector,matrix,array,list那么简单,会给你扯到
面向对象去)。
3.想看看都有什么函数,能给个清单么? 好像不行。 他会用sapply, lapply, vapply
绕你.
4.例子倒是有,可惜不实用。 例子里面全是‘黑格尔的小逻辑’。 我们需要的是像
sql那样的语言,简单易懂,面对数据,进行变换。
不需要的是穿个面向对象的马甲,每一步纠结于矢量,矩阵,数组,链表。 数据就是
数据,他穿的马甲,是矢量,是一只鸡?或是一条鱼? 对数据工程师没区别。
我们需要的是实实在在的函数,有输入输出那种。 不是什么sapply,lapply,vapply.
这种没什么目的性的函数,作者应该回到家自己apply去 不要让用户知道。

SAS

【在 E**********e 的大作中提到】
: 你在R的命令端输入?函数命,就有帮住文,比如,?glm(). 你也可以用RStudio. R跟SAS
: 是很不一样的。
:
: :前辈亲自回帖,本楼楼主深感荣幸。
: :你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中
: 之一。

相关主题
最近又被深深震撼了一次!!来讲讲SAS的优点吧
大家推荐下学习python,hadoop的网上资源【旧文重发】 Python and R study guide
~StatsGuy: 再次感谢选课的同学们!一月份上Python/R/Hive 课的同学请与我联系
进入Statistics版参与讨论
n******g
发帖数: 2201
11
apply family functions == python list comprehension.
后者是python里的奇技淫巧,前者却是R的高效必备工具。
你要找数据处理的那些函数,base R里面的 tapply, aggregate, subset 等等就是;
很多人觉得不好用,所以有了dplyr, data.table. 基本等价与python pandas
对于工程师来说,R不好用,但是R可以做到一行程序干10万行的活儿,所以其实
是Research Scientist 用的工具

Hive

【在 m******r 的大作中提到】
: 多谢回帖。 如果我根本不知道一个命令,如何输入这个命令?
: R是我迄今见过最古怪的语言,完全找不到用户手册。 要是你老板让你学一门语言,比
: 如,spss, matlab, mysql, hive,你怎么办? 我肯定
: 1.从官网下载用户手册
: 2.看看数据类型
: 3.都有什么函数(数值型,字符型)
: 4.看看例子
: 我学最流行的hive sql,也是这个思路,两个月以后就可以不依靠数据组的技术支持,
: 自己处理实际问题了。 (不久前有人说一天就学会了hive sql, 有点夸张,但也不是
: 没有可能。 原因很简单: 跑到https://cwiki.apache.org/confluence/display/Hive

m******r
发帖数: 1033
12
太正确了。 R适合搞科研,不适合上班族。 上班族喜欢简单实用的工具,一双球鞋,
一件衬衫,写写sql, sas,上班去了。
穿个面向对象的外衣做dirty work,如同穿个时髦的neiman marcus马甲上班,浑身不
舒服.

【在 n******g 的大作中提到】
: apply family functions == python list comprehension.
: 后者是python里的奇技淫巧,前者却是R的高效必备工具。
: 你要找数据处理的那些函数,base R里面的 tapply, aggregate, subset 等等就是;
: 很多人觉得不好用,所以有了dplyr, data.table. 基本等价与python pandas
: 对于工程师来说,R不好用,但是R可以做到一行程序干10万行的活儿,所以其实
: 是Research Scientist 用的工具
:
: Hive

n******g
发帖数: 2201
13
well said. 追求好用的话还是sql, excel, 最多python.
R 比较拧巴,别扭。
我不明白的是,SAS难道好用?为啥你们都还能忍受?

【在 m******r 的大作中提到】
: 太正确了。 R适合搞科研,不适合上班族。 上班族喜欢简单实用的工具,一双球鞋,
: 一件衬衫,写写sql, sas,上班去了。
: 穿个面向对象的外衣做dirty work,如同穿个时髦的neiman marcus马甲上班,浑身不
: 舒服.

m******r
发帖数: 1033
14
sas这个工具优缺点都很明显。优点太明显了:
1.数据结构简单,数值型,字符型
2.函数简单,还是数值型,字符型
3.算法简单,成天merge来,merge去。记住,只能逐行处理,不能跳着来。
反正简单算法就够了,银行里经常下班之前跑个程序,第二天早晨看看结果。真用什么
牛逼算法么? 未必。sas在里面排序呢 呵呵。 也听说过有高人能写算法什么的,老板
根本不同意:我们多少年都是这么过来的 要的是可靠性,不是什么效率。
sas最大的优点其实是文档。有了这些文档,不管什么行业,基本可以做到三天上手,
一个月精通. 而且文档里面的例子都是精心选过的,面对行业应用的。 我知道有人特
烦sas, 比如david chiu, 写r cookbook的(少有的好书),他说当年写萨斯的时候头
发都快被拔光了 从此再不碰萨斯。
我想这些牛逼的人是不屑读文档的 或者人家一心捉摸算法的。反正他们的世界 我是不
懂。

【在 n******g 的大作中提到】
: well said. 追求好用的话还是sql, excel, 最多python.
: R 比较拧巴,别扭。
: 我不明白的是,SAS难道好用?为啥你们都还能忍受?

m******r
发帖数: 1033
15
我也不明白别人都在用些啥工具。 比如我要处理全美10年内mortgage data, 或者某
中型企业(就说几十万用户啊)三年数据, transaction data 很容易达到几十,几百
million行, 如果我想提取一些变量,或者叫feature, 什么样的工具比较好用?
这里面得有个实际问题。 一开始我也不知道啥样的变量有用,啥样的没用。 所以我得
尽可能的'造'. 不同的时间段,不同层次的demographic,不同的产品云云。
如果用萨斯,我就得用宏。 没碰过的数据,运气好的话,两三天,能造出200个变量。
运气不好的话,得花一星期。 前提是
1.代码得码得好看,
2.输出变量名比较规整
3.以后需要再往里加变量,比较好加,
4.每篇尽量在200行之内吧
有真干过的 说说什么工具好用.

【在 n******g 的大作中提到】
: well said. 追求好用的话还是sql, excel, 最多python.
: R 比较拧巴,别扭。
: 我不明白的是,SAS难道好用?为啥你们都还能忍受?

E**********e
发帖数: 1736
16
各种软件,只要自己用的喜欢就行,非要比较优劣,大家个有一套说辞。sas现在主要
垄断了制药行业,原因是fda指定看sas的分析结果。如果那天fda说可以用R/PYTHON了
,SAS立马得死。至于好不好用,你用习惯了,就好用。要说一个月你能会SAS,写出好
看的代码,我是不信的。然而R/PYTHON,或者别的编程语言,可以灵活的实现你想要的
功能。而且现在得意于网络,网络资源多的不得了,各种语言得提供PACKAGES,你调用
就行,其实跟SAS就一样。sas只用来实现模块话的处理,复杂点的就麻烦大了,当然你
说可以用宏,你编过宏就知道它有多麻烦,太复杂。
你要是想学R,就老老实实静下心学习。首先得学习基本语法,这个基本上各个语言都
接近,无非是LOOP,数据类型和结果构,R里的dataframe还是比较好的,PYTHON的数据
处理也很好。另外,两种语言都提供SQL包,调用后可以直接实现SQL查询和操作。
我本人也是从SAS开始,说实话,挺不喜欢的,后来学习R,其实都是被逼的,你得会公
司需要的,自己的喜好先放一边。但是现在就喜欢PYTHON了,比R好用的多。同是还在
学JAVA,一个月JAVA就入门了。两个星期懂了MONGODB,用PYTHON连接MONGODB,进行数
据查询和操作,转换成dataframe.
你看,这不是showoff,想学是么,就去学,纠结于这些细节,好不好学,喜不喜欢,没
有意思的。
另,你那个feature,提取,要是学了R,就方便的多

:sas这个工具优缺点都很明显。优点太明显了:
:1.数据结构简单,数值型,字符型
w******e
发帖数: 142
17
买本matloff the art of R programming来看就清楚入门了,舍得花点小钱买点R的
书就够了。毕竟软件都免费了,这点小钱还是比sas license便宜的。
r***e
发帖数: 10135
18
跟客户需求有关系
很多客户需要特殊的数据分析算法包,找SAS开发因为太小众收费估计是天价
只能用R自己写了

【在 m******r 的大作中提到】
: sas这个工具优缺点都很明显。优点太明显了:
: 1.数据结构简单,数值型,字符型
: 2.函数简单,还是数值型,字符型
: 3.算法简单,成天merge来,merge去。记住,只能逐行处理,不能跳着来。
: 反正简单算法就够了,银行里经常下班之前跑个程序,第二天早晨看看结果。真用什么
: 牛逼算法么? 未必。sas在里面排序呢 呵呵。 也听说过有高人能写算法什么的,老板
: 根本不同意:我们多少年都是这么过来的 要的是可靠性,不是什么效率。
: sas最大的优点其实是文档。有了这些文档,不管什么行业,基本可以做到三天上手,
: 一个月精通. 而且文档里面的例子都是精心选过的,面对行业应用的。 我知道有人特
: 烦sas, 比如david chiu, 写r cookbook的(少有的好书),他说当年写萨斯的时候头

n******g
发帖数: 2201
19
espressolove说的有道理。我这里给你一点具体的步骤,
你试试package data.table. 一次可以处理比较大的数据100G也可以。

【在 m******r 的大作中提到】
: 我也不明白别人都在用些啥工具。 比如我要处理全美10年内mortgage data, 或者某
: 中型企业(就说几十万用户啊)三年数据, transaction data 很容易达到几十,几百
: million行, 如果我想提取一些变量,或者叫feature, 什么样的工具比较好用?
: 这里面得有个实际问题。 一开始我也不知道啥样的变量有用,啥样的没用。 所以我得
: 尽可能的'造'. 不同的时间段,不同层次的demographic,不同的产品云云。
: 如果用萨斯,我就得用宏。 没碰过的数据,运气好的话,两三天,能造出200个变量。
: 运气不好的话,得花一星期。 前提是
: 1.代码得码得好看,
: 2.输出变量名比较规整
: 3.以后需要再往里加变量,比较好加,

O*O
发帖数: 2284
20
几TB的数据,python预处理一下,然后上R
统计分析这块,还是R方便

【在 n******g 的大作中提到】
: espressolove说的有道理。我这里给你一点具体的步骤,
: 你试试package data.table. 一次可以处理比较大的数据100G也可以。

相关主题
二月份上Python/R/Hive 课的同学请与我联系六月份上Python/R/Hive 课的同学请与我联系
问题回复: Python为啥只有两个小时的课?最近统计工作好找吗
想做SAS programmer,求教各位前辈如何找intern机会做培训的有一点感受
进入Statistics版参与讨论
n******g
发帖数: 2201
21
very true! 请问是python pandas 吗?

【在 O*O 的大作中提到】
: 几TB的数据,python预处理一下,然后上R
: 统计分析这块,还是R方便

E**********e
发帖数: 1736
22
你没用过PYTHON的统计包吧。

:几TB的数据,python预处理一下,然后上R
:统计分析这块,还是R方便
b*****s
发帖数: 11267
23
个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。
以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该
不用sas了。
sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg
m******r
发帖数: 1033
24
capital one已经完全转python了 ? 谁来确认下?

【在 b*****s 的大作中提到】
: 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。
: 以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该
: 不用sas了。
: sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg

E**********e
发帖数: 1736
25
exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。

【在 b*****s 的大作中提到】
: 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。
: 以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该
: 不用sas了。
: sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg

b*****s
发帖数: 11267
26
未必比r快把,r需要赶紧把for loop的效率解决下,我不知道这里面有什么困难的地方
。。。
[在 ExpressoLove (MoneyForNothing) 的大作中提到:]
:exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
:至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
:未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
:里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。
m******r
发帖数: 1033
27
请问r 的 for loop真的很慢吗?
多大的数据量,能有多慢 ?

pytyon

【在 b*****s 的大作中提到】
: 未必比r快把,r需要赶紧把for loop的效率解决下,我不知道这里面有什么困难的地方
: 。。。
: [在 ExpressoLove (MoneyForNothing) 的大作中提到:]
: :exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
: :至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
: :未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
: :里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。

z******j
发帖数: 1265
28
Google "R for data science", website by Hadley should give you a good start.
I like the dplyr library for data analysis.
z******j
发帖数: 1265
29
FDA accepts R code for analysis now.
h****n
发帖数: 413
30
mark
相关主题
也谈为什麽要学习Python学习Pig Latin
11月份上Python/R/Hive/DS 课的同学请与我联系想系统学一门计算机语言,是学c呢,还是c++?
问个R的问题R 有点令人失望
进入Statistics版参与讨论
z*******1
发帖数: 206
31
这太夸张了吧!大部分电脑的内存<=16G,处理100G的数据谈何容易(虽然有些包可以
帮助处理大数据的内存问题)。毕竟计算过程还要占大量内存!
R最大的弊病在内存!遇到大数据R就恼火。

【在 n******g 的大作中提到】
: espressolove说的有道理。我这里给你一点具体的步骤,
: 你试试package data.table. 一次可以处理比较大的数据100G也可以。

m******r
发帖数: 1033
32
多谢。作者好像是dplyr的创始人 ?
据我所知,dplyr后面又出了新package, 什么ply2, reshape2什么的,记不太清了。
另外,有网友推荐说现在最牛x的是专门针对datatable的一个package. (dplyr是专门
针对frame的?)
总之,R搞这么多的package,让人无所适从。

start.

【在 z******j 的大作中提到】
: Google "R for data science", website by Hadley should give you a good start.
: I like the dplyr library for data analysis.

y*****a
发帖数: 35
33
正在学python. python 不是也load data to RAM,如何处理几 T 的data.
m******r
发帖数: 1033
34
没有google到, 板上高人多,请各位 use_R!多赐教。
本人sas背景,如今也想跟上时代潮流 用用最先进的东西。
s******t
发帖数: 34
35
R只是随着数据科学的流行变得比较热门,本身就是高级计算机语言的一种。我的建议
可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
tutorial,从Introduction to R开始到怎么建立R Package。然后去google一两本统计
的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。
m******r
发帖数: 1033
36
多谢。 正在研究base R. 感觉这base R晦涩难懂,而且从来没见过正式文档,(也许
我孤陋寡闻没找到?)。 R有些术语, 明显借用了面向对象的东西。 感觉是画虎不成
反类犬。 我们搞数据的无非把数据拆开,合并,变成各种形状,和'对象'有个毛关系。
这点不像sas, 输入输出永远是数据集,数据集,数据集。所有函数都在其官方网站有
详细解释。pdf文档可以说是精心制作。我用过的这么多软件里, 论文档质量,也只有
matlab可以与之媲美.

议: 可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
计: 的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。

【在 s******t 的大作中提到】
: R只是随着数据科学的流行变得比较热门,本身就是高级计算机语言的一种。我的建议
: 可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
: tutorial,从Introduction to R开始到怎么建立R Package。然后去google一两本统计
: 的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。

s******t
发帖数: 34
37
你说的非常对,matlab和sas的help文档都做的非常的好。但是他们是商业软件。统计
学界里面有相当一些教授用matlab和sas。还有只用C和fortran的。如果你觉得R的help
文档难用,可以去看看C和fortran的。面向对象的东西还是有很多好处,比如说两个长
向量之间的运算,只用for循环跟R自带的向量运算比起来就差太远了。统计做的好的人
不会太在乎help文档的好坏的。
s********0
发帖数: 2625
38
一年要上千刀买licence和免费的,用户体验肯定差很多啊。
不过你只是思维还习惯性的停留在sas,没必要着急下结论,习惯了r就不会感觉那么别
扭了,当然这也是废话。。。。。。
r***e
发帖数: 10135
39
R的缺点就是开源软件的通病
测试不充分,经常哼哼哧哧换个版本package就用不了了
bug也很多

【在 s********0 的大作中提到】
: 一年要上千刀买licence和免费的,用户体验肯定差很多啊。
: 不过你只是思维还习惯性的停留在sas,没必要着急下结论,习惯了r就不会感觉那么别
: 扭了,当然这也是废话。。。。。。

z*********i
发帖数: 146
相关主题
R 有点令人失望大家推荐下学习python,hadoop的网上资源
求推荐Python, R方面的书~StatsGuy: 再次感谢选课的同学们!
最近又被深深震撼了一次!!来讲讲SAS的优点吧
进入Statistics版参与讨论
m******r
发帖数: 1033
41
前辈亲自回帖,本楼楼主深感荣幸。
你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中之
一。

【在 z*********i 的大作中提到】
: http://www.statmethods.net/
: http://www.r-tutor.com/
: http://tryr.codeschool.com/

E**********e
发帖数: 1736
42
你在R的命令端输入?函数命,就有帮住文,比如,?glm(). 你也可以用RStudio. R跟SAS
是很不一样的。

:前辈亲自回帖,本楼楼主深感荣幸。
:你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中
之一。
m******r
发帖数: 1033
43
多谢回帖。 如果我根本不知道一个命令,如何输入这个命令?
R是我迄今见过最古怪的语言,完全找不到用户手册。 要是你老板让你学一门语言,比
如,spss, matlab, mysql, hive,你怎么办? 我肯定
1.从官网下载用户手册
2.看看数据类型
3.都有什么函数(数值型,字符型)
4.看看例子
我学最流行的hive sql,也是这个思路,两个月以后就可以不依靠数据组的技术支持,
自己处理实际问题了。 (不久前有人说一天就学会了hive sql, 有点夸张,但也不是
没有可能。 原因很简单: 跑到https://cwiki.apache.org/confluence/display/Hive
/LanguageManual+UDF#LanguageManualUDF-DateFunctions 所有函数都写在里面了,
不懂hadoop那些命令? 没关系,半天时间看看用户手册 https://hadoop.apache.org/
docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html 就可以。 只要
用过sql的估计三天就可以上手。)
R就不一样了。
1.没什么简单的用户手册(当然你也可以写?XXX)
2.数据类型也是一笔糊涂账。(不是vector,matrix,array,list那么简单,会给你扯到
面向对象去)。
3.想看看都有什么函数,能给个清单么? 好像不行。 他会用sapply, lapply, vapply
绕你.
4.例子倒是有,可惜不实用。 例子里面全是‘黑格尔的小逻辑’。 我们需要的是像
sql那样的语言,简单易懂,面对数据,进行变换。
不需要的是穿个面向对象的马甲,每一步纠结于矢量,矩阵,数组,链表。 数据就是
数据,他穿的马甲,是矢量,是一只鸡?或是一条鱼? 对数据工程师没区别。
我们需要的是实实在在的函数,有输入输出那种。 不是什么sapply,lapply,vapply.
这种没什么目的性的函数,作者应该回到家自己apply去 不要让用户知道。

SAS

【在 E**********e 的大作中提到】
: 你在R的命令端输入?函数命,就有帮住文,比如,?glm(). 你也可以用RStudio. R跟SAS
: 是很不一样的。
:
: :前辈亲自回帖,本楼楼主深感荣幸。
: :你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中
: 之一。

n******g
发帖数: 2201
44
apply family functions == python list comprehension.
后者是python里的奇技淫巧,前者却是R的高效必备工具。
你要找数据处理的那些函数,base R里面的 tapply, aggregate, subset 等等就是;
很多人觉得不好用,所以有了dplyr, data.table. 基本等价与python pandas
对于工程师来说,R不好用,但是R可以做到一行程序干10万行的活儿,所以其实
是Research Scientist 用的工具

Hive

【在 m******r 的大作中提到】
: 多谢回帖。 如果我根本不知道一个命令,如何输入这个命令?
: R是我迄今见过最古怪的语言,完全找不到用户手册。 要是你老板让你学一门语言,比
: 如,spss, matlab, mysql, hive,你怎么办? 我肯定
: 1.从官网下载用户手册
: 2.看看数据类型
: 3.都有什么函数(数值型,字符型)
: 4.看看例子
: 我学最流行的hive sql,也是这个思路,两个月以后就可以不依靠数据组的技术支持,
: 自己处理实际问题了。 (不久前有人说一天就学会了hive sql, 有点夸张,但也不是
: 没有可能。 原因很简单: 跑到https://cwiki.apache.org/confluence/display/Hive

m******r
发帖数: 1033
45
太正确了。 R适合搞科研,不适合上班族。 上班族喜欢简单实用的工具,一双球鞋,
一件衬衫,写写sql, sas,上班去了。
穿个面向对象的外衣做dirty work,如同穿个时髦的neiman marcus马甲上班,浑身不
舒服.

【在 n******g 的大作中提到】
: apply family functions == python list comprehension.
: 后者是python里的奇技淫巧,前者却是R的高效必备工具。
: 你要找数据处理的那些函数,base R里面的 tapply, aggregate, subset 等等就是;
: 很多人觉得不好用,所以有了dplyr, data.table. 基本等价与python pandas
: 对于工程师来说,R不好用,但是R可以做到一行程序干10万行的活儿,所以其实
: 是Research Scientist 用的工具
:
: Hive

n******g
发帖数: 2201
46
well said. 追求好用的话还是sql, excel, 最多python.
R 比较拧巴,别扭。
我不明白的是,SAS难道好用?为啥你们都还能忍受?

【在 m******r 的大作中提到】
: 太正确了。 R适合搞科研,不适合上班族。 上班族喜欢简单实用的工具,一双球鞋,
: 一件衬衫,写写sql, sas,上班去了。
: 穿个面向对象的外衣做dirty work,如同穿个时髦的neiman marcus马甲上班,浑身不
: 舒服.

m******r
发帖数: 1033
47
sas这个工具优缺点都很明显。优点太明显了:
1.数据结构简单,数值型,字符型
2.函数简单,还是数值型,字符型
3.算法简单,成天merge来,merge去。记住,只能逐行处理,不能跳着来。
反正简单算法就够了,银行里经常下班之前跑个程序,第二天早晨看看结果。真用什么
牛逼算法么? 未必。sas在里面排序呢 呵呵。 也听说过有高人能写算法什么的,老板
根本不同意:我们多少年都是这么过来的 要的是可靠性,不是什么效率。
sas最大的优点其实是文档。有了这些文档,不管什么行业,基本可以做到三天上手,
一个月精通. 而且文档里面的例子都是精心选过的,面对行业应用的。 我知道有人特
烦sas, 比如david chiu, 写r cookbook的(少有的好书),他说当年写萨斯的时候头
发都快被拔光了 从此再不碰萨斯。
我想这些牛逼的人是不屑读文档的 或者人家一心捉摸算法的。反正他们的世界 我是不
懂。

【在 n******g 的大作中提到】
: well said. 追求好用的话还是sql, excel, 最多python.
: R 比较拧巴,别扭。
: 我不明白的是,SAS难道好用?为啥你们都还能忍受?

m******r
发帖数: 1033
48
我也不明白别人都在用些啥工具。 比如我要处理全美10年内mortgage data, 或者某
中型企业(就说几十万用户啊)三年数据, transaction data 很容易达到几十,几百
million行, 如果我想提取一些变量,或者叫feature, 什么样的工具比较好用?
这里面得有个实际问题。 一开始我也不知道啥样的变量有用,啥样的没用。 所以我得
尽可能的'造'. 不同的时间段,不同层次的demographic,不同的产品云云。
如果用萨斯,我就得用宏。 没碰过的数据,运气好的话,两三天,能造出200个变量。
运气不好的话,得花一星期。 前提是
1.代码得码得好看,
2.输出变量名比较规整
3.以后需要再往里加变量,比较好加,
4.每篇尽量在200行之内吧
有真干过的 说说什么工具好用.

【在 n******g 的大作中提到】
: well said. 追求好用的话还是sql, excel, 最多python.
: R 比较拧巴,别扭。
: 我不明白的是,SAS难道好用?为啥你们都还能忍受?

E**********e
发帖数: 1736
49
各种软件,只要自己用的喜欢就行,非要比较优劣,大家个有一套说辞。sas现在主要
垄断了制药行业,原因是fda指定看sas的分析结果。如果那天fda说可以用R/PYTHON了
,SAS立马得死。至于好不好用,你用习惯了,就好用。要说一个月你能会SAS,写出好
看的代码,我是不信的。然而R/PYTHON,或者别的编程语言,可以灵活的实现你想要的
功能。而且现在得意于网络,网络资源多的不得了,各种语言得提供PACKAGES,你调用
就行,其实跟SAS就一样。sas只用来实现模块话的处理,复杂点的就麻烦大了,当然你
说可以用宏,你编过宏就知道它有多麻烦,太复杂。
你要是想学R,就老老实实静下心学习。首先得学习基本语法,这个基本上各个语言都
接近,无非是LOOP,数据类型和结果构,R里的dataframe还是比较好的,PYTHON的数据
处理也很好。另外,两种语言都提供SQL包,调用后可以直接实现SQL查询和操作。
我本人也是从SAS开始,说实话,挺不喜欢的,后来学习R,其实都是被逼的,你得会公
司需要的,自己的喜好先放一边。但是现在就喜欢PYTHON了,比R好用的多。同是还在
学JAVA,一个月JAVA就入门了。两个星期懂了MONGODB,用PYTHON连接MONGODB,进行数
据查询和操作,转换成dataframe.
你看,这不是showoff,想学是么,就去学,纠结于这些细节,好不好学,喜不喜欢,没
有意思的。
另,你那个feature,提取,要是学了R,就方便的多

:sas这个工具优缺点都很明显。优点太明显了:
:1.数据结构简单,数值型,字符型
w******e
发帖数: 142
50
买本matloff the art of R programming来看就清楚入门了,舍得花点小钱买点R的
书就够了。毕竟软件都免费了,这点小钱还是比sas license便宜的。
相关主题
【旧文重发】 Python and R study guide问题回复: Python为啥只有两个小时的课?
一月份上Python/R/Hive 课的同学请与我联系想做SAS programmer,求教各位前辈如何找intern机会
二月份上Python/R/Hive 课的同学请与我联系六月份上Python/R/Hive 课的同学请与我联系
进入Statistics版参与讨论
r***e
发帖数: 10135
51
跟客户需求有关系
很多客户需要特殊的数据分析算法包,找SAS开发因为太小众收费估计是天价
只能用R自己写了

【在 m******r 的大作中提到】
: sas这个工具优缺点都很明显。优点太明显了:
: 1.数据结构简单,数值型,字符型
: 2.函数简单,还是数值型,字符型
: 3.算法简单,成天merge来,merge去。记住,只能逐行处理,不能跳着来。
: 反正简单算法就够了,银行里经常下班之前跑个程序,第二天早晨看看结果。真用什么
: 牛逼算法么? 未必。sas在里面排序呢 呵呵。 也听说过有高人能写算法什么的,老板
: 根本不同意:我们多少年都是这么过来的 要的是可靠性,不是什么效率。
: sas最大的优点其实是文档。有了这些文档,不管什么行业,基本可以做到三天上手,
: 一个月精通. 而且文档里面的例子都是精心选过的,面对行业应用的。 我知道有人特
: 烦sas, 比如david chiu, 写r cookbook的(少有的好书),他说当年写萨斯的时候头

n******g
发帖数: 2201
52
espressolove说的有道理。我这里给你一点具体的步骤,
你试试package data.table. 一次可以处理比较大的数据100G也可以。

【在 m******r 的大作中提到】
: 我也不明白别人都在用些啥工具。 比如我要处理全美10年内mortgage data, 或者某
: 中型企业(就说几十万用户啊)三年数据, transaction data 很容易达到几十,几百
: million行, 如果我想提取一些变量,或者叫feature, 什么样的工具比较好用?
: 这里面得有个实际问题。 一开始我也不知道啥样的变量有用,啥样的没用。 所以我得
: 尽可能的'造'. 不同的时间段,不同层次的demographic,不同的产品云云。
: 如果用萨斯,我就得用宏。 没碰过的数据,运气好的话,两三天,能造出200个变量。
: 运气不好的话,得花一星期。 前提是
: 1.代码得码得好看,
: 2.输出变量名比较规整
: 3.以后需要再往里加变量,比较好加,

O*O
发帖数: 2284
53
几TB的数据,python预处理一下,然后上R
统计分析这块,还是R方便

【在 n******g 的大作中提到】
: espressolove说的有道理。我这里给你一点具体的步骤,
: 你试试package data.table. 一次可以处理比较大的数据100G也可以。

n******g
发帖数: 2201
54
very true! 请问是python pandas 吗?

【在 O*O 的大作中提到】
: 几TB的数据,python预处理一下,然后上R
: 统计分析这块,还是R方便

E**********e
发帖数: 1736
55
你没用过PYTHON的统计包吧。

:几TB的数据,python预处理一下,然后上R
:统计分析这块,还是R方便
b*****s
发帖数: 11267
56
个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。
以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该
不用sas了。
sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg
m******r
发帖数: 1033
57
capital one已经完全转python了 ? 谁来确认下?

【在 b*****s 的大作中提到】
: 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。
: 以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该
: 不用sas了。
: sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg

E**********e
发帖数: 1736
58
exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。

【在 b*****s 的大作中提到】
: 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。
: 以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该
: 不用sas了。
: sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg

b*****s
发帖数: 11267
59
未必比r快把,r需要赶紧把for loop的效率解决下,我不知道这里面有什么困难的地方
。。。
[在 ExpressoLove (MoneyForNothing) 的大作中提到:]
:exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
:至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
:未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
:里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。
m******r
发帖数: 1033
60
请问r 的 for loop真的很慢吗?
多大的数据量,能有多慢 ?

pytyon

【在 b*****s 的大作中提到】
: 未必比r快把,r需要赶紧把for loop的效率解决下,我不知道这里面有什么困难的地方
: 。。。
: [在 ExpressoLove (MoneyForNothing) 的大作中提到:]
: :exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
: :至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
: :未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
: :里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。

相关主题
最近统计工作好找吗11月份上Python/R/Hive/DS 课的同学请与我联系
做培训的有一点感受问个R的问题
也谈为什麽要学习Python学习Pig Latin
进入Statistics版参与讨论
z******j
发帖数: 1265
61
Google "R for data science", website by Hadley should give you a good start.
I like the dplyr library for data analysis.
z******j
发帖数: 1265
62
FDA accepts R code for analysis now.
h****n
发帖数: 413
63
mark
z*******1
发帖数: 206
64
这太夸张了吧!大部分电脑的内存<=16G,处理100G的数据谈何容易(虽然有些包可以
帮助处理大数据的内存问题)。毕竟计算过程还要占大量内存!
R最大的弊病在内存!遇到大数据R就恼火。

【在 n******g 的大作中提到】
: espressolove说的有道理。我这里给你一点具体的步骤,
: 你试试package data.table. 一次可以处理比较大的数据100G也可以。

m******r
发帖数: 1033
65
多谢。作者好像是dplyr的创始人 ?
据我所知,dplyr后面又出了新package, 什么ply2, reshape2什么的,记不太清了。
另外,有网友推荐说现在最牛x的是专门针对datatable的一个package. (dplyr是专门
针对frame的?)
总之,R搞这么多的package,让人无所适从。

start.

【在 z******j 的大作中提到】
: Google "R for data science", website by Hadley should give you a good start.
: I like the dplyr library for data analysis.

y*****a
发帖数: 35
66
正在学python. python 不是也load data to RAM,如何处理几 T 的data.
m*****a
发帖数: 658
67
我也觉得R的学习文档做的不好。
p***r
发帖数: 920
68
1. dplyr is not as fast as data.table.
2. ggplot2 is not as efficient as lattice, and one single plots consumes a
lot of memory

【在 m******r 的大作中提到】
: 多谢。作者好像是dplyr的创始人 ?
: 据我所知,dplyr后面又出了新package, 什么ply2, reshape2什么的,记不太清了。
: 另外,有网友推荐说现在最牛x的是专门针对datatable的一个package. (dplyr是专门
: 针对frame的?)
: 总之,R搞这么多的package,让人无所适从。
:
: start.

1 (共1页)
进入Statistics版参与讨论
相关主题
最近统计工作好找吗求推荐Python, R方面的书
做培训的有一点感受最近又被深深震撼了一次!!
也谈为什麽要学习Python大家推荐下学习python,hadoop的网上资源
11月份上Python/R/Hive/DS 课的同学请与我联系~StatsGuy: 再次感谢选课的同学们!
问个R的问题来讲讲SAS的优点吧
学习Pig Latin【旧文重发】 Python and R study guide
想系统学一门计算机语言,是学c呢,还是c++?一月份上Python/R/Hive 课的同学请与我联系
R 有点令人失望二月份上Python/R/Hive 课的同学请与我联系
相关话题的讨论汇总
话题: sas话题: python话题: 数据话题: dplyr话题: 函数