您现在的位置是:首页 > 玩家福利
R语言dplyr包学习笔记(吐血整理宇宙无敌详细版)
掌游情报站
2025-03-12【玩家福利】256人已围观
简介出处:AI入门学习包安装与加载("dplyr")library(dplyr)选取变量名前缀包含Petal的列select(iris,starts_with("Petal"))选取变量名后缀包含Width的列select(iris,s_with("Width...
出处:AI入门学习
包安装与加载
("dplyr")
library(dplyr)
选取变量名前缀包含Petal的列
select(iris,starts_with("Petal"))
选取变量名后缀包含Width的列
select(iris,s_with("Width"))
选取变量名中包含etal的列
select(iris,contains("etal"))
正则表达式匹配,返回变量名中包含t的列
select(iris,matches(".t."))
直接选取列
select(iris,,)
使用冒号连接列名,选择多个列
select(iris,:)
返回指定字符向量之外的列
select(iris,-one_of(vars))
调整列顺序,把Species列放到最前面
select(iris,Species,everything())
神奇变形函数:mutate()transmute()
mutate()和transmute()函数对已有列进行数据运算并添加为新列,类似于transform()函数,不同的是可以在同一语句中对刚增添加的列进行操作,mutate()返回的结果集会保留原有变量,transmute()只返回扩展的新变量,原数据集行名称会被过滤掉
1、mutate变量变形
1.1单个变量操作:mutate可以对数据框中已有的变量进行操作或者增加变量,值得称赞的是,一段mutate的代码中,靠后的变量操作可以操作前期新添加或改变的变量,这是transform所不具备的特性。
1.1.1新增列
mtcars%%mutate(cyl2=cyl*2,cyl4=cyl2*2)
1.1.2删除列
mtcars%%mutate(mpg=NULL,disp=disp*0.0163871)
mtcars%%mutate(cyl=NULL)
不需要的列不在了
1.1.3窗口函数应用
mtcars%%group_by(cyl)%%mutate(rank=min_rank(desc(mpg)))
mtcars%%group_by(cyl)%%mutate(mpg_max=max(mpg))
原来的明细还保留,同时每个分组的统计值算出来了,是不是很方便
1.2批量操作
同时若你嫌麻烦一个个地对变量进行操作,还可以使用mutate_each函数对数据框中的变量批量操作,通过调整funs(即functions)和vars(variables)参数控制functions的数量,以及参与变形的variables,这里控制variables的技巧与select函数相似。
对disp的变量进行排名
mtcars%%mutate_each(funs(dense_rank,min_rank),disp)
mpgcyldisphpdratwtqsecvsamgearcarbdense_rankmin_rank
121.06160.01103.902.62016.4601441313
221.06160.01103.902.87517.0201441313
322.84108.0933.852.32018.61114166
421.46258.01103.083.21519.4410311618
518.78360.01753.153.44017.0200322327
618.16225.01052.763.46020.2210311517
714.38360.02453.213.57015.8400342327
(x=sample(10,100,rep=TRUE),
y=sample(10,100,rep=TRUE))
以变量x去重,只返回去重后的x值
distinct(df,x)
以变量x去重,返回所有变量
distinct(df,x,.keep_all=TRUE)
对变量运算后的结果去重
distinct(df,diff=abs(x-y))
汇总函数:summarise
1、直接汇总
返回数据框中变量disp的标准差
summarise(mtcars,sd(disp))
返回数据框mtcars的行数
summarise(mtcars,n())
返回disp的第一个值
summarise(mtcars,first(disp))
按变量cyl分组,求disp的均值和个数
mtcars%%group_by(cyl)%%
summarise(mean=mean(disp),n=n())
按变量cyl分组,求disp的均值和标准差
mtcars%%
group_by(cyl)%%
summarise(disp=mean(disp),sd=sd(disp))
数据匹配函数:join系列
类似于base::merge()函数。语法如下:
左连接,向数据集x中加入匹配的数据集y记录
left_join(x,y,by=NULL,copy=FALSE,suffix=c(".x",".y"),)
全连接,合并数据保留所有记录,所有行
full_join(x,y,by=NULL,copy=FALSE,suffix=c(".x",".y"),)
返回无法与y表匹配的x表的所有记录
anti_join(x,y,by=NULL,copy=FALSE,)
df1=(CustomerId=c(1:6),sex=c("f","m","f","f","m","m"),Product=c(rep("Toaster",3),rep("Radio",3)))
df2=(CustomerId=c(2,4,6,7),sex=c("m","f","m","f"),State=c(rep("Alabama",3),rep("Ohio",1)))
左连接,默认使用"CustomerId"和"sex"连接
left_join(df1,df2)
全连接,默认使用"CustomerId"和"sex"连接
full_join(df1,df2)
以CustomerId连接,返回df1中与df2匹配的记录
semi_join(df1,df2,by=c("CustomerId"="CustomerId"))
取两个集合的交集
intersect(x,y,)
取两个集合的并集,不去重
union_all(x,y,)
判断两个集合是否相等
setequal(x,y,)
mtcars$model-rownames(mtcars)
first-mtcars[1:20,]
second-mtcars[10:32,]
取两个集合的并集,并去重
union(first,second)
取两个集合的交集,返回second中存在但first中不存在的记录
setdiff(second,first)
判断两个集合是否相等,返回TRUE
setequal(mtcars,mtcars[32:1,])
汇总函数:tally系列
tally是一个很方便的计数函数,其根据最初的调用而决定下一次调用n或者sum(n)。它还有其他的小伙伴比如count和n,都是计数家族的。
iris%%group_by(Species)%%tally
iris%%group_by(Species)%%tally
抽样函数:sample系列
此sample系列是对数据框进行随机抽样,只作用于数据框和dplyr自带的tbl等格式的数据。sample_n为按行数随机抽样,而sample_frac为按比例抽样;其weight参数可以设置抽样的权重而replace参数为有放回抽样。
sample_n(mtcars,2,replace=TRUE)
sample_n(mtcars,2,weight=mpg/mean(mpg))
sample_frac(mtcars,0.1)
sample_frac(mtcars,0.1,weight=1/mpg)
很赞哦!(41)