您现在的位置是:首页 > 玩家福利

R语言dplyr包学习笔记(吐血整理宇宙无敌详细版)

掌游情报站 2025-03-12【玩家福利】197人已围观

简介出处:AI入门学习包安装与加载("dplyr")library(dplyr)选取变量名前缀包含Petal的列select(iris,starts_with("Petal"))选取变量名后缀包含Width的列select(iris,s_with("Width&#...

出处:AI入门学习

包安装与加载

("dplyr")

library(dplyr)

选取变量名前缀包含Petal的列

select(iris,starts_with("Petal"))

选取变量名后缀包含Width的列

select(iris,s_with("Width"))

选取变量名中包含etal的列

select(iris,contains("etal"))

正则表达式匹配,返回变量名中包含t的列

select(iris,matches(".t."))

直接选取列

select(iris,,)

使用冒号连接列名,选择多个列

select(iris,:)

返回指定字符向量之外的列

select(iris,-one_of(vars))

调整列顺序,把Species列放到最前面

select(iris,Species,everything())

神奇变形函数:mutate()transmute()

mutate()和transmute()函数对已有列进行数据运算并添加为新列,类似于transform()函数,不同的是可以在同一语句中对刚增添加的列进行操作,mutate()返回的结果集会保留原有变量,transmute()只返回扩展的新变量,原数据集行名称会被过滤掉

1、mutate变量变形

1.1单个变量操作:mutate可以对数据框中已有的变量进行操作或者增加变量,值得称赞的是,一段mutate的代码中,靠后的变量操作可以操作前期新添加或改变的变量,这是transform所不具备的特性。

1.1.1新增列

mtcars%%mutate(cyl2=cyl*2,cyl4=cyl2*2)

1.1.2删除列

mtcars%%mutate(mpg=NULL,disp=disp*0.0163871)

mtcars%%mutate(cyl=NULL)

不需要的列不在了

1.1.3窗口函数应用

mtcars%%group_by(cyl)%%mutate(rank=min_rank(desc(mpg)))

mtcars%%group_by(cyl)%%mutate(mpg_max=max(mpg))

原来的明细还保留,同时每个分组的统计值算出来了,是不是很方便

1.2批量操作

同时若你嫌麻烦一个个地对变量进行操作,还可以使用mutate_each函数对数据框中的变量批量操作,通过调整funs(即functions)和vars(variables)参数控制functions的数量,以及参与变形的variables,这里控制variables的技巧与select函数相似。

对disp的变量进行排名

mtcars%%mutate_each(funs(dense_rank,min_rank),disp)

mpgcyldisphpdratwtqsecvsamgearcarbdense_rankmin_rank

121.06160.01103.902.62016.4601441313

221.06160.01103.902.87517.0201441313

322.84108.0933.852.32018.61114166

421.46258.01103.083.21519.4410311618

518.78360.01753.153.44017.0200322327

618.16225.01052.763.46020.2210311517

714.38360.02453.213.57015.8400342327

(x=sample(10,100,rep=TRUE),

y=sample(10,100,rep=TRUE))

以变量x去重,只返回去重后的x值

distinct(df,x)

以变量x去重,返回所有变量

distinct(df,x,.keep_all=TRUE)

对变量运算后的结果去重

distinct(df,diff=abs(x-y))

汇总函数:summarise

1、直接汇总

返回数据框中变量disp的标准差

summarise(mtcars,sd(disp))

返回数据框mtcars的行数

summarise(mtcars,n())

返回disp的第一个值

summarise(mtcars,first(disp))

按变量cyl分组,求disp的均值和个数

mtcars%%group_by(cyl)%%

summarise(mean=mean(disp),n=n())

按变量cyl分组,求disp的均值和标准差

mtcars%%

group_by(cyl)%%

summarise(disp=mean(disp),sd=sd(disp))

数据匹配函数:join系列

类似于base::merge()函数。语法如下:

左连接,向数据集x中加入匹配的数据集y记录

left_join(x,y,by=NULL,copy=FALSE,suffix=c(".x",".y"),)

全连接,合并数据保留所有记录,所有行

full_join(x,y,by=NULL,copy=FALSE,suffix=c(".x",".y"),)

返回无法与y表匹配的x表的所有记录

anti_join(x,y,by=NULL,copy=FALSE,)

df1=(CustomerId=c(1:6),sex=c("f","m","f","f","m","m"),Product=c(rep("Toaster",3),rep("Radio",3)))

df2=(CustomerId=c(2,4,6,7),sex=c("m","f","m","f"),State=c(rep("Alabama",3),rep("Ohio",1)))

左连接,默认使用"CustomerId"和"sex"连接

left_join(df1,df2)

全连接,默认使用"CustomerId"和"sex"连接

full_join(df1,df2)

以CustomerId连接,返回df1中与df2匹配的记录

semi_join(df1,df2,by=c("CustomerId"="CustomerId"))

取两个集合的交集

intersect(x,y,)

取两个集合的并集,不去重

union_all(x,y,)

判断两个集合是否相等

setequal(x,y,)

mtcars$model-rownames(mtcars)

first-mtcars[1:20,]

second-mtcars[10:32,]

取两个集合的并集,并去重

union(first,second)

取两个集合的交集,返回second中存在但first中不存在的记录

setdiff(second,first)

判断两个集合是否相等,返回TRUE

setequal(mtcars,mtcars[32:1,])

汇总函数:tally系列

tally是一个很方便的计数函数,其根据最初的调用而决定下一次调用n或者sum(n)。它还有其他的小伙伴比如count和n,都是计数家族的。

iris%%group_by(Species)%%tally

iris%%group_by(Species)%%tally

抽样函数:sample系列

此sample系列是对数据框进行随机抽样,只作用于数据框和dplyr自带的tbl等格式的数据。sample_n为按行数随机抽样,而sample_frac为按比例抽样;其weight参数可以设置抽样的权重而replace参数为有放回抽样。

sample_n(mtcars,2,replace=TRUE)

sample_n(mtcars,2,weight=mpg/mean(mpg))

sample_frac(mtcars,0.1)

sample_frac(mtcars,0.1,weight=1/mpg)

很赞哦!(137)