• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Pandas实现一列数据分隔为两列

python 搞代码 4年前 (2022-01-08) 24次浏览 已收录 0个评论

这篇文章主要介绍了Pandas实现一列数据分隔为两列,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

分割成一个包含两个元素列表的列

对于一个已知分隔符的简单分割(例如,用破折号分割或用空格分割).str.split() 方法就足够了 。 它在字符串的列(系列)上运行,并返回列表(系列)。

 >>> import pandas as pd >>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']}) >>> df AB 0 A1-B1 1 A2-B2 >>> df['AB_split'] = df['AB'].str.split('-') >>> df AB AB_split 0 A1-B1 [A1, B1] 1 A2-B2 [A2, B2] 

分割成两列,每列包含列表的相应元素

下面来看下如何从:分割成一个包含两个元素列表的列至分割成两列,每列包含列表的相应元素。

 >>> df['AB'].str[0] 0 A 1 A Name: AB, dtype: object >>> df['AB'].str[1] 0 1 1 2 Name: AB, dtype: object 

因此可以得到

 >>> df['AB'].str.split('-', 1).str[0] 0 A1 1 A2 Name: AB, dtype: object >>> df['AB'].str.split('-', 1).str[1] 0 B1 1 B2 Name: AB, dtype: object 

可以通过如下代码将pandas的一列分成两列:

 >>> df['A'], df['B'] = df['AB'].str.split('-', 1).str >>> df AB AB_split A B 0 A1-B1 [A1, B1] A1 B1 1 A2-B2 [A2, B2] A2 B2 

补充知识:pandas某一列中每一行拆分成多行的方法

在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。

在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,

info.drop([‘city’], axis=1).join(info[‘city’].str.split(‘ ‘, expand=True).stack().reset_index(level=1, drop=True).rename(‘city’))

看起来非常之长,分开来看,流程如下:

将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列

将拆分后的多列数据进行列转行操作(stack),合并成一列

将生成的复合索引重新进行reset保留原始的索引,并命名

将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接

具体操作如下:

预操作:生成需要使用的DataFrame

 # 用来生成DataFrame的工具 from pydbgen import pydbgen myDB=pydbgen.pydb() # 生成一个DataFrame info = myDB.gen_dataframe(10,['name','phone','city','state']) 

结果如下:

name phone-number city state
0 Hannah Richard 810-859-7815 Irwinville Louisiana
1 Ronald Berry 591-564-0585 Glen Ellen Minnesota
2 Caitlin Barron 969-840-8580 Dubois Oklahoma
3 Felicia Stephens 154-858-1233 Veedersburg Alaska
4 Shelly Dennis 343-104-9365 Mattapex Virginia
5 Nicholas Hill 992-239-1954 Moneta Minnesota
6 Steve Bradshaw 164-081-7811 Ten Broeck Colorado
7 Gail Johnston 155-259-9514 Wayan Virginia
8 John Gray 409-892-4716 Darlington Pennsylvania
9 Katherine Bautista 185-861-1677 McNab Texas

假如现在我们要对city列进行进行拆分,按照空格拆分,转换成多行的数据,
第一步:拆分,生成多列

info_city = info[‘city’].str.split(‘ ‘, expand=True)

结果如下:

0 1
0 Irwinville None
1 Glen Ellen
2 Dubois None
3 Veedersburg None
4 Mattapex None
5 Moneta None
6 Ten Broeck
7 Wayan None
8 Darlington None
9 McNab None

可以看到已经将原始数据拆分成了2列,对于无法拆分的数据为None

第二步:行转列

info_city = info_city.stack()

结果如下:

0 0 Irwinville
1 0 Glen
1 Ell来源gaodai$ma#com搞$$代**码)网en
2 0 Dubois
3 0 Veedersburg
4 0 Mattapex
5 0 Moneta
6 0 Ten
1 Broeck
7 0 Wayan
8 0 Darlington
9 0 McNab

其中前面两列是索引,返回的是一个series,没有名字的series

第三步:重置索引,并命名(并删除多于的索引)

info_city = info_city.reset_index(level=1, drop=True)

结果如下:

0 Irwinville
1 Glen
1 Ellen
2 Dubois
3 Veedersburg
4 Mattapex
5 Moneta
6 Ten
6 Broeck
7 Wayan
8 Darlington
9 McNab

第四步:和原始数据合并

info_new = info.drop([‘city’], axis=1).join(info_city)

结果如下:

name phone-number state city
0 Hannah Richard 810-859-7815 Louisiana Irwinville
1 Ronald Berry 591-564-0585 Minnesota Glen
1 Ronald Berry 591-564-0585 Minnesota Ellen
2 Caitlin Barron 969-840-8580 Oklahoma Dubois
3 Felicia Stephens 154-858-1233 Alaska Veedersburg
4 Shelly Dennis 343-104-9365 Virginia Mattapex
5 Nicholas Hill 992-239-1954 Minnesota Moneta
6 Steve Bradshaw 164-081-7811 Colorado Ten
6 Steve Bradshaw 164-081-7811 Colorado Broeck
7 Gail Johnston 155-259-9514 Virginia Wayan
8 John Gray 409-892-4716 Pennsylvania Darlington
9 Katherine Bautista 185-861-1677 Texas McNab

需要特别注意的是,需要使用原始的连接新生成的,因为新生成的是一个series没有join方法,也可以通过将生成的series通过to_frame方法转换成DataFrame,这样就没有什么差异了

写了这么多,记住下面的就行了:

info.drop([‘city’], axis=1).join(info[‘city’].str.split(‘ ‘, expand=True).stack().reset_index(level=1, drop=True).rename(‘city’))

如果原数据中已经是list了,可以将info[‘city’].str.split(‘ ‘, expand=True)这部分替换成info[‘city’].apply(lambda x: pd.Series(x)),就可以达到相同的目的。

以上就是Pandas实现一列数据分隔为两列的详细内容,更多请关注gaodaima搞代码网其它相关文章!


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Pandas实现一列数据分隔为两列

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址