从多个列创建字符串列的Oneliner[英] Oneliner to create string column from multiple columns

本文是小编为大家收集整理的关于从多个列创建字符串列的Oneliner的处理方法,想解了从多个列创建字符串列的Oneliner的问题怎么解决?从多个列创建字符串列的Oneliner问题的解决办法?那么可以参考本文帮助大家快速定位并解决问题。

问题描述

考虑下面的代码

import pandas as pd
df = pd.DataFrame({'col_1' : [1, 2, 3, 4],\
                   'col_2' : ['a', 'b', 'c', 'd'],\
                   'col_3' : ['hey', 'ho', 'banana', 'go']})

col = df['col_1'].astype(str) + '_' + \
      df['col_2'].astype(str) + '_' + \
      df['col_3'].astype(str)

col
Out[12]: 
0       1_a_hey
1        2_b_ho
2    3_c_banana
3        4_d_go
dtype: object

谁能想到一个使用数组 col_names = ['col_1', 'col_2', 'col_3'] 作为输入来生成 col 的单行器?

即col_sum = something_smart(col_names)

显然,如果,例如,different_col_set = ['col_2', 'col_3']

something_smart(different_col_set)
Out[13]: 
0         a_hey
1          b_ho
2      c_banana
3          d_go
dtype: object

关键是 col_names 是一个数组,包含数据框列名的任何子集.

推荐答案

选项 1] 使用 apply 你可以 '_'.join

In [5521]: df[col_names].astype(str).apply('_'.join, axis=1)
Out[5521]:
0       1_a_hey
1        2_b_ho
2    3_c_banana
3        4_d_go
dtype: object

和,

In [5523]: df[different_col_set].astype(str).apply('_'.join, axis=1)
Out[5523]:
0       a_hey
1        b_ho
2    c_banana
3        d_go
dtype: object

选项 2] 在这种情况下,使用 reduce 比应用更快.

In [5527]: reduce(lambda x, y: x + '_' + y, [df[c].astype(str) for c in col_names])
Out[5527]:
0       1_a_hey
1        2_b_ho
2    3_c_banana
3        4_d_go
dtype: object

In [5528]: reduce(lambda x, y: x + '_' + y, [df[c].astype(str) for c in different_col_set])
Out[5528]:
0       a_hey
1        b_ho
2    c_banana
3        d_go
dtype: object

类似于reduce(lambda x, y: x.astype(str) + '_' +y.astype(str), [df[x] for x in col_names])

<小时>

时间

In [5556]: df.shape
Out[5556]: (10000, 3)

In [5553]: %timeit reduce(lambda x, y: x + '_' + y, [df[c].astype(str) for c in col_names])
10 loops, best of 3: 21.7 ms per loop

In [5554]: %timeit reduce(lambda x, y: x.astype(str) + '_' +y.astype(str), [df[x] for x in col_names])
10 loops, best of 3: 22.3 ms per loop

In [5555]: %timeit df[col_names].astype(str).apply('_'.join, axis=1)
1 loop, best of 3: 254 ms per loop

本文地址:https://www.itbaoku.cn/post/1727750.html