在pandas数据框中使用多处理地图?[英] Using multiprocessing map with a pandas dataframe?

本文是小编为大家收集整理的关于在pandas数据框中使用多处理地图?的处理方法,想解了在pandas数据框中使用多处理地图?的问题怎么解决?在pandas数据框中使用多处理地图?问题的解决办法?那么可以参考本文帮助大家快速定位并解决问题。

问题描述

我正在使用(python 的)panda 的 map 函数来处理一个大的 CSV 文件(约 50 GB),如下所示:

import pandas as pd

df = pd.read_csv("huge_file.csv")
df["results1"], df["results2"] = df.map(foo)
df.to_csv("output.csv")

有没有办法可以使用并行化?也许使用多处理的地图功能?

谢谢,何塞

推荐答案

查看分块阅读的文档 这里,示例 这里,并附加这里

您最好分块读取您的 csv,进行处理,然后将其写入 csv(当然,您最好转换为 HDF).

  • 占用相对恒定的内存量
  • 高效,可以并行完成(通常需要有一个 HDF 文件,您可以从中选择部分;csv 不适合此).
  • 比尝试直接进行多处理更简单

本文地址:https://www.itbaoku.cn/post/1727809.html