问题描述
我有4台机器M1,M2,M3和M4.调度程序,客户端工人在M1上运行.我已经将CSV文件放在M1中.其余机器是工人.
当我在dask中使用read_csv文件运行程序时.它给了我错误,未找到文件
推荐答案
当您的一名工人试图加载CSV时,它将找不到它,因为它不存在于该本地光盘上.这不足为奇.您可以通过多种方式解决此问题:
- 将文件复制到每个工人;在光盘空间方面,这显然是浪费的,但最容易实现
- 将文件放在网络文件系统上(NFS Mount,Gluster,HDFS等)
- 将文件放在Amazon S3等外部存储系统上,并参考该位置
- 将数据加载到本地流程中,并分散分配;在这种情况下,大概的数据足够小以适合内存,并且可能对您无济于事.