在集群上运行的Dask程序出现文件未找到的错误[英] File Not Found Error in Dask program run on cluster

本文是小编为大家收集整理的关于在集群上运行的Dask程序出现文件未找到的错误的处理方法,想解了在集群上运行的Dask程序出现文件未找到的错误的问题怎么解决?在集群上运行的Dask程序出现文件未找到的错误问题的解决办法?那么可以参考本文帮助大家快速定位并解决问题。

问题描述

我有4台机器M1,M2,M3和M4.调度程序,客户端工人在M1上运行.我已经将CSV文件放在M1中.其余机器是工人.

当我在dask中使用read_csv文件运行程序时.它给了我错误,未找到文件

推荐答案

当您的一名工人试图加载CSV时,它将找不到它,因为它不存在于该本地光盘上.这不足为奇.您可以通过多种方式解决此问题:

  • 将文件复制到每个工人;在光盘空间方面,这显然是浪费的,但最容易实现
  • 将文件放在网络文件系统上(NFS Mount,Gluster,HDFS等)
  • 将文件放在Amazon S3等外部存储系统上,并参考该位置
  • 将数据加载到本地流程中,并分散分配;在这种情况下,大概的数据足够小以适合内存,并且可能对您无济于事.

本文地址:https://www.itbaoku.cn/post/1793923.html