读取utf-8 CSV文件到数据框中[英] read utf-8 CSV file into dataframe

本文是小编为大家收集整理的关于读取utf-8 CSV文件到数据框中的处理方法,想解了读取utf-8 CSV文件到数据框中的问题怎么解决?读取utf-8 CSV文件到数据框中问题的解决办法?那么可以参考本文帮助大家快速定位并解决问题。

问题描述

我一直试图弄清楚如何获取我下载到 DataFrame 中的 UTF-8 CSV.到目前为止我已经尝试过

df = pd.read_csv('myfile.csv', encoding='utf8')

它给了我垃圾.我用

成功阅读了它
import csv
with open('some.csv', newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

按照这篇文章的建议

使用 Python 读取 UTF8 CSV 文件

但它读入了这个巨大的文件,我无法将它放入 DataFrame.

我正在使用 python 3.感谢您的帮助!

我的具体错误输出是

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 3: invalid start byte'

我正在尝试使用的文件是从此链接下载的 YEARLY CSV 文件之一(不是每周,我不确定每周是否是不同的格式)

https://exporter.nih.gov/ExPORTER_Catalog.aspx?sid=2&index=0

推荐答案

感谢这个问题的帖子,我修复了它

'utf-8' 编解码器无法解码位置 18 中的字节 0x92:无效的起始字节

我想我会尝试他们建议的修复方法

df = pd.read_csv('myfile.csv', encoding='cp1252')

它成功了!这是 Windows 代码页 1252...不是 utf-8

本文地址:https://www.itbaoku.cn/post/1727839.html