用Python、BeautifulSoup、Pandas从.csv中读取URL列表进行搜刮
This was part of another question (读取.csv的URL和以下涂抹刮擦结果,以下是Python,python,beautifuresoup,pandas ),它由在下面的代码中,我将3个示例源URL粘贴到代码中,并且可以正常工作.但是我有一长串的URL列表(1000+),并且它们存储在.CSV文件的单个第一列中(我们称其为" urls.csv').我希望直接从该文件中读取. 我认为我知道"开放式"的基本结构(例如,@bguest在下面回答它的方式),但是我遇到了如何将其链接到其余代码的问题,以便其余的继续工作.我如何用.csv的迭代读数替换URL列表,以使我正确地将URL传递到代码中? import requests from bs4 import BeautifulSoup import pandas as pd urls = ['https://www.marketresearch.com/Infiniti-Research-Limit
0 2024-03-30
编程技术问答社区
numpy loadtxt 跳过第一行
当我尝试使用Numpy的LoadTXT函数中导入CSV文件时,我会有一个小问题.这是我拥有的数据文件类型的示例. 称其为'datafile1.csv': # Comment 1 # Comment 2 x,y,z 1,2,3 4,5,6 7,8,9 ... ... # End of File Comment 我认为在这种情况下可以使用的脚本看起来像: import numpy as np FH = np.loadtxt('datafile1.csv',comments='#',delimiter=',',skiprows=1) 但是,我遇到了一个错误: ValueError: could not convert string to float: x 这告诉我,Kwarg的"跳过"不是跳过标题,而是跳过第一行评论.我可以简单地确保skiprows = 3,但并发症是我有大量文件,这些文件不一定在文件顶部具有相同数量的评论行.我如何确保当我使用loadt
0 2024-03-28
编程技术问答社区
使用csvhelper(nuGET)和C# MVC导入CSV文件
csvhelper允许您直接将CSV文件读取到自定义类中. 如下所示,如前问题 var streamReader = // Create a reader to your CSV file. var csvReader = new CsvReader( streamReader ); List myData = csvReader.GetRecords(); CSVReader将自动构图 出去如何匹配属性名称 基于标题行(这是 可配置).它使用编译 表达树而不是 反射,所以很快. 它也非常可扩展,并且 可配置. 我基本上是在试图找出如何在带标头(未知名称)的CSV文件中读取并将记录读为自定义对象. 根本没有任何文档,所以想知道是否有人知道如何使用CSVReader将值放入一系列字符串,或者您将如何建议处理? 解决方案 这是我的第一个版本,我将在修改内容并更完整时进行更新,但这为我提供了字符串
4 2024-03-15
编程技术问答社区
在Spark中读取多行CSV文件时,是否有任何选项可以保留引号内的换行符?
我有一些CSV文件,在第三行中的引号中有线断路(第一行是CSV标头). data/testdata.csv "id", "description" "1", "some description" "2", "other description with line break" 无论其正确的CSV是否正确,我都必须将其解析为有效记录.那就是我尝试的 public class Main2 { public static void main(String[] args) { SparkSession spark = SparkSession.builder() .master("local[4]") .getOrCreate(); Dataset rows = spark .read() .format("csv")
2 2024-03-01
编程技术问答社区
如何通过VBA将一个月的csv文件(日期命名)导入Excel?
我需要将一个月的CSV文件加载到Excel中,以通过VBA分析.每个月的每天是一个单独的文件,带有日期名称(yyyymmdd). 当前,我可以使用 来加载两个不同情况,A和B创建的文件 With ActiveSheet.QueryTables.Add(Connection:=Full_F_Name_A, _ Destination:=Range("$H$4")) 我使用循环更改A和B(以及目的地).我没有弄清楚如何增加日期.我使用一个输入框来获取当月第一个文件的日期. F_Name = InputBox("Enter name of first data file eg YYYYMMDD, target=H4, EG4") 我被卡住时的任何帮助都会很棒. . 好吧,请参见下面的VBA代码.接收到的运行时间错误'3001'参数是错误的类型,不可接受的范围或相互冲突.调试器指向" .cursor
8 2024-01-19
编程技术问答社区
用jQuery csvToTable创建的html表格中没有可操作的行?
我是新手程序员,希望在以下情况下提供一些帮助. 我能够在本地外部CSV文件中阅读并显示为html表,并带有jQuery csvtotable 我知道,由于缺乏经验,我可能会缺少一些非常基本的东西,因此,如果情况如此,则很抱歉.任何帮助将不胜感激.谢谢! fyi,我也使用统一服务器. CSV: id,name,pop11 1,Allen,28456 2,Brown,106094 3,Center,53153 4,Denver,101345 5,Ellen,64769 html:
6 2024-01-15
编程技术问答社区
将csv文件中的数据转换成 "xts "对象
我有具有以下格式日期的CSV文件: 2004年8月25日 我想将其读为" XTS"对象,以便在QuantMod软件包中使用函数" pecurturn". 我可以将以下文件用于函数吗? Symbol Series Date Prev.Close Open.Price High.Price Low.Price 1 XXX EQ 25-Aug-2004 850.00 1198.70 1198.70 979.00 2 XXX EQ 26-Aug-2004 987.95 992.00 997.00 975.30 用相同的指导我. 解决方案 不幸的是,我不能代表ts部分,但这就是您可以将日期转换为可以通过其他函数(或时间)读取的适当格式的方式. 您可以像往常一样将数据导入data.frame( 'Ve错过了).然后,您可以使用strptime函数将Date列
2 2023-12-24
编程技术问答社区
如何从雅虎金融下载仅限于100行的数据
所以我正在做这个项目,必须从Yahoo Finance下载历史库存数据.有这个代码.它工作正常,但仅下载最大100行.我试图扫描网络以获取答案或不同的代码(此代码只是从Excel录制的宏),但是我在YouTube上看到了一些使用他的解决方案的教程,这很好. . ..我不明白 Sub Makro6() ' Dowload stock prices from Yahoo Finance based on input Dim ws As Worksheet Set ws = Sheets("Data") 'clear previous queries For Each qr In ThisWorkbook.Queries qr.Delete Next qr 'clear Data sheet ws.Select Cells.Clear 'clear graphs '
10 2023-12-01
编程技术问答社区
将带有blob和utf8字符串字段的表从MySql导出到MS Sql server 2014
我有一个带有二进制(32),斑点和Varchar UTF-8字段的表. 从一个MySQL Server到另一个通过CSV导出数据: select * INTO OUTFILE '$tmp_fname' FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '\"' LINES TERMINATED BY '\\r\\n' from mytable ,然后 load data local infile '" . $mysqli->real_escape_string($glb) . "' ignore into table mytable_temp CHARACTER SET 'utf8' FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '
12 2023-09-25
编程技术问答社区
如何用SQLite3导入一个tsv文件
我有一个我想用sqlite3导入的TSV(TAB分离文件).有人知道一种清晰的方法吗? 我已经安装了sqlite3,但尚未创建任何数据库或表. 我已经尝试了命令 .import /path/filename.tsv my_new_table 但它给了我错误:没有这样的表:my_new_table. 但是,根据我阅读的内容,如果不存在,则应自动创建表.这是否意味着我需要首先创建和使用数据库,还是将.TSV文件导入SQLite? 是否还有其他技巧 解决方案 您应该创建表,设置一个分隔符并导入数据( TSV的示例: data.tsv(作为分隔符的选项卡): Bob 30 1000 Wendy 20 900 创建一个表格和设置选项卡作为分离器: sqlite> create table people (name text, param1 int, param2 int); sqlite> .separator "\t" 导入数据
40 2023-09-21
编程技术问答社区
当用户在R中选择上传文件时,如何指定列?
我正在编写 r 文件,该文件提示用户上传文件并将数据绘制在用户上传的文件中.我不知道如何参考列(我试图在代码中使用ggplot2). 用户将上传的数据将是一个看起来像类似的CSV文件,但可能会有所不同: January February March April May Burgers 4 5 3 5 2 我被困在需要参考列名称的GGPLOT2部分. server.r library(shiny) library(datasets) library(ggplot2) X
12 2023-09-02
编程技术问答社区
我怎样才能通过rake任务导入CSV文件?
我知道这个问题已经在这个论坛上受到了很多要求,但是我处于严格的截止日期,我需要一些帮助,因此,任何建议都非常感谢.我是Ruby on Rails的新手,所以在响应时请记住这一点.我想创建一个Rake任务,运行后,该任务会在MySqlite DB中更新多个表.这是一个迁移文件,它在我的数据库中创建了一个新事件.我如何创建一个将通过CSV文件输入所有这些信息的耙子任务.有人可以从头到尾给我写一些耙子文件时提供一些帮助.显然,您不需要为每个字符串编写每个任务,只需给我一些示例即可.除了实际的Rake文件外,我是否需要将代码添加到我的应用程序的任何其他部分(我知道这是一个非常一般的问题,但是如果我确实需要添加代码,我将不愿对何处的一般描述).我觉得一点点的指导将沿途.如果有人需要更多信息,请询问. class CreateIncidents
14 2023-08-17
编程技术问答社区
Python从csv文件中创建一个表格到变量中
我想将表创建为看起来像实际CSV文件的变量的东西: Length Price Code 10.05 0.78 AB89H 20 5 HB20K 这是我对使用的每个功能所做的事情,所以也许我可以做一次... tree_file.readline() # skip first row for row in tree_file: field=row.strip() field=field.split(",") #make Into fields price=int(field[1]) 我想要一个从CSV文件创建表的函数,以便我可以将此表用于我所有其他功能.因此,我不必一直在每个功能中打开CSV文件并将其剥离并在字段中进行剥离. 我不需要打印实际的表! 解决方案 我建议使用CSV模块中的Dictreader.你可以通过 在这种情况下将是一个定
16 2023-08-12
编程技术问答社区
在R中确定两个数据集之间的不同行数
我在选项卡中有两个数据文件,分隔了CSV格式.文件的格式: EP Code EP Name Address Region ... 101654 Alpha York Street Northwest ... 103628 Beta 5th Avenue South ... EP代码是唯一的.我要做的是将两个文件相对于EP代码进行比较,确定不同的行并将其写入新文件. 例如,file1.csv有800行,file2.csv有850行. File2可能是一个完全包括File1加50行的文件;或者可以是file1 - 10 rows + 60 rows.我想确定两个数据集之间的差异.我对相互行不感兴趣. 我该如何在r? 中做到这一点 解决方案 有很多方法可以做到这一点,包括setdiff,intersect,%in%函数,is.element.只需找到相交集,然后使用!: 将其排除 diff
14 2023-08-12
编程技术问答社区
将 CSV 大文件中的少量随机样本读入 Pandas 数据框架
我想阅读的CSV文件不适合主内存.我如何读取其中的几行(〜10K)随机行,并在选定的数据框架上进行一些简单的统计信息? 解决方案 假设CSV文件中没有标头: import pandas import random n = 1000000 #number of records in file s = 10000 #desired sample size filename = "data.txt" skip = sorted(random.sample(range(n),n-s)) df = pandas.read_csv(filename, skiprows=skip) 如果read_csv有keeprows,或者skiprows进行回调func而不是列表. 带标头和未知文件长度: import pandas import random filename = "data.txt" n = sum(1 for line in open(filename))
8 2023-07-28
编程技术问答社区
为表格命名行
我有一个看起来像这样的CSV文件: 我需要群集" nooffaces",并计算多少个数据集具有1个脸,2个脸等. 这是我在 r 中所做的: data
20 2023-07-27
编程技术问答社区
在 R 中读取 csv 数据文件
我正在使用read.table读取数据文件.并有以下错误: 扫描中的错误(file,what,nmax,sep,dec,Quote,swip,nlines,na.strings,: 扫描()期望"真实",获得" true" 我知道这意味着我的数据文件中存在一些错误,问题是我如何找到它在哪里.错误消息没有判断出哪一行有问题,我很难找到它.还是如何跳过这些行? 这是我的 r 代码: data
10 2023-07-27
编程技术问答社区
如何在R中创建一个基于真或假的直方图?
我要做的是在 r 中创建两个直方图,这是基于Seaworld的一名员工是否协商了工资的增加,而另一个员工是否没有协商工资增加.有人可以告诉我我出错的地方吗?任何帮助都将不胜感激. 这是我正在使用的文本文件的示例. emp received negotiated gender year #325 12.5 TRUE F 2013 #318 5.2 FALSE F 2013 #217 9.8 FALSE M 2013 #223 6.8 TRUE M 2013 #218 2.1 TRUE F 2006 #601 13.9 FALSE M 2006 #225 7.8 TRUE
16 2023-07-23
编程技术问答社区