python - urllib2.HTTPError: HTTP Error 400: Bad Request 求帮忙
问 题 新手这里,简单的直接抓取一个页面也报错,帮忙看下 url = 'https://xueqiu.com/stock/f10/finmainindex.json' user_agent = 'Mozilla/5.0' values = {'symbol' : 'SZ000001', 'page' : '1','size' : '1' } headers = { 'User-Agent' : user_agent } data = urllib.urlencode(values) print data request = urllib2.Request(url, data, headers) print request response = urllib2.urlopen(request) page = response.read() print page 报错如下, (flask)[root@centos7 xueqiu]# pyth
2296 2022-07-19
编程技术问答社区
网页爬虫 - python爬虫爬取携程网的酒店评论数据时,有个请求参数不知道是怎么生成的?
比如这个酒店:http://hotels.ctrip.com/hotel/dianping/1943326.html 酒店的点评数据是通过ajax方式异步加载的,不想用模拟浏览器的方式来爬,太慢了,想直接请求点评数据的地址,但是这个eleven参数不知道是怎么生成的,在网页源码中没找到,分析js代码也没看出个所以然来,请大神来分析下,多谢了
1358 2022-07-19
编程技术问答社区
python2.7 - 如何把python代码放到某个服务器上运行?阿里云,新浪云?有免费的吗?
问 题 如何把python代码放到某个服务器上运行?阿里云,新浪云?有免费的吗? 代码有用到redis数据库 解决方案 亚马逊的aws有一年免费时间。 你拿到服务器后,选择一个linux操作系统,然后把python,redis的环境装上去,最后把你的python代码上传到服务器上,配置好环境,就可以运行了。
492 2022-07-19
编程技术问答社区
python爬虫 - 用Python爬网页需要了解什么背景知识?
问 题 最近在学Python爬虫,写脚本进行模拟登录时,对很多名词一知半解,例如: cookie, header, agent, proxy, timeout, HTTPError, URLError…… 感觉这些词多少都听过,但也谈不上真的知道。所以跟着教程写东西时,稍微需要点变通就容易束手无策。 求问有什么书或者网络资源,是可以比较系统性的介绍这块内容的吗? 解决方案 如果要视频教程推荐上慕课网看看,http://www.imooc.com/video/12622 这么课和配套课程你可以看看,书的话推荐图灵出品http://www.ituring.com.cn/boo...这本网络采集。 然后随时翻看wiki和google即可
160 2022-07-19
编程技术问答社区
python - beautifulsoup 解析后的内容的编码问题
问 题 写了个爬取手机信息的爬虫,用beautifulsoup解析。查了下资料,发现beautifulsoup最后输出是以unicode编码,把爬取的图片名放入一变量后,该变量不能作为新建文件的文件名。 网站地址 http://product.pconline.com.cn/mobile/ 部分代码 import requests from bs4 import BeautifulSoup url = 'http://product.pconline.com.cn/mobile/' header = { 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0" } response = requests.get(url, headers=header) html = response.text soup = BeautifulSoup(h
606 2022-07-19
编程技术问答社区
网页爬虫 - 淘宝python爬虫
问 题 在爬天猫数据的时候出现Redirect Limits的报错,猜测是302一直跳转的问题? 然后试着模拟了cookie,发现有三个值是必须要有的 cookie2=; t=; _tb_token_= 但是苦于这三个值不知道如何获取,所以部署到线上就出错了,有高手知道如何解决吗?谢谢 解决方案 先拉一下天描的主页把cookie存下来,再去访问具体的页面 import requests session = requests.Session() session.headers = {'user-agent': '填写你的浏览器值'} session.get('店铺首页') r = session.get('具体要访问的页面') printr.text
246 2022-07-19
编程技术问答社区
网页爬虫 - python 爬虫问题,请问为什么我爬不下这个的数据?求解,网站都能打开。
问 题 import sys import time import requests import json reload(sys) sys.setdefaultencoding('utf-8') time=int(time.time()) session=requests.session() user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36' headers={'User-Agent':user_agent,'Host':'xygs.gsaic.gov.cn','Connection':'keep-alive','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'} param
176 2022-07-19
编程技术问答社区
python爬虫 - python 调用PhantomJS 做爬虫时,PhantomJS 是否会自动关闭
问 题 python 调用PhantomJS 做爬虫时,PhantomJS 是否会自动关闭? 在调试过程中打断或者在自动化跑起来后,phantomjs是自动关闭还是等着人为地去关? 解决方案 不会,selenium+phantomjs在使用的时候用完手动关闭,它有两个,一个是close,一个是quit,close关闭当前页面,quit退出浏览器
314 2022-07-19
编程技术问答社区
python爬虫 - mongodb 存入了pymongo传入的多个数据之后怎么提取有用的数据
问 题 有多条这样类似的数据 { "_id" : ObjectId("56d06f01c3666e08d0f0c844"), "http://tieba.baidu.com/p/4345287300" : "【关于更新】作者原话", "http://tieba.baidu.com/p/4328978430" : "服务。", "http://tieba.baidu.com/p/4372502982" : "『诛魂记』第331章:圣东王府", "http://tieba.baidu.com/p/4355241530" : "『诛魂记』第322章:麒麟之威", "http://tieba.baidu.com/p/4329505585" : "『诛魂记』第313章:泣血跪求", "http://tieba.baidu.com/p/4343824178" : "新年快乐啦啦啦", "http://tieba.baidu.com/p/4328603018" :
250 2022-07-19
编程技术问答社区
html - 网页源码与网页内容显示不一致,怎么办?
问 题 我想要抓取人人贷中散标投资的数据,在查看网页源码时却发现,不论第几页的源码中的散标投资数据都是第一页的数据,但是网页显示每一页的数据是不一样的。 请问如何查看不同页面真正的网页源码数据,恳请大神相助! 解决方案 Chrome -> F12 -> Network -> XHR
452 2022-07-19
编程技术问答社区
ajax - 爬虫抓取动态网页
问 题 --------------------------更新----------------------------- 谢谢大家提供的思路,想着先通过分析网页交互能不能找到方法,我又仔细看了看elements里的网页代码,发现搜索结果是通过AJAX返回一个链接的内容,即(http://search.ickey.cn/site/g...)我用python抓取这个链接可以从中得到我想要的内容。但是又碰到了另一个问题:我在浏览器里已经搜索过的器件型号,例如SC1894,python通过上述链接可以抓取到内容(浏览器直接输入这个getsup链接也可以)。要是我输入一个之前从来没搜索过的型号却没有数据返回?是不是在此之前还有什么我遗漏的东西呢 -------------------------原问题--------------------------- 最近在学习爬取动态网页,想咨询一下: 我利用以下代码抓取的网页内容和chrome F12的elements相比少掉了我想要的
172 2022-07-19
编程技术问答社区
python爬虫 - pyspider结果存入mysql中文乱码
问 题 系统环境:ubuntu16.04 + pyspider0.3.8 + python3.6 mysql的默认字符编码已经改为utf8,resultdb表的字符编码也是utf8,但是入库的数据,中文字全变成了u开头的编码…请问如何解决这一问题呢? 解决方案 这不是乱码,这是 JSON
192 2022-07-19
编程技术问答社区
python爬虫 - scrapy 爬取知乎内容,发现获取内容和原网页内容不一样啊,请问这是什么原因,主要由于什么造成的?
我是新手,最近打算学习爬虫相关知识,爬一下知乎,可是当我用scrapy shell https://www.zhihu.com/people/...,然后view(response) 发现和正常打开的网友内容不一样..主要是css文件导致的. 上截图 不知道问题是否已经描述清楚?可以在向我提问,谢谢!
144 2022-07-19
编程技术问答社区
python爬虫 - Python:网页爬取Ajax地址,结果与浏览器显示的不一致?
1.我用在火狐上获取的Ajax地址来爬取统计局的信息: 获取的地址如下; http://data.stats.gov.cn/easy...{"wdcode":"zb","valuecode":"A0201"}]&dfwds=[{"wdcode":"sj","valuecode":"199807"}] 我的理解是地址中包含了两个参数:"A0201"和"199807" 可以通过改变着两个参数来获取不同表中不同时间的信息 我在浏览器中直接输入地址 参数为"199807"时显示结果为: 参数为"199907"时显示结果为: 证明应该是行得通的 但是当我用这个地址去爬虫时爬下来的结果却不是浏览器上看到的这些数据,应该是爬取到了别的表里的数据,但是我的参数不是已经设置好了吗?在浏览器也证明参数是有效的,但是为什么就是爬不到这些数据?是不是网页缓存方面出现了问题?应该如何解决呢?劳烦大神指教
246 2022-07-19
编程技术问答社区
python - 微博爬虫抓取出现的连接问题?
使用cookie模拟登录微博后想抓取多页微博内容,只是抓取到第二页就出现错误,以前都没出现过,使用的是Request库来模拟登录和获取内容。 代码如下: 循环抓取在这里: 出现错误的代码如下: 我google过,有人说是因为requests发送http request占用太多connection资源,具体说明在 Python使用requests時遇到Failed to establish a new connection
234 2022-07-19
编程技术问答社区