我应该怎样做才能启用cookie并在这个网址上使用scrapy?
我正在使用此url https://www.walmart.ca/en/clothing-shoes-accessories/men/mens/mens/mens-tops/n-2566 +11 我尝试使用URL并在外壳中打开它,但是它有430个错误,因此我在标题中添加了一些设置: scrapy shell -s cookies_enabled = 1 -s user_agent ='mozilla/5.0(x11; ubuntu; ubuntu; linux x86_64; rv:46.0​​)gecko/gecko/20100101 firefox/firefox/46.0' .男装/n-2566+11 " 它得到了" 200"页面,但是一旦我使用视图(响应),它就将我引向一个页面,说: 对不起! 您的网络浏览器不接受cookie. 这是日志的屏幕截图: 解决方案 您应该有 COOKIES_ENABLED = True 在您的settings.py
10 2023-03-31
编程技术问答社区
如何防止在搜刮亚马逊时被列入黑名单
我尝试通过 Scrapy 抓取 Amazon.但我有这个错误 DEBUG: Retrying (failed 1 times): 503 Service Unavailable 我认为这是因为 = 亚马逊非常擅长检测机器人.我怎样才能防止这种情况? 我在每次请求前都使用了 time.sleep(6). 我不想使用他们的 API. 我试过使用 Tor 和 polipo 解决方案 您必须对 Amazon 非常小心,并遵守与网络抓取相关的 Amazon 使用条款和政策. 亚马逊非常擅长禁止机器人的 IP.您必须调整 DOWNLOAD_DELAY和 CONCURR
116 2022-10-08
编程技术问答社区
Scrapy和Selenium:只报废两个页面
我要爬一个网站,有10多个页面 每个页面有 10 个链接,蜘蛛会获取链接def parse(): 并转到链接以抓取我想要的另一个数据 def parse_detail(): 请指导我如何编写只抓取两个页面而不是所有页面 THX这是我的代码,它只抓取一页,然后蜘蛛关闭了 def __init__(self): self.driver = webdriver.Firefox() dispatcher.connect(self.spider_closed, signals.spider_closed) def parse(self, response): self.driver.implicitly_wait(20) self.driver.get(response.url) sites = self.driver.find_elements_by_css_selector("") for site in sites:
188 2022-08-15
编程技术问答社区
从Python脚本向Scrapy Spider传递参数
我只提到在发布这个问题之前提到的一些问题(我目前没有与我在发布此问题之前所提到的所有问题的链接) - : 问题1 问题2 我能够完全运行此代码,如果我没有通过参数并从bbspider类询问输入的输入(没有主函数 - 名称下方="dmoz"线),或将它们提供为预定义(即静态)参数. 我的代码是 . 我基本上尝试从python脚本执行剪切蜘蛛,而无需任何其他文件(甚至设置文件).这就是为什么,我也在代码本身内指定了设置. 这是我正在执行此脚本的输出 - : http://bigbasket.com/ps/?q=apple 2015-06-26 12:12:34 [scrapy] INFO: Scrapy 1.0.0 started (bot: scrapybot) 2015-06-26 12:12:34 [scrapy] INFO: Optional features available: ssl, http11 2015-06-26 12:12:34
11440 2022-07-19
编程技术问答社区