无头浏览器和刮擦 - 解决方案[英] Headless Browser and scraping - solutions

问题描述

我正在尝试为浏览器自动测试套件和能够刮擦的无头浏览器平台提供可能的解决方案.


浏览器测试/刮擦:

  • selenium - polyglot 浏览器自动化中的旗舰,python,python,ruby,ruby,javascript,javascript,javascript,bindings C#,Haskell等,用于Firefox(作为扩展)的IDE,用于更快的测试部署.可以充当服务器并具有大量功能.

javascript

  • phantomjs - javascript ,无头测试,带有屏幕截图和自动化,使用 webkit .截至1.8版Selenium的Webdriver API,您可以使用任何WebDriver绑定,并且测试将与Selenium
  • 兼容
  • slimerjs - 与phantomjs相似,使用 gecko (firefox)而不是 webkit
  • casperjs - javascript ,建立在phantomjs和slimerjs上,具有特殊功能
  • ghost驱动程序 - javascript 协议 phantomjs .
  • new phantomcss - CSS回归测试.一个用于自动化视觉回归测试测试和 cesemble.js .
  • new webdrivercss - webdriver.io 用于自动化视觉回归测试
  • new phantomflow - 描述和描述和描述和描述可视化用户流过测试. Web用户界面测试的实验方法.
  • new triflejs - 将phantomjs api移至使用Internet Explorer引擎.
  • new casperjs iide (商业)

node.js

  • node-phantom - 弥合 phantomjs 和 node.js
  • webdriverjs - selenium webdriver biage nonode.js by selenium teak y selenium tea/li>
  • wd.js - webdriver/selenium 2
  • 的节点模块
  • yiewd -wd.js包装器使用最新的和谐生成器!用产量
  • 摆脱回调金字塔
  • zombiejs - 使用 node.js zombiejs - 疯狂快速,无头的全堆栈测试>
  • nightwatchjs - 基于Node JS的测试解决方案,使用Selenium Web Driver
  • chimera chimera:可以做Phantomjs所做的一切,但是在完整的JS环境中
  • dalek.js - 通过selenium webdriver
  • 与JavaScript一起自动交叉浏览器测试
  • webdriver.io - 更好地实现WebDriver绑定使用预先定义的50+操作
  • 噩梦 - 带有高级API的电子桥.
  • jsdom - 针对网络刮擦量身定制.在Node.js中实现的非常轻巧的DOM,它支持JavaScript的页面.
  • new puppeteer - 节点库它提供了控制铬或铬的高级API. Puppeteer默认情况下无头运行.

网络刮擦/采矿

  • scrapy - python ,主要是scraper/scraper/miner-快速,记录良好,并且可以与 django Dynamic Sc​​raper 用于不错的矿业部署,或href =" http://scrapinghub.com/scrapy-cloud.html" rel =" nofollow noreferrer"> scrapy cloud 用于paas(server-server-less)部署,在终端或服务器独立的proces proces proces,可以与芹菜一起使用,构建在 twisted
  • 的顶部
  • snailer - node.js 模块,尚未测试. li>
  • node-crawler - node.js node.js 模块,尚未测试.

在线工具

自动化的Android工具


相关链接和资源

问题:

  • 对phanthomjs/casperjs模块的任何纯node.js解决方案或nodejs实际上有效且已记录了吗?

答案:嵌合体似乎朝那个方向前进,结帐 chimera

  • 其他能够比硒更轻松的JavaScript注入的解决方案?

  • 您知道任何纯 Ruby 解决方案吗?

答案:结帐由RJK与Ruby基于Ruby的解决方案创建的列表

  • 您知道任何相关的技术或解决方案吗?

随意编辑此问题并根据需要添加内容!谢谢您的贡献!

推荐答案

如果Ruby是您的事,您也可以尝试:

另外,Nokogiri Gem可用于刮擦:

有一本专门的书,讲述了如何利用Nokogiri进行Packt Publishing

刮擦

其他推荐答案

http://triflejs.org/就像phantomjs,但基于IE

其他推荐答案

一种基于JS的硒是 dalek.js.js .它不仅旨在进行自动前端测试,还可以使用它进行屏幕截图.它具有所有重要浏览器的网络驱动程序.不幸的是,这些网络驱动程序似乎值得改进(只是对Firefox说"越野车").

本文地址:https://www.itbaoku.cn/post/1739809.html