用Python中的PhantomJS向下滚动到无限的页面底部[英] Scroll down to bottom of infinite page with PhantomJS in Python

问题描述

我已经成功地让 Python 与 Selenium 和 PhantomJS 重新加载动态加载的无限滚动页面,如下例所示.但是如何修改它,而不是手动设置重新加载次数,程序在到达最低点时停止?

reloads = 100000 #set the number of times to reload
pause = 0 #initial time interval between reloads
driver = webdriver.PhantomJS()

# Load Twitter page and click to view all results
driver.get(url)
driver.find_element_by_link_text("All").click()

# Keep reloading and pausing to reach the bottom
for _ in range(reloads):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(pause)

text_file.write(driver.page_source.encode("utf-8"))
text_file.close()

推荐答案

可以检查每一步滚动是否有任何动作.

lastHeight = driver.execute_script("return document.body.scrollHeight")
while True:
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(pause)
    newHeight = driver.execute_script("return document.body.scrollHeight")
    if newHeight == lastHeight:
        break
    lastHeight = newHeight

这使用了一个不好的静态等待量,因为您不想在它更快完成时等待不必要的等待,并且您不希望在动态加载由于某种原因太慢时脚本过早退出.

由于页面通常会在列表中加载更多元素,因此您可以在加载前检查列表的长度,然后等待下一个元素加载完毕.

对于 twitter,这可能如下所示:

while True:
    elemsCount = browser.execute_script("return document.querySelectorAll('.stream-items > li.stream-item').length")

    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    try:
        WebDriverWait(browser, 20).until(
            lambda x: x.find_element_by_xpath(
                "//*[contains(@class,'stream-items')]/li[contains(@class,'stream-item')]["+str(elemsCount+1)+"]"))
    except:
        break

我使用了 XPath 表达式,因为 PhantomJS 1.x 在使用 :nth-child() CSS 选择器时有时会出现错误.

完整版供参考.

本文地址:https://www.itbaoku.cn/post/1739815.html