BeautifulSoup和ASP.NET/C#
是否有人将Beautifutsoup与ASP.NET/C#(可能是使用Ironpython或其他)集成在一起? 是否有一个美丽的替代方案或与ASP.NET/C# 一起工作的端口 计划使用库的目的是从任何随机url中提取 可读 文本. 谢谢 解决方案 html敏捷包是一个类似的项目,但对于C#和.NET 编辑: 提取所有可读文本: document.DocumentNode.InnerText 请注意,这将返回标签的文本内容. 为了解决这个问题,您可以删除所有标签,例如: foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) sty
6 2024-04-18
编程技术问答社区
字节对象没有属性find_all
我一直在尝试过去3个小时来刮擦此并获得每个团队的排名,名称,胜利和损失. 实施此代码时: import requests from bs4 import BeautifulSoup halo = requests.get("https://www.halowaypoint.com/en-us/esports/standings") page = BeautifulSoup(halo.content, "html.parser") final = page.encode('utf-8') print(final.find_all("div")) 我一直在得到这个错误 如果有人可以帮助我,那将不胜感激! 谢谢! 解决方案 您正在调用错误变量上的方法,请使用Beautifutsoup对象 page 不是 byte string final : print(page.find_all("div")) 要获得表数据非常简单,所有数据都在DIV内
36 2024-04-05
编程技术问答社区
能否将漂亮的汤汁输出发送到浏览器?
我最近介绍了Python的新手,但是我在PHP方面拥有大部分经验. PHP在使用HTML时要做的一件事(毫不奇怪)是回声语句将HTML输出到浏览器中.这使您可以使用内置的浏览器开发工具(例如Firebug).当使用像Beautiful Soup之类的工具时,有没有办法将输出Python/Django从命令行重新从命令行转换为浏览器?理想情况下,代码的每次运行都会打开一个新的浏览器选项卡. 解决方案 如果您正在使用django,则可以渲染 BeautifulSoup的输出在视图中: from django.http import HttpResponse from django.template import Context, Template def my_view(request): # some logic template = Template(data) context = Context({}) # you can provide a
6 2024-04-04
编程技术问答社区
难以使用Webscraping(使用Beautifulsoup或Selenium)使用物种和应变名称提取GenBank登录号
我需要使用BeautifulSoup和/或Selenium从网页中提取特定信息.我正在尝试从网页中提取与特定生物有关的信息,但我遇到困难. 我尝试了这个 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # Define the search term search_term = "Streptomyces anthocyanicus JCM 5058" # Open a Chrome browser driver = webdriver.Chrome() # Construct the search URL for assembly
18 2024-03-31
编程技术问答社区
存储海量数据的最智能方式
我想通过REST请求访问Flickr API并下载大约的元数据. 1米照片(也许更多). 我想将它们存储在.CSV文件中,然后将它们导入到MySQL数据库中以进行进一步处理 我想知道处理此类大数据的最聪明方法是什么.我不确定的是如何将它们存储在Python中,将它们传递到.CSV文件并从那里转到DB.那是一个大问题. 现在正在发生的事情(有关我的理解,请参见下面的代码)是为每个photo创建dictionary(每个称为URL 250).这样,我将最终得到与照片一样多的字典(1 mio或更多).那可能吗? 所有这些dictionaries将附加到列表中.我可以将许多字典附加到列表中吗?我想将字典附加到列表的唯一原因是因为从列表中,每行列表保存更容易到.csv文件. 您应该知道的是,我是编程,python或以往任何时候的完整初学者.我的职业是完全不同的职业,我才开始学习.如果您需要进一步的解释,请告诉我! #accessing website list = [] u
4 2024-03-30
编程技术问答社区
搜索时,网络搜刮的网址没有变化
我正在尝试Webcrape import requests from bs4 import BeautifulSoup from bs4 import BeautifulSoup from bs4.element import Comment import urllib.request from urllib.request import Request, urlopen def tag_visible(element): if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']: return False if isinstance(element, Comment): return False return True def text_from_html(body): soup = BeautifulS
4 2024-03-30
编程技术问答社区
美丽的汤:提取标签之间的所有数据
Insurtech .....Some data Biometrics 我尝试了: html_tags = soup.find_all('em') 对于我的范围(len(html_tags)-1): start_tag = html_tag [i] end_tag = html_tag [i+1] _tag =(soup_str.split(str(strat_tag))))[1] .split(str(end_tag))[0] soup1 = beautifulsoup(_tag,'html.parser') 我想要从第一个p->strong->em到下一个p->strong->em tag的所有数据.这是我的示例数据.预先感谢** 解决方案 s = '''
6 2024-03-30
编程技术问答社区
美丽汤。是否可以通过其值来获得标签名称和属性名称?
我正在尝试刮擦大量网站.他们所有人都有一个特定的桌子和一些更改.例如:如果您检查它具有属性值href="#icaec13e17ee4432d9971f5e4b3d32ba1_265",并指标签 ..表示.因此,我只有属性值icaec13e17ee4432d9971f5e4b3d32ba1_265.标签名称和属性名称各不相同.如何使它们具有属性值? 解决方案 您可以定义一个过滤功能,该函数检查是否有一个HTML标签,其属性值等于value: def your_filter(tag, value): for key in tag.attrs.keys(): if tag[key] == value: return True return False # alternat
4 2024-03-30
编程技术问答社区
Javascript变量与html代码的regex电子邮件匹配
此python脚本不努力输出此情况的电子邮件地址example@email.com. 这是我以前的帖子. 我如何使用美丽的小组或在网站上使用Slimit来从JavaScript变量输出电子邮件地址 #!/usr/bin/env python from bs4 import BeautifulSoup import re soup = ''' function something() { var ptr; ptr = ""; ptr += " "; ptr += "
12 2024-03-30
编程技术问答社区
无法在Request Python中捕获记录名称、价格、评级和图像
打印产品名称,产品尺寸价格和评级时出现例外 这是我想从中提取详细信息的链接. import requests import time from requests.models import Response params = (( 'url','/continental-80-shoes/G27707.html'), ('sitePath', 'us'),) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36' } response = requests.get('https://www.adidas.com/api/metadata/pdp',params=params,headers=headers) for item in res
4 2024-03-30
编程技术问答社区
用BeautifulSoup清洁URL
我的脚本 import BeautifulSoup as bs from BeautifulSoup import BeautifulSoup url_list = sys.argv[1] urls = [tag['href'] for tag in BeautifulSoup(open(url_list)).findAll('a')] 返回 [u'http://www.youtube.com/watch?v=Gg81zi0pheg', u'http://www.youtube.com/watch?v=pP9VjGmmhfo', u'http://www.youtube.com/watch?v=yTA1u6D1fyE', u'http://www.youtube.com/watch?v=4v8HvQf4fgE', u'http://www.youtube.com/watch?v=e9zG20wQQ1U', u'http://www.youtube.com/wa
2 2024-03-30
编程技术问答社区
用Python从动态网络数据库中抓取数据
我是Python的新手,目前正在试图弄清楚如何从此网络刮擦数据: https://https:///www.entsoe.eu/db-query/consumption/mhlv-a-specific-country-for-a特定 - 特定 我不确定我是使用砂纸,美丽的套还是硒.需要针对2012 - 2014年每个月和一天的特定国家/地区的数据. 任何帮助都非常感谢. 解决方案 您可以使用 requests (用于维护A Web-scraping会话) + ast.literal_eval() 在JS列表中列出python列表: from ast import literal_eval import re from bs4 import BeautifulSoup import requests url = "https://www.entsoe.eu/db-query/consumption/mhlv-a-specific-country-for
12 2024-03-30
编程技术问答社区
BeautifulSoup表格数据提取-数据不显示
-2使这30个字符是基于事物IDFK 的一些顶级kek信息 解决方案 当您自己发现时,该元素是不是在页面源中存在的,并且通过AJAX请求动态加载. urllib模块(或requests)返回页面源,这就是为什么您将无法直接获得该值. 转到Developer Tools> Network>> XHR并刷新页面.您会看到对https://ethplorer.io/service/service.php?data=0x8b353021189375591723e7384262f45709a3c3dc 此URL以JSON的形式返回数据.如果您看一下,可以使用requests模块和内置.json()方法从中获得Holders数字. import requests r = requests.get('https://ethplorer.io/service/service.php?data=0x8b353021189375591723e7384262f45709a3c3dc'
6 2024-03-30
编程技术问答社区
我怎样才能从行中获得href
我做一些电报机器人,我需要从HTML获得链接. 我想带HREF参加此网站的比赛我以前的代码是 elif message.text == "Matches": url_news = "https://www.hltv.org/matches" response = requests.get(url_news) soup = BeautifulSoup(response.content, "html.parser") match_info = [] match_items = soup.find("div", class_="upcomingMatchesSection") print(match_items) for item in match_items: match_info.append({ "
8 2024-03-30
编程技术问答社区
使用 Python 浏览动态网页
我试图刮擦动态生成的网页 import requests from bs4 import BeautifulSoup` r = requests.get("https://www.governmentjobs.com/careers/capecoral?page=1") soup = BeautifulSoup(r.content) n_jobs = soup.select("#number-found-items")[0].text.strip() print(n_jobs) 它总是返回找到0个作业 解决方案 由于URL是动态的,因此您可以使用BS4使用Selenium来获取所需的数据.这是一个示例.请,只需运行代码即可. import time from bs4 import BeautifulSoup from selenium import webdriver from webdriver_manager.chrome import ChromeDriverM
8 2024-03-30
编程技术问答社区
美丽的刮擦结果未显示
我正在与美丽的小组一起玩,以从网站上刮擦数据.因此,我决定在有史以来100部最伟大的电影中刮擦Empireonline的网站. 这是网页的链接: 我从网站进口了HTML,还可以在上面使用美丽的汤.但是,当我想获取100个电影唱片的列表时,我得到了一个空列表. 这是我在下面写的代码. import requests from bs4 import BeautifulSoup URL = "https://www.empireonline.com/movies/features/best-movies-2/" response = requests.get(URL) top100_webpage = response.text soup = BeautifulSoup(top100_webpage, "html.parser") movies = soup.find_all(name="h3", class_="jsx-4245974604") print(movies)
86 2024-03-30
编程技术问答社区
如何从网站上抓取图片并显示在html文件上?
我从 https://www.open2study.com/courses 我得到了所有图像源,但不知道如何在html文件上显示带有2列的图像(而不是链接)(而不是链接). import urllib from bs4 import BeautifulSoup titles = [] images = [] r = urllib.urlopen('https://www.open2study.com/courses').read() soup = BeautifulSoup(r) for i in soup.find_all('div', {'class': "courses_adblock_rollover"}): titles.append(i.h2.text) for i in soup.find_all( 'img', { 'class': "image-style-course-logo-subjects-block"}): i
2 2024-03-30
编程技术问答社区
如何用python beautiful soup下载一个类里面的所有href(pdf)?
我有大约900页,每个页面包含10个按钮(每个按钮都有PDF).我想下载所有PDF - 程序应该浏览到所有页面,然后一一下载PDF. 仅搜索.pdf的代码,但我的href没有.pdf page_no(1至900). https://bidplus.gem.gov.in/bidlists?bidlists&page_no=3 这是网站,以下是链接: 出价号:GEM/2021/B/1804626 import os import requests from urllib.parse import urljoin from bs4 import BeautifulSoup url = "https://bidplus.gem.gov.in/bidlists" #If there is no such folder, the script will create one automatically folder_location = r'C:\webscraping'
4 2024-03-30
编程技术问答社区