在Java中创建.CSV文件时,日期格式受到干扰
我正在创建一个Web刮板,然后将数据存储在.CSV文件中. 我的程序运行良好,但是,从我检索数据的网站上有一个以(Month Day, Year)格式的日期存在问题.因此,当我将数据保存在.csv文件中时,它将将所有数据都被操纵的另一列视为另一列.我实际上想将这些数据存储到(MM-MON-YYYY)中,并将其存储有效性日期存储在一列中.我在下面发布我的代码.请帮助我.谢谢! P.S:很抱歉没有在原始帖子中写我想要的格式. package com.mufapscraping; //import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.util.ArrayList; //import java.util.Collections; import java.util.Iterator; //import java.util.List; im
0 2023-12-01
编程技术问答社区
在简单的Java Soup应用程序上无法找到或加载主类
我进行了此简单程序的汇编,我找到了在这里 package com.stackoverflow.q2835505; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test { public static void main(String[] args) throws Exception { String url = "https://stackoverflow.com/questions/2835505"; Document document = Jsoup.connect(url).get(); String question = document.select("#question .post-text").text();
0 2023-12-01
编程技术问答社区
关于爬行网站内容的建议
我试图使用 jsoup 和Java组合使用但是,这是交易,当我在浏览器中打开网站时,我会得到HTML(所有元素标签). JavaScript部分测试时,它可以正常工作(我应该用来提取正确的数据). 但是,当我使用JSOUP进行解析/获得(来自Java类)时,仅下载了初始网站进行解析.这意味着网站上有一些动态的部分,我想获取这些数据,但是由于它们呈现帖子,因此在网站上异步,我无法使用JSOUP捕获它. 有人知道解决这个问题吗?我使用正确的工具集吗?我有经验更丰富的人,我申请您的建议. 解决方案 您需要在网站爬行是否需要此列表之前检查所有内容: 登录/密码的身份验证 HTTP标头上的某种会话验证 cookies 加载所有内容的某种时间延迟(在JavaScript库,CSS和异步数据上大量的网站可能需要此). 特定的用户代理浏览器 如果您以例如公司网络安全配置为例,则代理密码. 如果需要此列表上的任何内容,则可以管理该数据提供jsoup.connect
0 2023-12-01
编程技术问答社区
清理网站
我正在尝试编写一个警报系统来定期刮擦董事会网站,以查找有关我产品的任何投诉.我正在使用JSOUP.以下是给我错误的代码片段. doc = Jsoup.connect(finalUrl).timeout(10 * 1000).get(); 这给了我错误 java.net.SocketException: Unexpected end of file from server 当我在浏览器中复制粘贴相同的粘附字符串时,它可以正常工作.然后,我尝试了简单的URL连接 BufferedReader br = null; try { URL a = new URL(finalUrl); URLConnection conn = a.openConnection(); // open the stream and put it in
0 2023-12-01
编程技术问答社区
如何通过安卓系统提取表格数据
我正在尝试从网页上的表中提取数据.到目前为止,我已经能够从标题标签中提取数据 - 但没有表数据.如何使用下面显示的来源来实现这一目标? 来源: public class MainActivity extends Activity { TextView tv; final String URL="http://example.com"; @Override public void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main); tv = (TextView) findViewById(R.id.TextView01); new MyTask().execute(URL); } private class MyTask extends AsyncTask
0 2023-12-01
编程技术问答社区
JSoup从财务网站提取表格为csv
我的问题是:我想从使用JSOUP从网站下载的HTML文件中提取表,并将其返回为CSV文件. (数据是历史股票价格). 这是网站:是德语,所以我希望这没问题.我想用所有数字提取表. 到目前为止,我已经有以下代码: Document doc = Jsoup.connect("http://www.finanzen.ch/kurse/historisch/Actelion/VIRTX/12.6.2013_17.9.2013").get(); for (Element table : doc.select("table.Historische Kurse Actelion Ltd.*")) { for (Element row : table.select("tr")) { Elements tds = row.select("td"); if (tds.size() > 6) {
0 2023-12-01
编程技术问答社区
JSOUP向表单提交帖子
我目前通过为网站申请申请来攻读我的编程技能.现在,我可以登录应用程序的网页.我现在的重点是让用户更改他/她的个人资料槽,并将其保存到网站上.问题是网站上什么都没发生,我没有任何错误代码或任何内容. 当我单击"保存"按钮以保存网站上的最近更改时,我会收到以下标题消息(通过使用Google Chrome F12->网络): firstname: John lastname:Random streetAddress:Woodstreet 12 careOfAddress: zipCode:417 22 city:Woods country:US phone:111122000 languageForeignKey:4FCB3B38F96800010003004E invoiceDeliveryMethod:email preferredMessageMethod:sms save_button: utf8:✓ authenticity_token:+RadnomKey4013412
0 2023-12-01
编程技术问答社区
登录成功后,没有给我访问其他页面所需的cookies(使用Jsoup)。
我正在尝试通过编程接口(使用JSOUP使用Java)登录网站并保存响应cookie,以便我可以将其传递给以下请求.但是我登录后的响应标头中没有cookie :( 我确实成功地登录了,但是响应标头中没有cookie.为了调试目的,我从Chrome浏览器登录并使用Chrome网络选项卡检查了响应标头,然后单击"登录"按钮后,它成功地将我登录到索引页面,但在响应标头中没有任何cookie.我知道我需要cookie访问需要登录的其他页面,因为他们的请求标头有一个称为" session ..."的cookie,而且我从未在响应标题中收到过该cookie. 有人请帮助我在这里确定问题吗?我已将代码发布到下面的登录.这是网站www.lib.uts.edu.au Connection.Reponse res = Jsoup.connect(url) .data("username", id , "password", pa
0 2023-12-01
编程技术问答社区
JSoup javax.net.ssl。SSLHandshakeException:未找到主题替代DNS名称匹配
我正在使用我用这一行进行提取: Document doc = Jsoup.connect(urlString).get(); 第一次运行我程序的每个实例时,代码正常工作.如果我再提取,我最终会收到以下错误: javax.net.ssl.SSLHandshakeException: No subject alternative DNS name matching found. at java.base/sun.security.ssl.Alert.createSSLException(Alert.java:128) at java.base/sun.security.ssl.TransportContext.fatal(TransportContext.java:321) at java.base/sun.security.ssl.TransportContext.fatal(TransportContext.ja
0 2023-12-01
编程技术问答社区
为什么HTML代码在使用Jsoup解析站点时与使用浏览器解析站点时不同
我在网站上我正在使用以下代码进行尝试,但是您无法指出错误在哪里? final Document page = Jsoup .connect("http://d.flashscore.com/x/feed/t_4_200_G2Op923t_1_en_1") .cookie("_ga","GA1.2.47011772.1485726144") .referrer("http://d.flashscore.com/x/feed/proxy-local") .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36") .header("X-Fsign", "SW9D1eZo") .header("X-GeoIP", "1") .heade
0 2023-12-01
编程技术问答社区
用Java下载一个网站的所有图片的最佳方法?目前得到一个403状态错误
我正在尝试下载网站上的所有图像,但是我不确定这是最好的方法,因为我尝试设置用户代理和推荐人无济于事. 403状态错误仅在尝试从SRC页面下载图像时发生,而将所有图像在一个地方都没有显示任何错误并将SRC发送到图像的页面.我不确定在不访问SRC页面的情况下是否有办法下载图像?或一种更好地做到这一点的方法. 这是我到目前为止的代码. private static void getPages() throws IOException { Document doc = Jsoup.connect("https://manganelo.com/chapter/read_bleach_manga_online_for_free2/chapter_686") .get(); Elements media = doc.getElementsByTag("img"); System.out.println(media)
0 2023-12-01
编程技术问答社区
位置0处的意外字符(B)
我想从此URL中刮擦数据:Date + Price + Price HT+ Taxe),然后将它们保存到Excel文件中.我使用了此代码: import java.io.File; import java.io.IOException; import java.net.MalformedURLException; import java.util.Iterator; import java.util.Map; import java.util.TreeMap; import org.json.simple.JSONObject; import org.json.simple.parser.JSONParser; import org.json.simple.parser.ParseException; import org.jsoup.Jsoup; import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeExcepti
0 2023-12-01
编程技术问答社区
与我的浏览器相比,Jsoup给出了一个不同的HTML文档
我确保使用浏览器的用户代理,并且仍然提供不同的HTML.我还尝试使用jsoup.parse(url,int)而不是jsoup.connect(string).这两个尝试: Document doc = Jsoup.connect("https://www.bulq.com/lots/search/?category=Consumer%20Electronics&condition%5B%5D=Brand%20New") .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6)AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.1.1Safari/605.1.15") .get(); 和 URL mainUrl = new URL("https://www.bulq.com/lots/search/category=Consumer%20Electronics&
0 2023-12-01
编程技术问答社区
使用Jsoup获取web元素
我正在尝试使用Jsoup从一个名为Morningstar的网站获取库存数据.我看过其他论坛,无法找出问题所在. 我正在尝试对数据进行更高级的报废,但我似乎甚至无法获得价格.我要么返回零,要么什么都没有. 我知道其他语言和API,但我想使用Jsoup,因为它似乎非常有能力. 这是我到目前为止所拥有的: public class Scrape { public static void main(String[] args){ String URL = "http://www.morningstar.com/stocks/xnas/aapl/quote.html"; Document d = new Document(URL); try{ d = Jsoup.connect(URL).get(); }catch(IOException e){ e.pr
0 2023-12-01
编程技术问答社区
如何加载HTML Jsoup的全部内容
我试图使用JSOUP下载HTML表行,但仅分析部分HTML内容.我也尝试使用以下代码来加载完整的HTML内容,但不起作用.任何建议将不胜感激. public class AmfiDaily { public static void main(String[] args) { AmfiDaily amfiDaily = new AmfiDaily(); amfiDaily.extractAmfiTable("https://www.amfiindia.com/intermediary/other-data/transaction-in-debt-and-money-market-securities"); } public void extractAmfiTable(String url){ Document doc; try { FileWriter writer
0 2023-12-01
编程技术问答社区
点击按钮后解析HTML表格,使其可见
我正在制作一个Java程序,该程序启动时需要从网站读取数据. 所讨论的网站是: 要访问所需的表,在页面底部附近有一个按钮,标题为"负载原始数据".单击时,将显示我需要的信息的表. 尽管我以前从未做过它,但我相信我可以很容易地学习如何解析桌子并将其放入一些阵列.不过,我无法弄清楚的是如何让程序"单击"该按钮以使表显示.我该怎么做? 编辑:这是我现在正在使用的.目前,这绝对没有打印,我怀疑这是因为jsoup没有看到表,因为"加载原始数据"按钮尚未被"单击". for (Element table : doc.select("table[id=chart_table]")) { for (Element row : table.select("tr:gt(2)")) { Elements tds = row.select("td:not([rowspan])"); for (Element element : tds) {
0 2023-12-01
编程技术问答社区
Jsoup无法从网页中获取完整内容(没有错误/异常,但遗漏了一些内容)
我正在尝试使用jsoup从以下页面获取内容: - 销售 ,但它不会以id =结果获取DIV,即使我从浏览器打开相同的链接时可以看到它.请帮助我 Java代码: Connection connection = Jsoup.connect("http://www.exchangeandmart.co.uk/used-cars-for-sale"); Document doc = connection.get(); System.out.println(doc.getElementById("results")); // prints null 注意:下载页面时没有例外或错误.页面中只缺少某些内容.我用System.out.println(doc);在控制台上打印了整个文档,它与我在浏览器中查看的页面完全不同. 解决方案 Document doc = Jsoup.connect("http://www.exchangeandmart.co.uk/used-c
0 2023-12-01
编程技术问答社区
正在获取和部分页面
我正在尝试刮擦招标网站的内容,但无法获取网站的完整页面.我在Xulrunner上使用撬棍首先获取页面(因为Ajax以懒惰的方式加载某些元素),然后从文件中刮擦. 但是在Bidrivals网站的主页上,即使本地文件形成良好,这也会失败. JSOUP似乎只是以HTML代码中途的" ..."字符结尾. 如果以前有人遇到过,请提供帮助. 以下代码为[此链接]. File f = new File(projectLocation+logFile+"bidrivalsHome"); try { f.createNewFile(); log.warn("Trying to fetch mainpage through a console."); WinRedirect.redirect(projectLocation+"Curl.exe -s --data \"url="+website+"&delay="+timeDelay+"\" ht
0 2023-12-01
编程技术问答社区
Java解析JS生成的html元素
我非常熟悉HTML与Java解析的新手,我以前曾使用JSOUP来解析简单的HTML,而无需动态变化,但是我现在需要解析具有动态元素的网页.这是我试图使用先验分析网页的代码,但是无法找到元素,因为它们在加载页面后添加了这些元素.情况是一个问题,是一个使用Google地图和标记上的页面,我正在尝试刮擦这些标记的图像. public static void main(String[] args) { try { doc = Jsoup.connect("https://pokevision.com") .userAgent( "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36") .get(); } catch (I
0 2023-12-01
编程技术问答社区