java网络爬虫可以爬什么数据（免费分享java网络爬虫实战技巧）

来源：国外服务器时间：2021-07-10 11:27:26 在您之前已被浏览：1 次

导读:目前正在解读《java网络爬虫可以爬什么数据（免费分享java网络爬虫实战技巧）》的相关信息，《java网络爬虫可以爬什么数据（免费分享java网络爬虫实战技巧）》是由用户自行发布的知识型内容！下面请观看由（国外主机 - www.2bp.net）用户发布《java网络爬虫可以爬什么数据（免费分享java网络爬虫实战技巧）》的详细说明。

文章目录

前言
- 1.引入依赖：
- 2.代码实战：
- 3.代理说明：
总结

前言

现在一提到爬虫都是python，类库比较丰富，如果不会java的同学，去学习python爬虫比较靠谱，但是那是不是代表java就不能爬虫呢？肯定不是的，事实上一些场景下，java爬虫使用起来更方便，更好用。

1.引入依赖：

java当中爬虫使用的是jsoup的类库，jsoup提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，让你请求网页后可以对网页进行dom操作达到爬虫的目的。

<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.3</version> </dependency>

2.代码实战：

案例一：
爬虫股票的分析结果：

StockShow stockShow = new StockShow(); String doUrl = String.format("url", stockCode); Document doc = null; try { doc = Jsoup.connect(doUrl).get(); Elements stockName = doc.select("div[class=stockname]"); Elements stockTotal = doc.select("div[class=stocktotal]"); Elements shortStr = doc.select("li[class=short]"); Elements midStr = doc.select("li[class=mid]"); Elements longStr = doc.select("li[class=long]"); Elements stockType = doc.select("div[class=value_bar]").select("span[class=cur]"); stockShow.setStockName(stockName.get(0).text()); stockShow.setStockTotal(stockTotal.get(0).text().split("：")[1]); stockShow.setShortStr(shortStr.get(0).text().split("：")[1]); stockShow.setMidStr(midStr.get(0).text().split("：")[1]); stockShow.setLongStr(longStr.get(0).text().split("：")[1]); stockShow.setStockType(stockType.get(0).text()); } catch (IOException e) { log.error("findStockAnalysisByStockCode,{}",e.getMessage()); }

案例2：
抓取学校的信息：

Campus campus = new Campus(); String doUrl = String.format(url, campusId); Document doc = null; if (StringUtils.isEmpty(arg.getIp())){ arg.setIp("transfer.moguproxy.com"); arg.setPort(9001); } try { HttpsUtil.trustEveryone(); Random r = new Random(); int random = r.nextInt(48); Connection conn = Jsoup.connect(doUrl).proxy(arg.getIp(), arg.getPort());//.timeout(10000) conn .header("Proxy-Authorization", "Basic "+"V1Vxb2syU29MbUJWTVY2RjpMTHN5TDM0c3ByQlFRM3hw").userAgent(ua[random]).timeout(30000); doc = conn.get(); Elements names = doc.select("a[class=btn btn-xs btn-primary]"); Elements type = doc.select("a[class=campus_type_fix_b link_now_active]");// doc.select("ol[class=breadcrumb]").select("li").get(4).text() Elements campusName = doc.select("ol[class=breadcrumb]").select("li"); Elements addressAndTel = doc.select("div[class=page-header]").select("p");

3.代理说明：

案例一里面并没有使用代理ip，可以直接抓取。但是通常情况下，我们抓取的网站会设置反爬虫，封ip等，所以我们要设置代理ip，上线的案例2中使用的是蘑菇代理的代理隧道进行的代理设置，用起来还不错，如果确实需要可以进行购买。

总结

当然我上面写的2个案例只是举例子，其实dom的操作还有很多种的方法，大家如果想要进行爬虫，dom的基本操作肯定是需要的，一些基本的html知识是需要的。如果你想跟我有更多的交流，关注我的公众号：Java时间屋进行交流。

提醒：《java网络爬虫可以爬什么数据（免费分享java网络爬虫实战技巧）》最后刷新时间 2025-03-21 11:13:35，本站为公益型个人网站，仅供个人学习和记录信息，不进行任何商业性质的盈利。如果内容、图片资源失效或内容涉及侵权，请反馈至，我们会及时处理。本站只保证内容的可读性，无法保证真实性，《java网络爬虫可以爬什么数据（免费分享java网络爬虫实战技巧）》该内容的真实性请自行鉴别。