- 浏览: 469008 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (288)
- Java (70)
- Web (11)
- JSP (18)
- JavaScript (25)
- JQuery (22)
- HTML (7)
- CSS (2)
- Struts2.X (6)
- Ibatis/Mybatis (6)
- Hibernate (4)
- Spring (8)
- Oracle (23)
- MySql (9)
- Apache (1)
- Tomcat (9)
- Weblogic (2)
- Maven (6)
- Flex (0)
- Junit (2)
- Test (1)
- SVN (6)
- GIS (3)
- Android (1)
- Eclipse (10)
- Thread (3)
- JVM (1)
- Cache (2)
- Design pattern (1)
- Nosql (3)
- Linux (10)
- Hudson/Jenkins (1)
- MQ (1)
- Network (2)
- 生活工作 (5)
- 架构师之路 (6)
- 知识精华荟萃 (9)
- Interview (13)
最新评论
-
276847139:
方法很有效,我的问题就在是在父项目的.classpa ...
手动添加Maven Dependencies -
coosummer:
推荐使用http://buttoncssgenerator.c ...
button css 样式 -
lqz2012:
DBFFileReader是外部框架里面的吧,不是JDK的。楼 ...
java读取dbf文件 -
xudongcsharp:
lx13345 写道java.lang.NoSuchMetho ...
Spring常用错误 -
lx13345:
jar是hibernate3.3GA,ehcache-1.5. ...
Spring常用错误
httpclient4:http://hc.apache.org/
jsoup:http://www.open-open.com/jsoup
小程序的母的是爬取天气查询页面上海当天的天气。
爬取的目标页面是http://www.weather.com.cn/weather/101020100.shtml。
程序爬取的结果:
2012-12-06白天 晴 高温 9℃ 西北风 3-4级 夜间 晴 低温 5℃ 南风 3-4级
jsoup:http://www.open-open.com/jsoup
小程序的母的是爬取天气查询页面上海当天的天气。
爬取的目标页面是http://www.weather.com.cn/weather/101020100.shtml。
程序爬取的结果:
2012-12-06白天 晴 高温 9℃ 西北风 3-4级 夜间 晴 低温 5℃ 南风 3-4级
public static String getHtml() { String html = ""; DefaultHttpClient httpclient = new DefaultHttpClient(); // 访问的目标站点,端口和协议 HttpHost targetHost = new HttpHost("www.weather.com.cn", 80, "http"); // 代理的设置 HttpHost proxy = new HttpHost("web-proxy.***.com", 8080); httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxy); // 目标地址 HttpGet httpget = new HttpGet("/weather/101020100.shtml"); try { // 执行 HttpResponse response = httpclient.execute(targetHost, httpget); HttpEntity entity = response.getEntity(); if (entity != null) { html = EntityUtils.toString(entity); // System.out.println(html); } } catch (Exception e) { e.printStackTrace(); } finally { httpclient.getConnectionManager().shutdown(); } return html; }
@Test public void getWeather() throws IOException { /* * // 直接从字符串中输入 HTML 文档 String html = * "<html><head><title> 开源中国社区 </title></head>" + * "<body><p> 这里是 jsoup 项目的相关文章 </p></body></html>"; Document doc = * Jsoup.parse(html); * * // 从 URL 直接加载 HTML 文档 Document doc = * Jsoup.connect("http://www.oschina.net/").get(); String title = * doc.title(); * * Document doc = Jsoup.connect("http://www.oschina.net/") * .data("query", "Java") // 请求参数 .userAgent("I ’ m jsoup") // 设置 * User-Agent .cookie("auth", "token") // 设置 cookie .timeout(3000) // * 设置连接超时时间 .post(); // 使用 POST 方法访问 URL */ // 从文件中加载 HTML 文档 /* * File input = new File("C:/test.html"); Document doc = * Jsoup.parse(input,"UTF-8","http://www.oschina.net/"); */ /* * Document doc = Jsoup.connect("http://athp.hp.com/portal/site/athp/") * .get(); System.out.println("title:" + doc.title()); Elements els = * doc.getElementsByTag("a"); System.out.println("\n\n\n" + els + "\n"); * for (Element e : els) { System.out.println(e.nodeName() + ":\t" + * e.val()); } */ Document doc = Jsoup.parse(getHtml()); Elements contents = doc.select("div.weatherYubaoBox"); Elements trs = contents.get(0).getElementsByClass("yuBaoTable").get(0) .getElementsByTag("tr"); StringBuilder sb=new StringBuilder(); sb.append(new SimpleDateFormat("yyyy-MM-dd").format(new Date())); for (int i = 0; i < trs.size(); i++) { Element tr = trs.get(i); Elements tds = tr.getElementsByTag("td"); for (int j = 0; j < tds.size(); j++) { Element td = tds.get(j); if(i == 0 && j == 0){ continue; } if (i == 0 && j == 1) { sb.append(td.html()).append(" "); continue; } if (i == 1 && j == 0) { sb.append(td.html()).append(" "); continue; } sb.append(td.getElementsByTag("a").get(0).text()).append(" "); } } System.out.println(sb); }
- lib.rar (928.1 KB)
- 下载次数: 18
发表评论
-
常见eclipse环境编译问题小结
2015-07-08 21:46 666Preferences-Installed JRES-jdk ... -
URLEncode
2014-12-29 18:53 905前言: 根据HTTP协议要求,传递参数的值中如果存在特殊字符( ... -
java日期格式小时制区别
2014-12-29 18:29 719SimpleDateFormat ss = new Sim ... -
opencsv
2014-11-11 15:50 867public class CSVDemo { publ ... -
密码学-加密解密 加签验签
2014-08-21 21:37 8834RSA: 1. 加签:用私钥加 ... -
eclipse常用插件
2014-07-27 20:49 6781 velocity 模板编辑插件 实用 http://pro ... -
互联网开发
2014-04-29 19:17 21001.设计数据库时,有时候会根据业务,为了避免表中出现冗余的字 ... -
Servlet Listener
2014-03-26 17:35 1295Listener功能 它是基于观 ... -
数据库事务
2014-03-22 09:56 779数据库事务(Database Transa ... -
java 堆与栈
2014-03-21 16:54 711栈(stack):主要保存基本类型(或者叫内置类型)(char ... -
String、StringBuilder、StringBuffer区别
2014-03-21 16:24 690String 字符串常量,不可变 StringBuffer 字 ... -
数字证书
2014-03-18 17:20 738http://blog.csdn.net/zhulinfeib ... -
fish
2014-03-18 16:48 0互联网和企业应用最大的区别在于表现层的以及业务的复杂性上面。这 ... -
系统代码基本规范
2014-03-13 22:41 0系统代码基本规范 排 ... -
try catch return
2014-03-11 16:22 708package com.java.test; impor ... -
PO/POJO/VO/BO/DAO/DTO
2013-12-26 17:12 758PO(persistant object) 持久对 ... -
servlet
2013-12-21 17:47 675用Servlet获取URL地址。在HttpServletReq ... -
native2ascii
2013-12-16 15:42 733>native2ascii 中国 \u4e2d\u5 ... -
xStream 框架
2013-12-10 15:31 742http://www.cnblogs.com/hoojo/a ... -
Bat命令学习
2013-08-22 17:33 1544基础部分: 一、基础语法: 1.批处理文件是一个“. ...
相关推荐
初级爬虫
主要介绍了Java爬虫Jsoup+httpclient获取动态生成的数据的相关资料,需要的朋友可以参考下
利用httpClient+jsoup技术进行网页数据的获取,以网易贵金属为例~
基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+...
基于SSM+maven+httpClient+jsoup实现小说网站项目源码.zip 基于SSM+maven+httpClient+jsoup实现小说网站项目源码.zip 基于SSM+maven+httpClient+jsoup实现小说网站项目源码.zip 基于SSM+maven+httpClient+jsoup实现...
简单写了一个使用Spring-boot httpclient 爬取信息 只做技术交流,适合新手,大神勿喷......
httpclient批量爬取性感美图,完整源码。
NULL 博文链接:https://you-java.iteye.com/blog/1460271
针对 httpclient4.* 绕验证码获取公司信息 包括 jsoup网页信息的爬虫及htmlUnit对动态网站信息的抓取
使用httpClient采集数据,jsoup解析页面
使用三种方案实现网页爬虫: 1、httpclient 2、jsoup 3、httpclient+jsoup
httpclient和jsoup实现对网页数据的爬取,jsoup并可以像js dom方式得到数据
一个使用HttpClient调用接口的例程,接口是从网上找来的,只支持get方式提交,返回json格式,此例程的编码方式为GBK,我写了注释
httpClient+jsoup抓取网页数据实例和jar包
包含httpclient-4.5.3.jar,以及其依赖包commons-codec-1.9.jar,commons-logging-1.2.jar,httpcore-4.4.6.jar。包含jsoup-1.10.2.jar
httpclient 和jsoup整合,有httpClient实例,该实例要求协调JSOUP才能正常显示
包含jsoup-1.7.3.jar,jsoup-1.7.3-javadoc.jar,jsoup-1.7.3-sources.jar,com.springsource.org.apache.commons.httpclient-3.1.0.jar,org.apache.commons.httpclient.jar