Java 抓取网页数据 - - ITeye博客

`

ruijiang.zhang

浏览: 11069 次
性别:
来自: 北京

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (2)

社区版块

存档分类

最新评论

w156445045：你这个就是抓取文本啊，比如我要抓取某些特定的数据呢？
Java 抓取网页数据

Java 抓取网页数据

阅读更多

题注：很多时候用到抓取网页数据的功能，以前工作中曾经用到过，今天总结了一下

目的：抓取网页数据多是读一些地址连续的URL，获得页面信息，进而对页面DOM进行分析，处理得到粗糙的数据，然后进行加工，得到我们想要的内容。

首先选择一个地址，比如http://www.51leba.com

代码部分如下：

try{
			URL url = new URL("http://www.51leba.com");
			URLConnection conn = url.openConnection();
			 
			BufferedReader is = new BufferedReader(new InputStreamReader(conn.getInputStream()));
			StringBuffer buffer = new StringBuffer();
			String str;
			while((str = is.readLine()) != null){
				buffer.append(str);
				buffer.append("\n");
				
			}
			str = buffer.toString().replaceAll("<script(.|\n)+?</script>", "").replaceAll("<(.|\n)+?>", "").replaceAll("&nbsp;", " ");
			String[] s = str.split("\n");
			buffer = new StringBuffer();
			for(int i=0;i<s.length;i++){
				if(s[i].trim().equals("") ){
					continue;
				}else{
					buffer.append(s[i]);
					buffer.append("\n");
				}
			}
			System.out.println(buffer.toString());
			
			is.close();
			
		}catch (Exception e) {
			e.printStackTrace();
		}

得到的结果是：

欢迎光临51乐吧！
	欢迎光临51乐吧！
		回家倒计时
	 拼音转汉字

分享到：

Tomcat5配置数据源

2009-06-29 00:18
浏览 8751
评论(1)
查看更多

评论

1 楼 w156445045 2012-08-30

你这个就是抓取文本啊，比如我要抓取某些特定的数据呢？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java抓取网页数据实现: java抓取网页数据实现

Java抓取网页数据Demo: Java抓取网页数据的两种方法：（1）抓取原网页（2）抓取网页JS返回数据

java抓取网页数据: 非常好的一个java版本的网络爬虫，下载直接可以运行。可以后台登陆然后再抓取。值得大家研究。

java网页抓取数据: java网页抓取数据

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

java抓取网站数据: java抓取网站数据

java 获取json网页数据: 这是一个获取json网页数据的java实例

java网页数据抓取源代码: java抓取网页数据，主要用于抓取手机号和身份证查询网站的数据。

Java爬虫获取网页表格数据保存到MySQL: Java爬虫获取网页表格数据并保存到MySQL数据库，包含完整代码

Java获取网页数据步骤方法详解: 主要介绍了Java获取网页数据步骤方法详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

java爬虫抓取网页数据教程.pdf: java爬虫抓取网页数据教程.pdf

Java网页抓取数据: Java网页抓取数据

java抓取网页数据获取网页中所有的链接实例分享: java抓取网页数据获取网页中所有的链接实例分享，使用方法，只要实例化HtmlParser时传入网页地址就可以了

java网络爬虫抓取网页数据: 利用HttpClient抓取网页中简单的数据，数据可存入数据库进行分析

使用Java抓取网页数据: 一、使用 HttpClient 抓取网页数据 public String getHtml(String htmlurl) throws IOException { StringBuffer sb = new StringBuffer(); String acceptEncoding = ""; /* 1.生成 HttpClinet 对象并设置参数 */...

java爬虫抓取网页数据教程(20210809124656).pdf: java爬虫抓取网页数据教程(20210809124656).pdf

java利用htmlparser抓取网页数据: 可以直接运行。java利用htmlparser抓取网页数据

java抓取任何指定网页的数据: 通过java抓取任何指定网页的数据，里面介绍了java如何实现抓取技术，抓取指定的网页数据并解析

java post获取网页数据以及get方式获取数据: 在文件里面，数据的抓取为正则表达式方式抓取数据实现的方式有。 1.根据文件中出现的字符进行抓取。 2。可以抓取前后2端的中间数据 3。可以抓取前后（不包括前端和后端的数据）的中间的数据。还有，懒的说了。上...

java+jsoup抓取网页数据: 使用java+jsoup进行网页数据的抓取，提取自己想要的数据

Global site tag (gtag.js) - Google Analytics