题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下
目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。
首先选择一个地址,比如http://www.51leba.com
代码部分如下:
try{
URL url = new URL("http://www.51leba.com");
URLConnection conn = url.openConnection();
BufferedReader is = new BufferedReader(new InputStreamReader(conn.getInputStream()));
StringBuffer buffer = new StringBuffer();
String str;
while((str = is.readLine()) != null){
buffer.append(str);
buffer.append("\n");
}
str = buffer.toString().replaceAll("<script(.|\n)+?</script>", "").replaceAll("<(.|\n)+?>", "").replaceAll(" ", " ");
String[] s = str.split("\n");
buffer = new StringBuffer();
for(int i=0;i<s.length;i++){
if(s[i].trim().equals("") ){
continue;
}else{
buffer.append(s[i]);
buffer.append("\n");
}
}
System.out.println(buffer.toString());
is.close();
}catch (Exception e) {
e.printStackTrace();
}
得到的结果是:
欢迎光临51乐吧!
欢迎光临51乐吧!
回家倒计时
拼音转汉字
分享到:
相关推荐
java抓取网页数据实现
Java抓取网页数据的两种方法:(1)抓取原网页 (2)抓取网页JS返回数据
非常好的一个java版本的网络爬虫,下载直接可以运行。可以后台登陆然后再抓取。值得大家研究。
java网页抓取数据
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
java抓取网站数据
这是一个获取json网页数据的java实例
java抓取网页数据,主要用于抓取手机号和身份证查询网站的数据。
Java爬虫获取网页表格数据并保存到MySQL数据库,包含完整代码
主要介绍了Java获取网页数据步骤方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
java爬虫抓取网页数据教程.pdf
Java网页抓取数据
java抓取网页数据获取网页中所有的链接实例分享,使用方法,只要实例化HtmlParser时传入网页地址就可以了
利用HttpClient抓取网页中简单的数据,数据可存入数据库进行分析
一、使用 HttpClient 抓取网页数据 public String getHtml(String htmlurl) throws IOException { StringBuffer sb = new StringBuffer(); String acceptEncoding = ""; /* 1.生成 HttpClinet 对象并设置参数 */...
java爬虫抓取网页数据教程(20210809124656).pdf
可以直接运行。java利用htmlparser抓取网页数据
通过java抓取任何指定网页的数据,里面介绍了java如何实现抓取技术,抓取指定的网页数据并解析
在文件里面,数据的抓取为正则表达式方式抓取数据 实现的方式有。 1.根据文件中出现的字符进行抓取。 2。可以抓取前后2端的中间数据 3。可以抓取前后(不包括前端和后端的数据)的中间的数据。 还有,懒的说了。上...
使用java+jsoup进行网页数据的抓取,提取自己想要的数据