用HtmlParser 写个简略的 news爬虫-HTML教程-爱易网页

用HtmlParser 写个简略的 news爬虫

日期：2014-05-17　浏览次数：21207 次

用HtmlParser 写个简单的 news爬虫

有一段时间没写博客了，这几天回到学校我同学要赶着交毕业设计，让我帮他写个爬虫，专门抓搜狐的新闻，我用过爬虫，但是从来没有自己写过爬虫，于是Google了一下，找到了一篇不错的文章：使用 HttpClient 和 HtmlParser 实现简易爬虫　 .　参考里面的代码，自己写了个简易的搜狐新闻爬虫。

　　爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻，然后将新闻添加到数据库中。

　　代码其实很简单的：

　　LinkParser.java

import com.sohu.SohuNews; import java.util.HashSet; import java.util.Set; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.NodeClassFilter; import org.htmlparser.filters.OrFilter; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; /** 　*　这个类是用来搜集新闻链接地址的。将符合正则表达式的URL添加到URL数组中。　* @author guanminglin 　*/ public class LinkParser { 　　　 // 获取一个网站上的链接,filter 用来过滤链接　　　 public static Set<String> extracLinks(String url, LinkFilter filter) { 　　　　　　　 Set<String> links = new HashSet<String>(); 　　　　　　　 try { 　　　　　　　　　　　 Parser parser = new Parser(url); 　　　　　　　　　　　 parser.setEncoding("gb2312"); 　　　　　　　　　　　 // 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接　　　　　　　　　　　 NodeFilter frameFilter = new NodeFilter() { 　　　　　　　　　　　　　　　 public boolean accept(Node node) { 　　　　　　　　　　　　　　　　　　　 if (node.getText().startsWith("frame src=")) { 　　　　　　　　　　　　　　　　　　　　　　　 return true; 　　　　　　　　　　　　　　　　　　　 } else { 　　　　　　　　　　　　　　　　　　　　　　　 return false; 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 }; 　　　　　　　　　　　 // OrFilter 来设置过滤 <a> 标签，和 <frame> 标签　　　　　　　　　　　 OrFilter linkFilter = new OrFilter(new NodeClassFilter( 　　　　　　　　　　　　　　　　　　　 LinkTag.class), frameFilter); 　　　　　　　　　　　 // 得到所有经过过滤的标签　　　　　　　　　　　 NodeList list = parser.extractAllNodesThatMatch(linkFilter); 　　　　　　　　　　　 for (int i = 0; i < list.size(); i++) { 　　　　　　　　　　　　　　　 Node tag = list.elementAt(i); 　　　　　　　　　　　　　　　 if (tag instanceof LinkTag)// <a> 标签　　　　　　　　　　　　　　　 { 　　　　　　　　　　　　　　　　　　　 LinkTag link = (LinkTag) tag; 　　　　　　　　　　　　　　　　　　　 String linkUrl = link.getLink();// url 　　　　　　　　　　　　　　　　　　　 if (filter.accept(linkUrl)) { 　　　　　　　　　　　　　　　　　　　　　　　 links.add(linkUrl); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } else// <frame> 标签　　　　　　　　　　　　　　　 { 　　　　　　　　　　　　　　　　　　　 // 提取 frame 里 src 属性的链接如 <frame src="test.html"/> 　　　　　　　　　　　　　　　　　　　 String frame = tag.getText(); 　　　　　　　　　　　　　　　　　　　 int start = frame.indexOf("src="); 　　　　　　　　　　　　　　　　　　　 frame = frame.substring(start); 　　　　　　　　　　　　　　　　　　　 int end = frame.indexOf(" "); 　　　　　　　　　　　　　　　　　　　 if (end == -1) { 　　　　　　　　　　　　　　　　　　　　　　　 end = frame.indexOf(">"); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　　　　　 String frameUrl = frame.substring(5, end - 1); 　　　　　　　　　　　　　　　　　　　 if (filter.accept(frameUrl)) { 　　　　　　　　　　　　　　　　　　　　　　　 links.add(frameUrl); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 } 　　　　　　　 } catch (ParserException e) { 　　　　　　　　　　　 e.printStackTrace(); 　　　　　　　 } 　　　　　　　 return links; 　　　 } 　　　 public void doParser(String url) { 　　　　　　　 SohuNews news = new SohuNews(); 　　　　　　　 Set<String> links = LinkParser.extracLinks( 　　　　　　　　　　　　　　　 url, new LinkFilter() { 　　　　　　　　　　　 //提取以 http://news.sohu.com 开头的链接　　　　　　　　　　　 public boolean accept(String url) { 　　　　　　　　　　　　　　　 if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) { 　　　　　　　　　　　　　　　　　　　 return true; 　　　　　　　　　　　　　　　 } else { 　　　　　　　　　　　　　　　　　　　 return false; 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 } 　　　　　　　 }); 　　　　　　　 //循环迭代出连接，然后提取该连接中的新闻。　　　　　　　 for (String link : links) { 　　　　　　　　　　　 System.out.println(link); 　　　　　　　　　　　 news.parser(link); //解析连接　　　　　　　　　　　　　　　　　　 } 　　　 } 　　　 //测试主页新闻，可以得到主页上所有符合要求的网页地址，并进行访问。　　　 public static void main(String[] args) { 　　　　　　　 String url = "http://news.sohu.com/"; 　　　　


                    
                        
                            上一篇： 说说标准系列目录 

                            下一篇： CSS鼠标式样 
                        
                    


                    
                        免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
                    

                    


    
        相关资料更多>
    
    
        

            
                  
                      
                         关于 res://ieframe.dll/dnserror.htm#http://fckeditor/editor/fckeditor.html?I无法显示有关问题 
                   
                
                  
                      
                         关于css中的float的了解 
                   
                
                  
                      
                         前端 CSS 轨范大全 
                   
                
                  
                      
                        HTML之影像地图
                   
                
                  
                      
                         html代码没自动换行 
                   
                
                  
                      
                         HTML元素 - 地图的用法 
                   
                
                  
                      
                         HTML惯用代码 
                   
                
                  
                      
                         美工所需的技能解决思路 
                   
                
                  
                      
                         陈俏宏：HTML5 APP与云端应用整合



                
                    
                    

                    
                    
                    
                    

      
        推荐阅读更多>
      
      
          
        
                       
                             html上图片居中 
                    
                       
                             (转)爱下朴实的CSS细节 
                    
                       
                             CSS完善兼容IE6/IE7/IE8/IE9/IE10的通用方法 
                    
                       
                             ie无法打开腾讯体育、腾讯文娱 
                    
                       
                             html中的checkbox传多个值得解决方法 
                    
                       
                             一个像写日记的那种文本域解决方案 
                    
                       
                             据说优酷等已经可以支持ipad，请教想做支持ipad的视频网站如何做 
                    
                       
                             HTML里换行符的有关问题 
                    
                       
                             [转]内中生成HTML方式 
                    
                       
                             HTML中小meta的杰作用 
                    
                       
                             html页面高度随内容自动增高解决方法 
                    
                       
                             IE和火狐的css兼容性有关问题 
                    
                       
                             苹果浏览器不兼容解决思路 
                    
                       
                             CSS 式样-1 
                    
                       
                             css基础回望 
                    
                       
                             请教有没可能做个批处理文件之类的东西强制设置IE浏览器为默认浏览器 
                    
                       
                             div层堆叠 posion:absolute 
                    
                       
                             [转] css IE上的圆角终极解决方案 
                    
                       
                             CSS 省略过长的稿件，显示为. 
                    
                       
                             传智播客 张鹏 带你一周hold住htmlcss 第06讲 html列表与图片使用