怎么能得到网页所有的链接-Java教程-爱易网页

怎么能得到网页所有的链接

日期：2014-05-18　浏览次数：20970 次

如何能得到网页所有的链接？
比如通过一个地址得到一个网页，然后得到网页中所有的链接地址，不知道程序该如何实现，有哪几种方式，最好是java程序实现，谢谢

------解决方案--------------------
用HtmlParser,我最近恰好在研究,写了一小段:

import org.htmlparser.Parser;
import org.htmlparser.filters.*;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.*;

public class TestParser {
public void getAllUrls(String url) {
NodeList nodeList = null;
try {
Parser p = new Parser(url);
p.setEncoding( "gb2312 ");
//nodeList = p.parse(new TagNameFilter( "A ")); // 使用TagNameFilter
nodeList = p.parse(new NodeClassFilter(LinkTag.class)); // 使用NodeClassFilter
} catch (ParserException e) {
e.printStackTrace();
}
if(nodeList != null && nodeList.size() > 0) {
for(int i = 0; i < nodeList.size(); i++) {
System.out.println(((LinkTag)nodeList.elementAt(i)).getLink()+ "\n "+((LinkTag)nodeList.elementAt(i)).getLinkText());
}
}
}

/**
* at param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
TestParser website= new TestParser();
website.getAllUrls( "http://www.fsonline.com.cn ");
}
}
------解决方案--------------------
推荐用正则
Pattern p2 = Pattern.compile( " <[aA] href=[\ " ']?([^\ " '> ]*)[\ " ']?> ");
String str = " <a href=\ "123.com\ "> ";
Matcher m = p2.matcher(str);
while (m.find()){
System.out.println(m.group(1));
}

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

请教在JS里，怎么让复选框左对齐

JAVA学习时期写的代码和真正工作时写代码差距大吗？解决方法

getResource()跟getResourceAsStream（）的用法与区别

tomcat起动不自动加载项目

KJAVA的UI应用领域里,功能强大与操作简单真是一对矛盾,不知这样能否兼顾?该怎么处理

如何在JTextPane加上JScollPan

hibernate自身一对多的有关问题，求解

<c:forEach>輸出resultSet集合有关问题

"JspTest.jsp": org.apache.jasper.JasperException:

怎么能得到网页所有的链接

相关资料更多>

推荐阅读更多>