日期:2014-05-17  浏览次数:20808 次

Java怎样获取一个网页的内容(不是源码,要内容)
做项目过程中需要写一个程序获取一个帖子的内容,如这个帖子:下周哪些板块具有补涨行情? 
现在我需要获取这些内容而不是整个网页的源码:


下周哪些板块具有补涨行情?

    盘面回顾 今日大盘小幅低开,盘中震荡上扬,收盘基本在当日最高指数,收于3030点,上涨22点,指数再次收一个光头阳线,KJD/MACD都出现金叉,继续向上发散,技术面全面走强,从成交量来看,今天两市成交2500亿,比较昨日,量能略有萎缩,从板块来看,今日只有航空航天和银行两个行业板块是泛绿的,其他板块全线翻红,涨幅靠前的板块是汽车、通信、有色、造纸、医药电子信息,从个股来看,今天有14只个股涨停,涨停个股大幅增加,像威尔泰(002058)、安拉达、圣莱达(002473)、川大智胜(002253)等中小板个股也开始涨停,说明市场走强以后中小板再次出现活跃,要注意市场风格的转换,今天没有跌停的非ST股票,上涨股票有7成,个股全面开始上涨。

     

    主要消息 在一阵欢腾有力的鼓声之后,中央政治局委员、中共上海市委书记俞正声宣布备受海内外关注的上海迪士尼度假区正式开工。楼市调控政策的出台刚刚告一段落,4月初,国务院派出8个督查组,对16个省贯彻落实国务院房地产市场调控政策措施情况开展专项督查

     

    大盘观点 今日大盘再次以光头阳线报收,显示市场人气再次激发,这样指数已经连续四连阳,走势良好,今日盘面来看出现新的热点汽车、医药和电子信息,由于年初很多地方像北京等地出现汽车摇号挂牌等政策,影响了汽车板块的走强,在大盘连续走强的情况下,一些前期下跌比较多板块个股开始了补涨行情,今天的另一个板块电子信息板块也开始上涨,电子信息是国家鼓励发展的行业,这个版块在这波大盘冲击3000点的过程中,不涨反跌,当前开始一波补涨行情,另外,医药股也是本次行情中涨幅落后于大盘的品种,从中长期来看,医药股很多具有投资价值,所以,在大盘普涨的时候,在选股上,近期可以考虑医药、电子信息、汽车食、品百货等近期涨幅较小的板块,不要再追涨涨幅较大的有色、地产、券商等板块,大盘没有风险,下周估计再次冲击3100点,现在选股是关键,后期抓住这波行情,就在补涨板块。


    找了很多简单的程序获得的都是网页的源码,得不到网页的内容。哪位高手能给个思路?当然,直接给个函数更好。得到合理的解答立马给分,谢谢!

------解决方案--------------------
一般是DIV中的值,你把DIV里面的值取出来,然后用正则表达式去过滤,应该就可以了
------解决方案--------------------
直接请求一个servlet返回一段text/plain  文本即可显示
------解决方案--------------------
先拿到页面的源文件,然后找出你需要的地方的特征然后再把它想办法弄出来
------解决方案--------------------
拿到页面源文件,然后进行解析提取出你要的数据,楼主还是死了那条心,没有针对你这个特定需求的API的。。。。。赶快开工自己写喽
------解决方案--------------------
这个东西简单,这个设计的重点就在于正则表达式,如果你正则表达式用的好,这个设计就迎刃而解了
------解决方案--------------------
引用:
谢谢各位的回答!
看来似乎必须得用正则表达式了,肯定挺复杂的,我还没有好好学过正则表达式。不知道有没有更好的方法?


简单的话可以找生成正则表达式的工具进行简单生成
------解决方案--------------------
网上有专门的生成.net开发工具,固定模块。
------解决方案--------------------
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.MalformedURLException;
import java.net.URL;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import javax.swing.*;

//import org.ictclas4j.bean.SegResult;   
//import org.ictclas4j.segment.SegTag;

public class WebContent1 
{
 /**
  * 读取一个网页全部内容
  */
  private JList contentpanel;
  private String url;
  private HashMap<String, String> hm;
  WebContent1(JList contentarea,String weburl){
   this.contentpanel=contentarea;
   this.url=weburl;