一, 数据组织分析:
HtmlParser主要靠NodeAbstractNodeTag来表达Html,因为RemarkText相对简单,此处就将其忽略了。
Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应html文本的方法,定义了该节点对应的起止位置,定义了过滤方法,定义了Visitor访问机制。 
AbstractNodeNode的一种具体的类实现,起到构成树形结构的作用,除了同具体Node相关的accetp方法,toStringtoHtmltoPlainTextString方法以外,AbstractNode实现了大多基本的方法,使得它的子类,不用理会具体的树操作。 
Tag是具体分析的主要内容。Tag分成compositeTag和不能包含其他Tag的简单Tag两类,其中前者的基类是CompositeTag,其子类包含BodyTag,Div,FrameSetTag,OptionTag,等27个子类;而简单TagBaseHrefTagDoctypeTag,FrameTagImageTagInputTagJspTagMetaTagProcessingInstructionTag这八类。 
Node分成三类:

RemarkNode:代表Html中的注释 
TagNode:标签节点,是种类最多的节点类型,上述Tag的具体节点类都是TagNode的实现。 
TextNode:文本节点 

二,Visitor方式访问Html

1,整体解析过程
用一个URL或页面String做一个Parser 
用这个Parser做一个Visitor 
使用Parser.visitAllNodeWith(Visitor)来遍历节点 
获取Visitor遍历后得到的数据 
2Visit过程
做解析之前做的事情:visitor.beginParsing(); 
每次取到一个节点Node,让该Node接受acceptVisitor 
做解析后做的事情:visitor.finishedParsing(); 
3,获取节点的过程:逐步遍历Html,分析出Node。此部分较为复杂,且对于我们应用来说无需很多了解,暂跳过。

4,节点访问
节点访问采用Visitor模式,Nodeaccept方法和具体Visitorvisit方法是关键。
首先三类Nodeaccept的方式各不相同:
对于所有TagNode都使用一个accept方法,即TagNodeaccept方法。首先判断是否是标签结尾,如果是就visitor.visitEndTag (this);否则visitor.visitTag (this); 
如果是TextNode,那就visitor.visitStringNode (this);就可以了。 
如果是RemarkNode,那就visitor.visitRemarkNode (this);就可以了。 

实际上NodeVisitor里边这四种visit方法都是空的,因为在不同的Visitor中对于这三类节点的处理是不同的;对于需要处理的节点,只要重载对应的visit方法就行了,如果不处理那就不理会就可以了;另外,如果用户用自己的Visitor,那么还可以灵活的处理不同类型的节点了。

系统为我们实现了下面我要介绍的8Visitor,实际上可以看作是系统给我们演示了如何做各种各样的Visitor来访问Html,因为实际上我们要真正来用HtmlParser的话,还需要特定的Visitor,而通过简单的这些系统提供的Visitor组合是难以做成什么事情的。

三,系统Visitor功能简介:
ObjectFindingVisitor:用来找出所有指定类型的节点,采用getTags()来获取结果。 
StringBean:用来从一个指定的URL获取移除了<SCRIPT></SCRIPT><PRE></PRE>之间代码的Html代码,也可以用做Visitor,用来移除这两种标签内部的代码,采用StringBean.getStrings()来获取结果。 
HtmlPage:提取Titlebody中的节点和页面中的TableTag节点。 
LinkFindingVisitor:找出节点中包含某个链接的总个数。 
StringFindingVisitor:找出遍历的TextNode中含有指定字符串的个数。 
TagFindingVisitor:找出指定Tag的所有节点,可以指定多种类型。 
TextExtractingVisitor:从网页中把所有标签去掉来提取文本,这个提取文本的Visitor有时是很实用的,只是注意在提取文本时将标签的属性也去掉了,也就是说只剩下标签之间的文本,例如<a>中的链接也去掉了。 
UrlModifyingVisitor:用来修改网页中的链接。 
四,Filter

如果说visitor是遍历提取信息,当然这个信息可以包括某些节点或者从节点分析出来的更有效的信息,这都取决于我们的Visitor做成什么样子,那么Filter则目标很明确,就是用来提取节点的。所以说要想用HtmlParser,首先要熟悉上面讲到的数据组织。

系统定义了17种具体的Filter,包括依据节点父子关系的Filter,连接Filter组合的Filter,依据网页内容匹配情况的filter,等等。我们也可以implement Filter来做自己的Filter来提取节点。

Filter的调用是同Visitor独立的,因为也无需先filter出一些NodeList,再用Visitor来访问。调用Filter的方法是:
NodeList nodeList = myParser.parse(someFilter);
解析之后,我们可以采用:
Node[] nodes = nodeList.toNodeArray();
来获取节点数组,也可以直接访问:
Node node = nodeList.elementAt(i)来获取Node

另 外,在Filter后得到NodeList以后,我们仍然可以使用NodeListextractAllNodesThatMatch (someFilter)来进一步过滤,同时又可以用NodeListisitAllNodesWith(someVisitor)来做进一步的访问。
这 样,我们可以看到HtmlParser为我们提供了非常方便的Html解析方式,针对不同的应用可以采用visitor来遍历Html节点提取数据,也可 以用Filter来过滤节点,提取出我们所关注的节点,再对节点进行处理。通过这样的组合,一定能够找出我们所需要的信息。

 

HTMLParser解析HTML实例

开发中经常会用到对html文件的解析,特别是在做爬虫的时候,更是会很频繁的用到对html的解析

htmlparser工具包,提供了对html进行解析的便利工程方法

下在是使用htmlparserhtml进行解析的实例.


import org.htmlparser.Attribute;
import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.tags.ScriptTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class dfdasfads 
{
   public static void main(String[] args) throws ParserException 
{
        StringBuffer sb = new StringBuffer();
        sb.append(""p1\">"s2\" name=\"s22\">vvv
\r\n
.>\r\n
..>");
        System.out.println(new dfdasfads().getFilterBody(sb.toString()));
    }
    public String getFilterBody(String strBody) 
{
        // 一、 htmlparser 处理提交
        Parser parser = Parser.createParser(strBody, "utf-8");
        NodeList list;
        String reValue = strBody;       
 try 
{
            list = parser.parse(null);
            visitNodeList(list);
            reValue = list.toHtml();
       } catch (ParserException e1) 
{
            e1.printStackTrace();
        }
        return reValue;
    }
    /** *//** 
     * 移除所有标签的Id属性
     * @param list 标签集合
     */
     private void visitNodeList(NodeList list) 
{
        System.out.println(">>>visitNodeList(list)");
        for (int i = 0; i < list.size(); i++) 
{
            Node node = list.elementAt(i);
            if (node instanceof ScriptTag) 
{
                list.remove(i);
                continue;
            } else if (node instanceof Tag) 
{
                Tag _tag = (Tag) node;
                _tag.removeAttribute("id");
            }
            NodeList children = node.getChildren();
      if (children != null && children.size() > 0) 
{
                visitNodeList(children);
            }
        }
        System.out.println("<<");
    }

}

 

FilterBody.java
import org.htmlparser.Attribute;
import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.tags.ScriptTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
 public class FilterBody 
{
   public static void main(String[] args) throws ParserException 
{
        String sttt = ""true\" src=\"http://vhead.blog.sina.com.cn/player/outer_player.swf\" quality=\"high\" bgcolor=\"#ffffff\" width=\"424\" height=\"404\" name=\"vsplayer\" align=\"middle\" type=\"application/x-shockwave-flash\" pluginspage=\"http://www.macromedia.com/go/getflashplayer\" />";
        System.out.println(new FilterBody().getFilterBody(sttt));
    }
  public String getFilterBody(String strBody) 
{
        // 一、 htmlparser 处理提交
        Parser parser = Parser.createParser(strBody, "utf-8");
        NodeList list;
        String reValue = strBody;
 try 
{
            list = parser.parse(null);
            visitNodeList(list);
            reValue = list.toHtml();
        } catch (ParserException e1) 
{
        }
        return reValue;
    }
    // 递归
    private void visitNodeList(NodeList list) 
{
        for (int i = 0; i < list.size(); i++) 
{
            Node node = list.elementAt(i);
           if (node instanceof Tag) 
{
                if (node instanceof ScriptTag) 
{
                    list.remove(i);
                    continue;
                }
                Tag _tag = (Tag) node;
                _tag.removeAttribute("id");
                _tag.removeAttribute("onload");
                _tag.removeAttribute("alt");
                String tagName = _tag.getTagName();
                if (tagName == null)
                    tagName = "";
                else
                    tagName = tagName.trim().toUpperCase();
                visitTag((Tag) node);
            }
            NodeList children = node.getChildren();
            if (children != null && children.size() > 0)
                visitNodeList(children);
        }
     }
    // 获取tag
    private void visitTag(Tag tag) 
{
        String tagName = tag.getTagName();
 if (tagName != null && tagName.equalsIgnoreCase("embed")) 
{
            tag.setEmptyXmlTag(false);
            tag.setAttribute("AllowNetworking", "\"none\"");
            tag.setAttribute("AllowScriptAccess", "never", '"');
            tag.setEmptyXmlTag(true);
        }
        Vector attrs = tag.getAttributesEx();
      for (int i = 0; i < attrs.size(); i++) 
{
            Object obj = attrs.elementAt(i);
     if (obj != null && obj instanceof Attribute) 
{
                visitAttribute((Attribute) obj, tag);
            }
        }
    }
    // 获取tag属性
   private void visitAttribute(Attribute attribute, Tag tag) 
{

        String attName = attribute.getName();
        if (attName == null)
            attName = "";
        else
            attName = attName.trim().toLowerCase();
        String tagName = tag.getTagName();
        if (tagName == null)
            tagName = "";
        else
            tagName = tagName.trim().toLowerCase();
        String tagValue = tag.getText();
        if (tagValue == null)
            tagValue = "";
        else
            tagValue = tagValue.trim().toLowerCase();
        String attribValue = attribute.getValue();
        if (attribValue == null)
            attribValue = "";
        else
            attribValue = attribValue.trim().toLowerCase();
    }

}

 

 

我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西 
就会惨不忍睹.根本就没有使用价值 

  在做正文抽取模块之前我曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.我挨个做了分析 
首先配置摸版是不太现实的,因为我在搜索技术资讯的时候,根本不知道会搜索到哪个网站,也根本没精力去配置摸版.所以这个行不通 
   
  基于视觉效果的分析,这个难度比较大,而且只适合于规范的网站,而现在很多网站根本不规范,广告链接漫天飞.人家都把最好的 
位置留给广告了.而且我一直怀疑这个模式的可行性,它只是一个善意的推测.所以这方面没做过多尝试 

  我在想,是否有种简单的方法呢?难道就没有什么共性吗? 

  我想所有的正文应该有个共同的特点,那就是正文的长度应该超过其他文字组合的长度.很少会有一句话的正文,很少会有长度 
短于标题的正文.所以这个应该成为一个突破口. 

  接下来,有一个很重要的问题,那段最长的正文在哪里呢? 
  肯定是在一个TABLE,或者DIV,或者ParagraphTag里.那好,那就找到那个包含文字最多的DIV或者TABLE. 

  不过问题又来了,HTML页面,经常是HTML元素的长度超过了正文的长度,有时候混入了不少的JAVASCRIPT.这些元素 
HTMLPARSER经常会误认为是正文加以识别,导致很多正文竟然是一段JAVASCRIPT. 
  祛除杂质是一个关键,这里面要把那些HTML中常用的标签,以及连接中正文去除掉,否则,你搜索出来的很可能是别的什么,尤其 
当正文文字相对较少的时候.我在搜索SOHU页面的时候就经常遇到这个问题,原因是SOHU的页面不是严格按照DIV布局,里面有很多广告 
JAVASCRIPT。新浪的有些页面也有这个现象,反到是一些中小网站的布局很规范,呵呵,真奇怪了。 

  做完这些工作后,我发现仍然有些网页不能正常抓取,原因是HTMLPARSERTEXT的认识有问题.例如一段文字在 
ParagraphTag中或者span中包含的,就不能很好的识别.所以要单独做个抽取ParagraphTag内容的函数. 

  做完这些步骤后,有一个问题出来了就是正文中包含的图片,连接,粗体,正常的表格.这些问题一个个的冒出来.既然问题出来了 
那就要一个个的解决.解决了这些难题.我的网站抓取文章的质量就大大的提高了85%的准确率,基本达到实用阶段.我网站上的正文快照基本和原文保持一致. 

    提供几个例子,大家可以看下原文和我抓取的有多少不同 
    1. http://www.itsubway.com/context/20071218/11762.htm 
                这个是单纯获取正文的例子,其中有粗体标签和链接 

    2 http://www.itsubway.com/context/20071218/12041.htm 
     这个是正文里混有图片和表格. 


  我把抽取正文的部分代码和大家共享.这些代码基本解决了我在上面列举出来的问题。包括正文中混有图片,连接,粗体,表格等。 
    大家要是有兴趣可以改造下这些代码 请大家重点看protected List extractHtml(Node nodeP, PageContext context, String siteUrl) 
    这个函数是正文抽取的入口。我的这些函数写的不是很规范,别笑话! 
    
    
    

/** 
    * 收集HTML页面信息 调用抓取函数 按照自己的摸版 生成网页 
    * @param url 
    * @param urlEncode 
    */ 
    public void makeContext(ChannelLinkDO c) { 
        String metakeywords = "<META content={0} name=keywords>"; 
        String metatitle = "<TITLE>{0}</TITLE>"; 
        String metadesc = "<META content={0} name=description>"; 
        String netshap = "<p> 正文快照时间{0}</p> "; 

        String tempLeate = "<LI class=active><A href=\"{0}\" target=_blank>{1}</A></LI>"; 
        String crop = "<p><A href=\"{0}\" target=_blank>{1}</A></p> "; 

        try { 
            String siteUrl = getLinkUrl(c.getLink()); 
            Parser parser = new Parser(c.getLink()); 
            parser.setEncoding(c.getEncode()); 

            for (NodeIterator e = parser.elements(); e.hasMoreNodes();) { 
                Node node = (Node) e.nextNode(); 

                if (node instanceof Html) { 
                    PageContext context = new PageContext(); 
                    context.setNumber(0); 
                    context.setTextBuffer(new StringBuffer()); 
                    //抓取出内容 
                    extractHtml(node, context, siteUrl); 

                    StringBuffer testContext = context.getTextBuffer(); 
                    //.....生成网页 
                    } 
            } 
        } catch (Exception e) { 
            System.out.println(e); 
        } 
    } 

    private String getLinkUrl(String link) { 
        String urlDomaiPattern = "(http://[^/]*?" + "/)(.*?)"; 

        Pattern pattern = Pattern.compile(urlDomaiPattern, 
                Pattern.CASE_INSENSITIVE + Pattern.DOTALL); 
        Matcher matcher = pattern.matcher(link); 
        String url = ""; 

        while (matcher.find()) { 
            int start = matcher.start(1); 
            int end = matcher.end(1); 

            url = link.substring(start, end - 1).trim(); 
        } 

        return url; 
    } 

    /** 
    * 递归钻取正文信息 
    * @param nodeP 
    * @return 
    */ 
    protected List extractHtml(Node nodeP, PageContext context, String siteUrl) 
        throws Exception { 
        NodeList nodeList = nodeP.getChildren(); 
        boolean bl = false; 

        if ((nodeList == null) || (nodeList.size() == 0)) { 
            if (nodeP instanceof ParagraphTag) { 
                ArrayList tableList = new ArrayList(); 
                StringBuffer temp = new StringBuffer(); 
                temp.append("<p style=\"TEXT-INDENT: 2em\">"); 
                tableList.add(temp); 
                temp = new StringBuffer(); 
                temp.append("</p>").append(lineSign); 
                tableList.add(temp); 

                return tableList; 
            } 

            return null; 
        } 

        if ((nodeP instanceof TableTag) || (nodeP instanceof Div)) { 
            bl = true; 
        } 

        if (nodeP instanceof ParagraphTag) { 
            ArrayList tableList = new ArrayList(); 
            StringBuffer temp = new StringBuffer(); 
            temp.append("<p style=\"TEXT-INDENT: 2em\">"); 
            tableList.add(temp); 
            extractParagraph(nodeP, siteUrl, tableList); 

            temp = new StringBuffer(); 
            temp.append("</p>").append(lineSign); 

            tableList.add(temp); 

            return tableList; 
        } 

        ArrayList tableList = new ArrayList(); 

        try { 
            for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) { 
                Node node = (Node) e.nextNode(); 

                if (node instanceof LinkTag) { 
                    tableList.add(node); 
                    setLinkImg(node, siteUrl); 
                } else if (node instanceof ImageTag) { 
                    ImageTag img = (ImageTag) node; 

                    if (img.getImageURL().toLowerCase().indexOf("http://") < 0) { 
                        img.setImageURL(siteUrl + img.getImageURL()); 
                    } else { 
                        img.setImageURL(img.getImageURL()); 
                    } 

                    tableList.add(node); 
                } else if (node instanceof ScriptTag || 
                        node instanceof StyleTag || node instanceof SelectTag) { 
                } else if (node instanceof TextNode) { 
                    if (node.getText().length() > 0) { 
                        StringBuffer temp = new StringBuffer(); 
                        String text = collapse(node.getText() 
                                                   .replaceAll(" ", "") 
                                                   .replaceAll(" ", "")); 

                        temp.append(text.trim()); 

                        tableList.add(temp); 
                    } 
                } else { 
                    if (node instanceof TableTag || node instanceof Div) { 
                        TableValid tableValid = new TableValid(); 
                        isValidTable(node, tableValid); 

                        if (tableValid.getTrnum() > 2) { 
                            tableList.add(node); 

                            continue; 
                        } 
                    } 

                    List tempList = extractHtml(node, context, siteUrl); 

                    if ((tempList != null) && (tempList.size() > 0)) { 
                        Iterator ti = tempList.iterator(); 

                        while (ti.hasNext()) { 
                            tableList.add(ti.next()); 
                        } 
                    } 
                } 
            } 
        } catch (Exception e) { 
            return null; 
        } 

        if ((tableList != null) && (tableList.size() > 0)) { 
            if (bl) { 
                StringBuffer temp = new StringBuffer(); 
                Iterator ti = tableList.iterator(); 
                int wordSize = 0; 
                StringBuffer node; 
                int status = 0; 
                StringBuffer lineStart = new StringBuffer( 
                        "<p style=\"TEXT-INDENT: 2em\">"); 
                StringBuffer lineEnd = new StringBuffer("</p>" + lineSign); 

                while (ti.hasNext()) { 
                    Object k = ti.next(); 

                    if (k instanceof LinkTag) { 
                        if (status == 0) { 
                            temp.append(lineStart); 
                            status = 1; 
                        } 

                        node = new StringBuffer(((LinkTag) k).toHtml()); 
                        temp.append(node); 
                    } else if (k instanceof ImageTag) { 
                        if (status == 0) { 
                            temp.append(lineStart); 
                            status = 1; 
                        } 

                        node = new StringBuffer(((ImageTag) k).toHtml()); 
                        temp.append(node); 
                    } else if (k instanceof TableTag) { 
                        if (status == 0) { 
                            temp.append(lineStart); 
                            status = 1; 
                        } 

                        node = new StringBuffer(((TableTag) k).toHtml()); 
                        temp.append(node); 
                    } else if (k instanceof Div) { 
                        if (status == 0) { 
                            temp.append(lineStart); 
                            status = 1; 
                        } 

                        node = new StringBuffer(((Div) k).toHtml()); 
                        temp.append(node); 
                    } else { 
                        node = (StringBuffer) k; 

                        if (status == 0) { 
                            if (node.indexOf("<p") < 0) { 
                                temp.append(lineStart); 
                                temp.append(node); 
                                wordSize = wordSize + node.length(); 
                                status = 1; 
                            } else { 
                                temp.append(node); 
                                status = 1; 
                            } 
                        } else if (status == 1) { 
                            if (node.indexOf("</p") < 0) { 
                                if (node.indexOf("<p") < 0) { 
                                    temp.append(node); 
                                    wordSize = wordSize + node.length(); 
                                } else { 
                                    temp.append(lineEnd); 
                                    temp.append(node); 
                                    status = 1; 
                                } 
                            } else { 
                                temp.append(node); 
                                status = 0; 
                            } 
                        } 
                    } 
                } 

                if (status == 1) { 
                    temp.append(lineEnd); 
                } 

                if (wordSize > context.getNumber()) { 
                    context.setNumber(wordSize); 
                    context.setTextBuffer(temp); 
                } 

                return null; 
            } else { 
                return tableList; 
            } 
        } 

        return null; 
    } 

    /** 
    * 设置图象连接 
    * @param nodeP 
    * @param siteUrl 
    */ 
    private void setLinkImg(Node nodeP, String siteUrl) { 
        NodeList nodeList = nodeP.getChildren(); 

        try { 
            for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) { 
                Node node = (Node) e.nextNode(); 

                if (node instanceof ImageTag) { 
                    ImageTag img = (ImageTag) node; 

                    if (img.getImageURL().toLowerCase().indexOf("http://") < 0) { 
                        img.setImageURL(siteUrl + img.getImageURL()); 
                    } else { 
                        img.setImageURL(img.getImageURL()); 
                    } 
                } 
            } 
        } catch (Exception e) { 
            return; 
        } 

        return; 
    } 

    /** 
    * 钻取段落中的内容 
    * @param nodeP 
    * @param siteUrl 
    * @param tableList 
    * @return 
    */ 
    private List extractParagraph(Node nodeP, String siteUrl, List tableList) { 
        NodeList nodeList = nodeP.getChildren(); 

        if ((nodeList == null) || (nodeList.size() == 0)) { 
            if (nodeP instanceof ParagraphTag) { 
                StringBuffer temp = new StringBuffer(); 
                temp.append("<p style=\"TEXT-INDENT: 2em\">"); 
                tableList.add(temp); 
                temp = new StringBuffer(); 
                temp.append("</p>").append(lineSign); 
                tableList.add(temp); 

                return tableList; 
            } 

            return null; 
        } 

        try { 
            for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) { 
                Node node = (Node) e.nextNode(); 

                if (node instanceof ScriptTag || node instanceof StyleTag || 
                        node instanceof SelectTag) { 
                } else if (node instanceof LinkTag) { 
                    tableList.add(node); 
                    setLinkImg(node, siteUrl); 
                } else if (node instanceof ImageTag) { 
                    ImageTag img = (ImageTag) node; 

                    if (img.getImageURL().toLowerCase().indexOf("http://") < 0) { 
                        img.setImageURL(siteUrl + img.getImageURL()); 
                    } else { 
                        img.setImageURL(img.getImageURL()); 
                    } 

                    tableList.add(node); 
                } else if (node instanceof TextNode) { 
                    if (node.getText().trim().length() > 0) { 
                        String text = collapse(node.getText() 
                                                   .replaceAll(" ", "") 
                                                   .replaceAll(" ", "")); 
                        StringBuffer temp = new StringBuffer(); 
                        temp.append(text); 
                        tableList.add(temp); 
                    } 
                } else if (node instanceof Span) { 
                    StringBuffer spanWord = new StringBuffer(); 
                    getSpanWord(node, spanWord); 

                    if ((spanWord != null) && (spanWord.length() > 0)) { 
                        String text = collapse(spanWord.toString() 
                                                       .replaceAll(" ", "") 
                                                       .replaceAll(" ", "")); 

                        StringBuffer temp = new StringBuffer(); 
                        temp.append(text); 
                        tableList.add(temp); 
                    } 
                } else if (node instanceof TagNode) { 
                    String tag = node.toHtml(); 

                    if (tag.length() <= 10) { 
                        tag = tag.toLowerCase(); 

                        if ((tag.indexOf("strong") >= 0) || 
                                (tag.indexOf("b") >= 0)) { 
                            StringBuffer temp = new StringBuffer(); 
                            temp.append(tag); 
                            tableList.add(temp); 
                        } 
                    } else { 
                        if (node instanceof TableTag || node instanceof Div) { 
                            TableValid tableValid = new TableValid(); 
                            isValidTable(node, tableValid); 

                            if (tableValid.getTrnum() > 2) { 
                                tableList.add(node); 

                                continue; 
                            } 
                        } 

                        extractParagraph(node, siteUrl, tableList); 
                    } 
                } 
            } 
        } catch (Exception e) { 
            return null; 
        } 

        return tableList; 
    } 

    protected void getSpanWord(Node nodeP, StringBuffer spanWord) { 
        NodeList nodeList = nodeP.getChildren(); 

        try { 
            for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) { 
                Node node = (Node) e.nextNode(); 

                if (node instanceof ScriptTag || node instanceof StyleTag || 
                        node instanceof SelectTag) { 
                } else if (node instanceof TextNode) { 
                    spanWord.append(node.getText()); 
                } else if (node instanceof Span) { 
                    getSpanWord(node, spanWord); 
                } else if (node instanceof ParagraphTag) { 
                    getSpanWord(node, spanWord); 
                } else if (node instanceof TagNode) { 
                    String tag = node.toHtml().toLowerCase(); 

                    if (tag.length() <= 10) { 
                        if ((tag.indexOf("strong") >= 0) || 
                                (tag.indexOf("b") >= 0)) { 
                            spanWord.append(tag); 
                        } 
                    } 
                } 
            } 
        } catch (Exception e) { 
        } 

        return; 
    } 

    /** 
    * 判断TABLE是否是表单 
    * @param nodeP 
    * @return 
    */ 
    private void isValidTable(Node nodeP, TableValid tableValid) { 
        NodeList nodeList = nodeP.getChildren(); 

        /**如果该表单没有子节点则返回**/ 
        if ((nodeList == null) || (nodeList.size() == 0)) { 
            return; 
        } 

        try { 
            for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) { 
                Node node = (Node) e.nextNode(); 

                /**如果子节点本身也是表单则返回**/ 
                if (node instanceof TableTag || node instanceof Div) { 
                    return; 
                } else if (node instanceof ScriptTag || 
                        node instanceof StyleTag || node instanceof SelectTag) { 
                    return; 
                } else if (node instanceof TableColumn) { 
                    return; 
                } else if (node instanceof TableRow) { 
                    TableColumnValid tcValid = new TableColumnValid(); 
                    tcValid.setValid(true); 
                    findTD(node, tcValid); 

                    if (tcValid.isValid()) { 
                        if (tcValid.getTdNum() < 2) { 
                            if (tableValid.getTdnum() > 0) { 
                                return; 
                            } else { 
                                continue; 
                            } 
                        } else { 
                            if (tableValid.getTdnum() == 0) { 
                                tableValid.setTdnum(tcValid.getTdNum()); 
                                tableValid.setTrnum(tableValid.getTrnum() + 1); 
                            } else { 
                                if (tableValid.getTdnum() == tcValid.getTdNum()) { 
                                    tableValid.setTrnum(tableValid.getTrnum() + 
                                        1); 
                                } else { 
                                    return; 
                                } 
                            } 
                        } 
                    } 
                } else { 
                    isValidTable(node, tableValid); 
                } 
            } 
        } catch (Exception e) { 
            return; 
        } 

        return; 
    } 

    /** 
    * 判断是否有效TR 
    * @param nodeP 
    * @param TcValid 
    * @return 
    */ 
    private void findTD(Node nodeP, TableColumnValid tcValid) { 
        NodeList nodeList = nodeP.getChildren(); 

        /**如果该表单没有子节点则返回**/ 
        if ((nodeList == null) || (nodeList.size() == 0)) { 
            return; 
        } 

        try { 
            for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) { 
                Node node = (Node) e.nextNode(); 

                /**如果有嵌套表单**/ 
                if (node instanceof TableTag || node instanceof Div || 
                        node instanceof TableRow || 
                        node instanceof TableHeader) { 
                    tcValid.setValid(false); 

                    return; 
                } else if (node instanceof ScriptTag || 
                        node instanceof StyleTag || node instanceof SelectTag) { 
                    tcValid.setValid(false); 

                    return; 
                } else if (node instanceof TableColumn) { 
                    tcValid.setTdNum(tcValid.getTdNum() + 1); 
                } else { 
                    findTD(node, tcValid); 
                } 
            } 
        } catch (Exception e) { 
            tcValid.setValid(false); 

            return; 
        } 

        return; 
    } 

    protected String collapse(String string) { 
        int chars; 
        int length; 
        int state; 
        char character; 
        StringBuffer buffer = new StringBuffer(); 
        chars = string.length(); 

        if (0 != chars) { 
            length = buffer.length(); 
            state = ((0 == length) || (buffer.charAt(length - 1) == ' ') || 
                ((lineSign_size <= length) && 
                buffer.substring(length - lineSign_size, length).equals(lineSign))) 
                ? 0 : 1; 

            for (int i = 0; i < chars; i++) { 
                character = string.charAt(i); 

                switch (character) { 
                case '\u0020': 
                case '\u0009': 
                case '\u000C': 
                case '\u200B': 
                case '\u00a0': 
                case '\r': 
                case '\n': 

                    if (0 != state) { 
                        state = 1; 
                    } 

                    break; 

                default: 

                    if (1 == state) { 
                        buffer.append(' '); 
                    } 

                    state = 2; 
                    buffer.append(character); 
                } 
            } 
        } 

        return buffer.toString(); 
    } 

· 正文抽取.rar (5.9 KB)

posted on 2013-01-14 22:27  烤德  阅读(1435)  评论(0)    收藏  举报