摘要:
可以使用的方法: 1.正则表达式 正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。 2.joyhtml JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。 3.boilerpipe 阅读全文
posted @ 2017-05-02 09:45
cuiyubo
阅读(714)
评论(0)
推荐(0)

浙公网安备 33010602011771号