摘要: 为什么要做正文提取一般做舆情分析,都会涉及到网页正文内容提取。对于分析而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相干的部分给剔除。可以说正文提取的好坏,直接影响了分析结果的好坏。对于特定的网站,我们可以分析其html结构,根据其结构来获取正文信息。先看一下下面这张... 阅读全文
posted @ 2014-01-07 07:11 StanZhai 阅读(43870) 评论(91) 推荐(66) 编辑