摘要:
算法思路:假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;最后找出最大的文本块作为正文-------------------------------... 阅读全文
posted @ 2014-03-11 23:58
刺猬的温驯
阅读(468)
评论(0)
推荐(0)