浙江省高等学校教师教育理论培训

微信搜索“毛凌志岗前心得”小程序

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

MyProject / FuzzyPages | Elias的个人主页

我使用本脚本处理httrack程序下载的phpbb2论坛页面,对下载页面中的冗余部分进行去除和合并,以达到减小文件大小,以供存储的目的。

原理是:如果两个html页面十分相似(用diff检查的差别小于定义的最大差别),那么删除其中的一个,将其余文件中指向被删除文件的链接改为指向与之相似的文件。

具体实现看代码好了。使用了Python的os,re,difflib库。

Attach:FuzzyPages.zip

posted on 2012-05-16 23:05  lexus  阅读(234)  评论(0)    收藏  举报