摘要: (一) 说明 在上一篇的基础上修改了下,使用lxml提取博客园随笔正文内容,并保存到Word文档中。 操作Word文档会用到下面的模块: pip install python-docx 修改的代码(主要是在link_crawler()的while循环中增加了下面这段) (二) 完整代码(delaye 阅读全文
posted @ 2018-04-10 18:36 free赖权华 阅读(2732) 评论(0) 推荐(0)
摘要: (一)代码1(link_crawler()和get_links()实现链接爬虫) (二)delayed.py(实现下载限速的类) 阅读全文
posted @ 2018-04-10 12:23 free赖权华 阅读(2262) 评论(0) 推荐(0)