随笔分类 -  Python Spider

【Python爬虫学习笔记(3)】Beautiful Soup库相关知识点总结
摘要:1. Beautiful Soup简介Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减少爬虫程序的运行时间。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为ut... 阅读全文

posted @ 2015-08-31 16:50 EscapePlan 阅读(8291) 评论(0) 推荐(1)

【Python爬虫学习笔记(2)】正则表达式(re模块)相关知识点总结
摘要:1. 正则表达式 正则表达式是可以匹配文本片段的模式。1.1 通配符 正则表达式能够匹配对于一个的字符串,可以使用特殊字符创建这类模式。(图片来自cnblogs)1.2 特殊字符的转义 由于在正则表达式中,有时需要将特殊字符作为普通字符处理,就需要用‘\’进行转义,例如‘python\\.org’就... 阅读全文

posted @ 2015-08-30 19:26 EscapePlan 阅读(1457) 评论(0) 推荐(0)

【Python爬虫学习笔记(1)】urllib2库相关知识点总结
摘要:1. urllib2的opener和handler概念 1.1Openers: 当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。正常情况下,我们使用默认opener:通过urlopen。但你能够创建个性的openers。可以用build_ope... 阅读全文

posted @ 2015-08-21 20:54 EscapePlan 阅读(1097) 评论(0) 推荐(0)

导航