随笔分类 -  Python数据爬虫

摘要:淘宝商品比价定向爬虫 目标:获取淘宝搜索页面信息,提取其中的商品名称和价格 程序的结构设计: 阅读全文
posted @ 2018-02-20 13:40 未来分析师 阅读(264) 评论(0) 推荐(0)
摘要:在学习了嵩天老师的《Python网络爬虫与信息提取课程》之后,我自己尝试按照老师的步骤做了一个小demo。 爬取有趣网址之家首页中有趣网站。 url = “https://youquhome.com/” 代码如下: 阅读全文
posted @ 2018-02-19 20:08 未来分析师 阅读(405) 评论(0) 推荐(0)
摘要:注:本文仅是个人的学习笔记,内容来源于中国大学mooc《Python网络爬虫与信息提取》课程 一 信息标记与提取方法 信息标记三种方式: XML <>...</> JSON 有类型键值对:key:value YAML 无类型键值对:key:value 信息提取的一般方法: <>.find_all() 阅读全文
posted @ 2018-02-18 21:22 未来分析师 阅读(629) 评论(0) 推荐(0)
摘要:注:本文仅是个人的学习笔记,内容来源于中国大学mooc《Python网络爬虫与信息提取》课程 一 京东商品页面爬取 二 亚马逊商品页面的爬取 1 用一个字典kv保存需要修改的头部信息。 2 获取头部信息: 3 访问url时,修改头部信息 三 百度/360搜索关键词提交 字典kv用于保存需要查找到ke 阅读全文
posted @ 2018-02-17 22:31 未来分析师 阅读(1182) 评论(0) 推荐(0)
摘要:程序设计: 我们要完成的目的:在复制整个文本之后运行程序,就可以粘贴文本中所有电话号码和邮件。 过程: 使用pyperclip模块复制和粘贴字符串。 创建两个正则表达式,一个匹配电话号码,另一个匹配E-mail。 对两个正则表达式找到所有的匹配(findall()方法)。 整理匹配到的字符串格式,放 阅读全文
posted @ 2018-02-04 16:26 未来分析师 阅读(1404) 评论(0) 推荐(0)
摘要:一 不区分大小写的匹配 通常,正则表达式不区分大小写。 要让正则表达式区分大小写,可以向re.comppile()传入re.IGNORECASE或re.I作为第二个参数。 例如: 二 用sub()方法替换字符串 正则表达式可以用新的文本替换旧的文本。 Regex对象的sub()方法有两个参数:一个用 阅读全文
posted @ 2018-02-04 12:13 未来分析师 阅读(170) 评论(0) 推荐(0)
摘要:一 字符分类 缩写字符分类: \d 0-9的任何数字 \D 除0-9的数字以外的任何字符 \w 任何字母数字或下划线字符(可以认为是匹配“单词”字符) \W 除字母,数字和下划线以外的任何字符 \s 空格,制表符或换行符(可以认为是匹配“空白”字符) \S 除空格,制表符和换行符以外的任何字符 [0 阅读全文
posted @ 2018-02-03 19:07 未来分析师 阅读(223) 评论(0) 推荐(0)
摘要:贪心和非贪心匹配 Python正则表达式默认是贪心的,在有二异的情况下,他们会尽可能的匹配最长的字符串。 所以当我们使用(Ha){3,5}匹配'HaHaHaHaHa'的时候回匹配到'HaHaHaHaHa'。 而{}?既是非贪心版本,它会尽可能的匹配最短的字符串。 例如: 运行结果: 注意:?问号在正 阅读全文
posted @ 2018-02-03 00:16 未来分析师 阅读(140) 评论(0) 推荐(0)
摘要:利用正则表达式匹配更多模式 一 利用括号分组 括号可以将正则表达式分组,然后使用group()方法分组的获取匹配的文本。 上节的例子: 运行结果如下: 如果你想要一次性获得所有的分组,可以使用groups()方法,但记住groups()方法返回的是元组,需要获得其中的值才可已打印。 例如: 运行结果 阅读全文
posted @ 2018-02-02 17:44 未来分析师 阅读(165) 评论(0) 推荐(0)
摘要:Python中左右表达式的函数都在re模块中。 一 用正则表达式查找文本模式 创建正则表达式对象:向re.compile()传入一个字符串值,表示正则表达式,他将返回一个Regex模式对象。 regex对象: 二 正则表达式匹配的一般步骤; 阅读全文
posted @ 2018-02-02 15:01 未来分析师 阅读(137) 评论(0) 推荐(0)
摘要:项目一 从豆瓣上面找出一本你感兴趣的书,抓取它的某一页短评,并计算其总分。 目标网页:https://book.douban.com/subject/27188298/comments/ 第一步:使用requests库和BeautifulSoup对目标网页进行解析。 运行的结果如下: 第二步:计算总 阅读全文
posted @ 2018-02-01 10:52 未来分析师 阅读(416) 评论(0) 推荐(0)