python爬虫 - 随笔分类 - viczhang

python正则表达式笔记

摘要：1.1 compile(pattern)：创建模式对象 1.2 search(pattern,string)：在字符串中寻找模式 1.3 match(pattern,string)：在字符串开始处匹配模式等价于上面的函数返回都可以在if条件语句中进行判断： 1.4 split(pattern,s 阅读全文

posted @ 2018-08-15 11:27 viczhang 阅读(383) 评论(0) 推荐(0)

关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案

摘要：Python爬虫总结总的来说，Python爬虫所做的事情分为两个部分，1：将网页的内容全部抓取下来，2：对抓取到的内容和进行解析，得到我们需要的信息。目前公认比较好用的爬虫框架为Scrapy，而且直接使用框架比自己使用requests、 beautifulsoup、 re包编写爬虫更加方便简单。阅读全文

posted @ 2017-12-13 10:18 viczhang 阅读(7397) 评论(0) 推荐(0)

利用cookies+requests包登陆微博，使用xpath抓取目标用户的用户信息、微博以及对应评论

摘要：本文目的：介绍如何抓取微博内容，利用requests包+cookies实现登陆微博，lxml包的xpath语法解析网页，抓取目标内容。所需python包：requests、lxml 皆使用pip安装即可 XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置阅读全文

posted @ 2017-10-31 15:04 viczhang 阅读(1446) 评论(0) 推荐(0)

使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据

摘要：记录一次快速实现的python爬虫，想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案，网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995.html。比较简单的网站不同的页码的链接也不同，可以通过观察链接的变化找出规律，然后生成全部页码对阅读全文

posted @ 2017-10-30 15:49 viczhang 阅读(7969) 评论(0) 推荐(0)

viczhang

随笔分类 - python爬虫

公告