随笔分类 - python爬虫
摘要:1.1 compile(pattern):创建模式对象 1.2 search(pattern,string):在字符串中寻找模式 1.3 match(pattern,string):在字符串开始处匹配模式 等价于 上面的函数返回都可以在if条件语句中进行判断: 1.4 split(pattern,s
阅读全文
摘要:Python爬虫总结 总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息。 目前公认比较好用的爬虫框架为Scrapy,而且直接使用框架比自己使用requests、 beautifulsoup、 re包编写爬虫更加方便简单。
阅读全文
摘要:本文目的:介绍如何抓取微博内容,利用requests包+cookies实现登陆微博,lxml包的xpath语法解析网页,抓取目标内容。 所需python包:requests、lxml 皆使用pip安装即可 XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置
阅读全文
摘要:记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995.html。 比较简单的网站不同的页码的链接也不同,可以通过观察链接的变化找出规律,然后生成全部页码对
阅读全文

浙公网安备 33010602011771号