随笔分类 -  爬虫

摘要:1. selenium概述 我们在抓取一些普通网页的时候requests基本上是可以满足的. 但是, 如果遇到一些特殊的网站. 它的数据是经过加密的. 但是呢, 浏览器却能够正常显示出来. 那我们通过requests抓取到的内容可能就不是我们想要的结果了 简单介绍一下selenium, 它本身是一个 阅读全文
posted @ 2022-06-09 11:07 沈忻凯 阅读(852) 评论(0) 推荐(0)
摘要:多线程 from threading import Thread,current_thread import time def task(n): print("%s is running" %current_thread().name) time.sleep(n) print("%s is end" 阅读全文
posted @ 2022-06-01 23:29 沈忻凯 阅读(189) 评论(0) 推荐(0)
摘要:Cookie 介绍 cookie就是保存在客户端(浏览器)上的一个字符串. 在每次发送请求时, 浏览器会自动的带上cookie的信息传递给服务器. 尤其在用户登录后, 为了能准确的获取到用户登录信息. cookie一般都会在请求是跟随请求头一起提交到服务器. cookie 案例 如果是临时需要, 我 阅读全文
posted @ 2022-05-22 16:16 沈忻凯 阅读(193) 评论(0) 推荐(0)
摘要:1.xpath方法 1.1 安装 pip install lxml 1.2 etree.HTML(页面源代码) page = etree.HTML(content) # type: etree._Element # 给pycharm看的 # 默认pycharm不知道什么类型. 没有代码提示 # 以后 阅读全文
posted @ 2022-05-20 16:42 沈忻凯 阅读(90) 评论(0) 推荐(0)
摘要:Beautifulsoup简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的 阅读全文
posted @ 2022-05-19 13:07 沈忻凯 阅读(91) 评论(0) 推荐(0)
摘要:一、正则基础 1、正则使用方法 1. [] 原子表 [a] 匹配小写字母a [ab] 匹配小写字母a或者b ab 匹配小写字母ab [abc] 匹配小写字母a或者b或者c [AaBbCc] 匹配字母a或者b或者c [123] 匹配数字1或者2或者3 123 匹配数字123 [a-z] 匹配任意一位小 阅读全文
posted @ 2022-05-19 12:38 沈忻凯 阅读(114) 评论(0) 推荐(0)
摘要:一、爬虫 一、requests 二、re正则模块 三、BeautifulSoup4 四、xpath 五、Cookie、Session、防盗链、代理 六、多线程、线程池、多进程、协程 七、Selenium 二、Scrapy框架 一、Scrapy基础介绍与使用 二、Scrapy详情页与分页 三、Scra 阅读全文
posted @ 2022-05-16 20:31 沈忻凯 阅读(101) 评论(0) 推荐(0)
摘要:爬虫介绍 反爬机制 门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。 反反爬策略 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中相关的数据。 robots.txt协议:百度蜘蛛 君子协议。规定了网站中哪些数据可以被爬虫爬 阅读全文
posted @ 2022-05-16 20:25 沈忻凯 阅读(67) 评论(0) 推荐(0)