爬虫 - 随笔分类 - 沈忻凯

Selenium

摘要：1. selenium概述我们在抓取一些普通网页的时候requests基本上是可以满足的. 但是, 如果遇到一些特殊的网站. 它的数据是经过加密的. 但是呢, 浏览器却能够正常显示出来. 那我们通过requests抓取到的内容可能就不是我们想要的结果了简单介绍一下selenium, 它本身是一个阅读全文

posted @ 2022-06-09 11:07 沈忻凯阅读(852) 评论(0) 推荐(0)

多线程、线程池、多进程、协程

摘要：多线程 from threading import Thread,current_thread import time def task(n): print("%s is running" %current_thread().name) time.sleep(n) print("%s is end" 阅读全文

posted @ 2022-06-01 23:29 沈忻凯阅读(189) 评论(0) 推荐(0)

Cookie、Session、防盗链、代理

摘要：Cookie 介绍 cookie就是保存在客户端(浏览器)上的一个字符串. 在每次发送请求时, 浏览器会自动的带上cookie的信息传递给服务器. 尤其在用户登录后, 为了能准确的获取到用户登录信息. cookie一般都会在请求是跟随请求头一起提交到服务器. cookie 案例如果是临时需要, 我阅读全文

posted @ 2022-05-22 16:16 沈忻凯阅读(193) 评论(0) 推荐(0)

xpath

摘要：1.xpath方法 1.1 安装 pip install lxml 1.2 etree.HTML(页面源代码) page = etree.HTML(content) # type: etree._Element # 给pycharm看的 # 默认pycharm不知道什么类型. 没有代码提示 # 以后阅读全文

posted @ 2022-05-20 16:42 沈忻凯阅读(90) 评论(0) 推荐(0)

Beautifulsoup4

摘要：Beautifulsoup简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的阅读全文

posted @ 2022-05-19 13:07 沈忻凯阅读(91) 评论(0) 推荐(0)

re模块

摘要：一、正则基础 1、正则使用方法 1. [] 原子表 [a] 匹配小写字母a [ab] 匹配小写字母a或者b ab 匹配小写字母ab [abc] 匹配小写字母a或者b或者c [AaBbCc] 匹配字母a或者b或者c [123] 匹配数字1或者2或者3 123 匹配数字123 [a-z] 匹配任意一位小阅读全文

posted @ 2022-05-19 12:38 沈忻凯阅读(114) 评论(0) 推荐(0)

Python-爬虫

摘要：一、爬虫一、requests 二、re正则模块三、BeautifulSoup4 四、xpath 五、Cookie、Session、防盗链、代理六、多线程、线程池、多进程、协程七、Selenium 二、Scrapy框架一、Scrapy基础介绍与使用二、Scrapy详情页与分页三、Scra 阅读全文

posted @ 2022-05-16 20:31 沈忻凯阅读(101) 评论(0) 推荐(0)

requests

摘要：爬虫介绍反爬机制门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。反反爬策略爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。 robots.txt协议：百度蜘蛛君子协议。规定了网站中哪些数据可以被爬虫爬阅读全文

posted @ 2022-05-16 20:25 沈忻凯阅读(67) 评论(0) 推荐(0)

小凯在努力~

随笔分类 - 爬虫

公告

小凯 在努力~

随笔分类 - 爬虫

公告

小凯在努力~