摘要: 一、爬虫 一、requests 二、re正则模块 三、BeautifulSoup4 四、xpath 五、Cookie、Session、防盗链、代理 六、多线程、线程池、多进程、协程 七、Selenium 二、Scrapy框架 一、Scrapy基础介绍与使用 二、Scrapy详情页与分页 三、Scra 阅读全文
posted @ 2022-05-16 20:31 沈忻凯 阅读(92) 评论(0) 推荐(0)
摘要: 爬虫介绍 反爬机制 门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。 反反爬策略 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中相关的数据。 robots.txt协议:百度蜘蛛 君子协议。规定了网站中哪些数据可以被爬虫爬 阅读全文
posted @ 2022-05-16 20:25 沈忻凯 阅读(63) 评论(0) 推荐(0)