2018 年 1月 19 日随笔档案 - ''竹先森゜

2018年1月19日

摘要：解析库就是在爬虫时自己制定一个规则，帮助我们抓取想要的内容时用的。常用的解析库有re模块的正则、beautifulsoup、pyquery等等。正则完全可以帮我们匹配到我们想要住区的内容，但正则比较麻烦，所以这里我们会用beautifulsoup。 beautifulsoup Beautiful S 阅读全文

posted @ 2018-01-19 19:17 ''竹先森゜阅读(3030) 评论(0) 推荐(3)

爬虫请求库——selenium

摘要： selenium模块 selenium 最初是一个自动化测试工具,而爬虫中使用它主要是为了解决 requests 无法直接执行 JavaScript 代码的问题。selenium 的缺点是效率会变得很慢。 selenium 本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来阅读全文

posted @ 2018-01-19 17:37 ''竹先森゜阅读(3109) 评论(0) 推荐(3)

爬虫请求库——requests

摘要：请求库，即可以模仿浏览器对网站发起请求的模块（库）。 requests模块使用requests可以模拟浏览器的请求，requests模块的本质是封装了urllib3模块的功能，比起之前用到的urllib，requests模块的api更加便捷 requests库发送请求将网页内容下载下来以后，并不会阅读全文

posted @ 2018-01-19 17:34 ''竹先森゜阅读(5097) 评论(0) 推荐(3)

what's the 爬虫之基本原理

摘要： what's the 爬虫？了解爬虫之前，我们首先要知道什么是互联网 1、什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，总体上像一张网一样。 2、互联网建立的目的？互联网的核心价值在于数据的共享和传递：数据是存放于一台台计算机上的，而将计算机互联到阅读全文

posted @ 2018-01-19 17:32 ''竹先森゜阅读(2801) 评论(0) 推荐(2)

谁见幽人独往来，缥缈孤鸿影。

公告