爬虫笔记 - 随笔分类 - 皮皮嘉

Selenium安装方法

摘要：最近在写爬虫时需要获取javascrip的一些内容，需要配置selenium来使用，在此整理一下我在windows下的安装步骤： 1.安装好chrome浏览器，并在设置里查看chrome的版本，示例如下： 2.下载好对应的chromedriver版本，下载地址："http://chromedrive 阅读全文

posted @ 2019-03-28 22:00 皮皮嘉阅读(558) 评论(0) 推荐(0)

Python中Selenium的使用方法

摘要：官方网站："https://selenium-python.readthedocs.io/index.html" Selenium操作主要分两大类：1.得到UI元素: - find_element_by_id - find_elements_by_name - find_elements_by_xp 阅读全文

posted @ 2019-03-28 21:40 皮皮嘉阅读(705) 评论(0) 推荐(0)

BeautifulSoup4的使用方法

摘要：BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库，它能实现文档的导航和查找,修改文档等操作官方文档地址："https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/" 几个常用提取信息工具的比较： - 正则：很快，使用复阅读全文

posted @ 2019-03-28 16:24 皮皮嘉阅读(3085) 评论(0) 推荐(0)

爬虫时如何使用代理服务器

摘要：使用代理服务器去爬虫的原因：使用同一个IP去爬取同一个网站上的网页，久了之后会被该网站服务器屏蔽。这个时候我们就可以使用代理服务器。因为使用代理服务器去爬取某个网站的时候，在对方的网站上，显示的不是我们真实的IP地址，而是代理服务器的IP地址。推荐两个获取免费代理服务器的网址： www.goub 阅读全文

posted @ 2019-03-24 12:07 皮皮嘉阅读(1226) 评论(0) 推荐(0)

爬虫时url中http和https的区别

摘要：今天在爬取一个网页时发现总是爬取不成功，信息量很少，只有几行代码，而原网页代码量是很多的，后来我把url中的https换成了http后就把网页源码全部爬取了，查了资料后发现url中使用http和https是有很大区别的：http获取数据时信息齐全，https获取数据的信息有缺失，在确定网络地址后，一阅读全文

posted @ 2019-03-22 13:32 皮皮嘉阅读(6438) 评论(0) 推荐(0)

皮皮嘉的博客

点击跳转到皮皮嘉的github

随笔分类 - 爬虫笔记

公告