随笔分类 -  爬虫笔记

摘要:最近在写爬虫时需要获取javascrip的一些内容,需要配置selenium来使用,在此整理一下我在windows下的安装步骤: 1.安装好chrome浏览器,并在设置里查看chrome的版本,示例如下: 2.下载好对应的chromedriver版本,下载地址:"http://chromedrive 阅读全文
posted @ 2019-03-28 22:00 皮皮嘉 阅读(558) 评论(0) 推荐(0)
摘要:官方网站:"https://selenium-python.readthedocs.io/index.html" Selenium操作主要分两大类:1.得到UI元素: - find_element_by_id - find_elements_by_name - find_elements_by_xp 阅读全文
posted @ 2019-03-28 21:40 皮皮嘉 阅读(705) 评论(0) 推荐(0)
摘要:BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,它能实现文档的导航和查找,修改文档等操作 官方文档地址:"https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/" 几个常用提取信息工具的比较: - 正则:很快,使用复 阅读全文
posted @ 2019-03-28 16:24 皮皮嘉 阅读(3085) 评论(0) 推荐(0)
摘要:使用代理服务器去爬虫的原因: 使用同一个IP去爬取同一个网站上的网页,久了之后会被该网站服务器屏蔽。这个时候我们就可以使用代理服务器。因为使用代理服务器去爬取某个网站的时候,在对方的网站上,显示的不是我们真实的IP地址,而是代理服务器的IP地址。 推荐两个获取免费代理服务器的网址: www.goub 阅读全文
posted @ 2019-03-24 12:07 皮皮嘉 阅读(1226) 评论(0) 推荐(0)
摘要:今天在爬取一个网页时发现总是爬取不成功,信息量很少,只有几行代码,而原网页代码量是很多的,后来我把url中的https换成了http后就把网页源码全部爬取了,查了资料后发现url中使用http和https是有很大区别的:http获取数据时信息齐全,https获取数据的信息有缺失,在确定网络地址后,一 阅读全文
posted @ 2019-03-22 13:32 皮皮嘉 阅读(6438) 评论(0) 推荐(0)