摘要: 一.Beautiful Soup的安装与测试 官方网站:https://www.crummy.com/software/BeautifulSoup/ Beautiful Soup安装与使用文档: https://www.crummy.com/software/BeautifulSoup/bs4/do 阅读全文
posted @ 2017-07-07 23:16 ryuuku 阅读(620) 评论(0) 推荐(0)
摘要: 一、Python的网页解析器 优点:看起来比较直观 缺点:若文档比较复杂,这种解析方式会显得很麻烦 2.html.parser:此为python自带的解析器 3.lxml:第三方插件解析器,可解析html和xml网页 4.Beautiful Soup:强大的第三方插件解析器,可使用html.pars 阅读全文
posted @ 2017-07-07 17:43 ryuuku 阅读(467) 评论(0) 推荐(0)
摘要: 不说废话直接插代码 运行后如下图所示 阅读全文
posted @ 2017-07-07 17:08 ryuuku 阅读(321) 评论(0) 推荐(0)
摘要: 什么是网页下载器? 一、网页下载器是爬虫的核心组件 二、常用的python网页下载器有urlilib2基础模块和requests第三方插件两种 urllib2支持功能:1.支持直接url下载;2.支持向网页直接输入的数据;3.支持需要登陆网页的cookie处理;4.需要代理访问的代理处理 三、url 阅读全文
posted @ 2017-07-07 11:47 ryuuku 阅读(2296) 评论(0) 推荐(0)
摘要: url管理器一共有三种实现方法,作为个人,我们应当选择哪种实现方法呢?答案就在下面 爬虫的简单架构 一、URL管理器 实现方式:有三种 1.内存中 python中set()可以直接去除重复的元素 2.关系数据库中 比如:mysql中的urls(url,is_crawled) 建立一个urls表包含两 阅读全文
posted @ 2017-07-07 10:59 ryuuku 阅读(1200) 评论(0) 推荐(0)
摘要: 对于那些想入门和刚入门又感到不知从何学起的同学非常有用,可以全方位的了解ctf的大致题型,黑客游戏脑洞都比较大。 http://1111.segmentfault.com/ 光棍节程序员闯关秀 答案:https://www.waitalone.cn/11-game.html http://www.f 阅读全文
posted @ 2017-07-07 09:57 ryuuku 阅读(5344) 评论(0) 推荐(0)