2017 年 7月 7 日随笔档案 - ryuuku

2017年7月7日

摘要：一.Beautiful Soup的安装与测试官方网站：https://www.crummy.com/software/BeautifulSoup/ Beautiful Soup安装与使用文档: https://www.crummy.com/software/BeautifulSoup/bs4/do 阅读全文

posted @ 2017-07-07 23:16 ryuuku 阅读(620) 评论(0) 推荐(0)

爬虫学习——网页解释器简介

摘要：一、Python的网页解析器优点：看起来比较直观缺点：若文档比较复杂，这种解析方式会显得很麻烦 2.html.parser:此为python自带的解析器 3.lxml：第三方插件解析器，可解析html和xml网页 4.Beautiful Soup:强大的第三方插件解析器，可使用html.pars 阅读全文

posted @ 2017-07-07 17:43 ryuuku 阅读(467) 评论(0) 推荐(0)

爬虫学习——urllib2三种方法的实例

摘要：不说废话直接插代码运行后如下图所示阅读全文

posted @ 2017-07-07 17:08 ryuuku 阅读(321) 评论(0) 推荐(0)

爬虫学习——网页下载器和urllib2模块

摘要：什么是网页下载器？一、网页下载器是爬虫的核心组件二、常用的python网页下载器有urlilib2基础模块和requests第三方插件两种 urllib2支持功能：1.支持直接url下载；2.支持向网页直接输入的数据；3.支持需要登陆网页的cookie处理；4.需要代理访问的代理处理三、url 阅读全文

posted @ 2017-07-07 11:47 ryuuku 阅读(2296) 评论(0) 推荐(0)

爬虫学习——URL管理器和实现方法

摘要： url管理器一共有三种实现方法，作为个人，我们应当选择哪种实现方法呢？答案就在下面爬虫的简单架构一、URL管理器实现方式：有三种 1.内存中 python中set()可以直接去除重复的元素 2.关系数据库中比如：mysql中的urls（url,is_crawled）建立一个urls表包含两阅读全文

posted @ 2017-07-07 10:59 ryuuku 阅读(1200) 评论(0) 推荐(0)

ctf入门：黑客闯关游戏和答案网址汇总

摘要：对于那些想入门和刚入门又感到不知从何学起的同学非常有用，可以全方位的了解ctf的大致题型，黑客游戏脑洞都比较大。 http://1111.segmentfault.com/ 光棍节程序员闯关秀答案：https://www.waitalone.cn/11-game.html http://www.f 阅读全文

posted @ 2017-07-07 09:57 ryuuku 阅读(5344) 评论(0) 推荐(0)

ryuuku

公告