2018年2月22日

六、BeautifulSoup4------自动登录网站(手动版)

摘要: 每天一个小实例:(按照教学视频上自动登录的网站,很容易就成功了。自已练习登录别的网站,问题不断) 这个自己分析登录boss直聘。我用了一下午的时间,而且还是手动输入验证码,自动识别输入验证码的还没成功,果然是师傅领进门,修行看个人,以后要多练 第一步、先访问网站,分析一下登录需要什么数据 第二步、创 阅读全文

posted @ 2018-02-22 12:07 酱紫安 阅读(1124) 评论(0) 推荐(0)

2018年2月21日

五、XML与xpath--------------爬取美女图片

摘要: 除了正则表达式处理HTML文档,我们还可以用XPath,先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。 先用一个小实例开头吧(爬取贴吧每个帖子的图片) 运行结果: 打开存储图片的文件夹: 一、什么是XML? XML 指可扩展标记语言(eXtensible M 阅读全文

posted @ 2018-02-21 08:29 酱紫安 阅读(1915) 评论(4) 推荐(5)

2018年2月20日

四、正则表达式re模块

摘要: 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正则表达式和另一个字符 阅读全文

posted @ 2018-02-20 12:00 酱紫安 阅读(326) 评论(0) 推荐(0)

三、Requests库的使用

摘要: requests 的底层实现其实就是 urllib3 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 学过关于urllib库的使用,你会发现它是很不方便的。而Requests工作起来会比urllib方便,Requests是Python实现的最简单易用的HTTP 阅读全文

posted @ 2018-02-20 10:41 酱紫安 阅读(864) 评论(2) 推荐(0)

二、urllib进阶

摘要: Handler处理器 和 自定义Opener opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/ 阅读全文

posted @ 2018-02-20 00:11 酱紫安 阅读(325) 评论(0) 推荐(0)

2018年2月19日

一、爬虫的基本体系和urllib的基本使用

摘要: 爬虫 网络是一爬虫种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。 爬虫的分类 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件 阅读全文

posted @ 2018-02-19 09:49 酱紫安 阅读(535) 评论(2) 推荐(0)

导航