酱紫安

六、BeautifulSoup4------自动登录网站（手动版）

摘要：每天一个小实例：（按照教学视频上自动登录的网站，很容易就成功了。自已练习登录别的网站，问题不断）这个自己分析登录boss直聘。我用了一下午的时间，而且还是手动输入验证码，自动识别输入验证码的还没成功，果然是师傅领进门，修行看个人，以后要多练第一步、先访问网站，分析一下登录需要什么数据第二步、创阅读全文

posted @ 2018-02-22 12:07 酱紫安阅读(1131) 评论(0) 推荐(0)

五、XML与xpath--------------爬取美女图片

摘要：除了正则表达式处理HTML文档，我们还可以用XPath，先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。先用一个小实例开头吧（爬取贴吧每个帖子的图片）运行结果：打开存储图片的文件夹：一、什么是XML？ XML 指可扩展标记语言（eXtensible M 阅读全文

posted @ 2018-02-21 08:29 酱紫安阅读(1917) 评论(4) 推荐(5)

四、正则表达式re模块

摘要：什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符阅读全文

posted @ 2018-02-20 12:00 酱紫安阅读(327) 评论(0) 推荐(0)

三、Requests库的使用

摘要： requests 的底层实现其实就是 urllib3 Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。学过关于urllib库的使用，你会发现它是很不方便的。而Requests工作起来会比urllib方便，Requests是Python实现的最简单易用的HTTP 阅读全文

posted @ 2018-02-20 10:41 酱紫安阅读(866) 评论(2) 推荐(0)

二、urllib进阶

摘要： Handler处理器和自定义Opener opener是 urllib.request.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/ 阅读全文

posted @ 2018-02-20 00:11 酱紫安阅读(325) 评论(0) 推荐(0)

一、爬虫的基本体系和urllib的基本使用

摘要：爬虫网络是一爬虫种自动获取网页内容的程序，是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。爬虫的分类传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件阅读全文

posted @ 2018-02-19 09:49 酱紫安阅读(537) 评论(2) 推荐(0)