enjoyzier

2019年4月9日

摘要： 1.Scrapy框架简介 1.1 Scrapy框架介绍写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的阅读全文

posted @ 2019-04-09 14:23 enjoyzier 阅读(618) 评论(0) 推荐(0)

2019年4月8日

爬虫之图形验证码识别技术

摘要： >>>>>>待续阅读全文

posted @ 2019-04-08 17:51 enjoyzier 阅读(203) 评论(0) 推荐(0)

2019年4月4日

selenium抓取动态网页数据

摘要： 1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX（Asynchronouse JavaScript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的阅读全文

posted @ 2019-04-04 15:17 enjoyzier 阅读(3223) 评论(1) 推荐(0)

2019年4月3日

爬虫之多线程、异步

摘要： 1.使用传统方式爬取“斗图啦”网站的图片 #-*-coding = utf-8 -*- import requests from lxml import etree import re import os.path from urllib import request def parse_page( 阅读全文

posted @ 2019-04-03 13:01 enjoyzier 阅读(441) 评论(0) 推荐(0)

2019年3月29日

MongoDB

摘要： 1. MongoDB简介 MongoDB是一个基于分布式文件存储的NoSQL数据库，具有以下特点：易用性 MongoDB是一个面向文档（document-oriented）的数据库，而不是关系型数据库。不采用关系型主要是为了获得更好的扩展性。当然还有一些其他好处，与关系数据库相比，面向文档的数据库阅读全文

posted @ 2019-03-29 18:29 enjoyzier 阅读(468) 评论(0) 推荐(0)

2019年3月28日

python之正则表达式模块

摘要： 1. 正则表达式常用匹配规则 1.1 匹配某个字符串 text = 'hello' ret = re.match('he',text)#math从字符串起始位置开始匹配，起始位置未匹配返回None print(ret.group()) >> he 以上便可以在hello中，匹配出he。 1.2 点（阅读全文

posted @ 2019-03-28 15:23 enjoyzier 阅读(1540) 评论(0) 推荐(0)

2019年3月22日

python之BeautifulSoup库

摘要： 1. BeautifulSoup库简介和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model 阅读全文

posted @ 2019-03-22 16:40 enjoyzier 阅读(420) 评论(0) 推荐(0)

2019年3月20日

Xpath语法与lxml库

摘要： lxml中文文档https://www.w3cschool.cn/lxml/ 1. Xpath 1 )什么是XPath？ xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。 2) XPath开发工具 Ch 阅读全文

posted @ 2019-03-20 11:12 enjoyzier 阅读(584) 评论(0) 推荐(0)

2019年3月19日

爬虫之cookie

摘要：什么是cookie：在网站中，http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后，第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题，第一次登录后服务器返回一些数据（cookie）给浏览器，然后浏览器保存在本地，当该用户发送第二次请求的时候，阅读全文

posted @ 2019-03-19 16:22 enjoyzier 阅读(425) 评论(0) 推荐(0)

python之urllib库

摘要： urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。 urlopen函数：在Python3的urllib库中，所有和网络请求相关的方法，都被集到urllib.request模块下面了，以先来看下urlo 阅读全文

posted @ 2019-03-19 12:14 enjoyzier 阅读(282) 评论(0) 推荐(0)

公告