摘要: 1.Scrapy框架简介 1.1 Scrapy框架介绍 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的 阅读全文
posted @ 2019-04-09 14:23 enjoyzier 阅读(617) 评论(0) 推荐(0)
摘要: >>>>>>待续 阅读全文
posted @ 2019-04-08 17:51 enjoyzier 阅读(203) 评论(0) 推荐(0)
摘要: 1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的 阅读全文
posted @ 2019-04-04 15:17 enjoyzier 阅读(3213) 评论(1) 推荐(0)
摘要: 1.使用传统方式爬取“斗图啦”网站的图片 #-*-coding = utf-8 -*- import requests from lxml import etree import re import os.path from urllib import request def parse_page( 阅读全文
posted @ 2019-04-03 13:01 enjoyzier 阅读(440) 评论(0) 推荐(0)
摘要: 1. MongoDB简介 MongoDB是一个基于分布式文件存储的NoSQL数据库,具有以下特点: 易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据库。不采用关系型主要是为了获得更好的扩展性。当然还有一些其他好处,与关系数据库相比,面向文档的数据库 阅读全文
posted @ 2019-03-29 18:29 enjoyzier 阅读(468) 评论(0) 推荐(0)
摘要: 1. 正则表达式常用匹配规则 1.1 匹配某个字符串 text = 'hello' ret = re.match('he',text)#math从字符串起始位置开始匹配,起始位置未匹配返回None print(ret.group()) >> he 以上便可以在hello中,匹配出he。 1.2 点( 阅读全文
posted @ 2019-03-28 15:23 enjoyzier 阅读(1538) 评论(0) 推荐(0)
摘要: 1. BeautifulSoup库简介 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model 阅读全文
posted @ 2019-03-22 16:40 enjoyzier 阅读(417) 评论(0) 推荐(0)
摘要: lxml中文文档https://www.w3cschool.cn/lxml/ 1. Xpath 1 )什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 2) XPath开发工具 Ch 阅读全文
posted @ 2019-03-20 11:12 enjoyzier 阅读(583) 评论(0) 推荐(0)
摘要: 什么是cookie: 在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候, 阅读全文
posted @ 2019-03-19 16:22 enjoyzier 阅读(424) 评论(0) 推荐(0)
摘要: urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 urlopen函数: 在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlo 阅读全文
posted @ 2019-03-19 12:14 enjoyzier 阅读(282) 评论(0) 推荐(0)