会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
enjoyzier
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
下一页
2019年4月9日
爬虫之scrapy框架
摘要: 1.Scrapy框架简介 1.1 Scrapy框架介绍 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的
阅读全文
posted @ 2019-04-09 14:23 enjoyzier
阅读(617)
评论(0)
推荐(0)
2019年4月8日
爬虫之图形验证码识别技术
摘要: >>>>>>待续
阅读全文
posted @ 2019-04-08 17:51 enjoyzier
阅读(203)
评论(0)
推荐(0)
2019年4月4日
selenium抓取动态网页数据
摘要: 1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的
阅读全文
posted @ 2019-04-04 15:17 enjoyzier
阅读(3213)
评论(1)
推荐(0)
2019年4月3日
爬虫之多线程、异步
摘要: 1.使用传统方式爬取“斗图啦”网站的图片 #-*-coding = utf-8 -*- import requests from lxml import etree import re import os.path from urllib import request def parse_page(
阅读全文
posted @ 2019-04-03 13:01 enjoyzier
阅读(440)
评论(0)
推荐(0)
2019年3月29日
MongoDB
摘要: 1. MongoDB简介 MongoDB是一个基于分布式文件存储的NoSQL数据库,具有以下特点: 易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据库。不采用关系型主要是为了获得更好的扩展性。当然还有一些其他好处,与关系数据库相比,面向文档的数据库
阅读全文
posted @ 2019-03-29 18:29 enjoyzier
阅读(468)
评论(0)
推荐(0)
2019年3月28日
python之正则表达式模块
摘要: 1. 正则表达式常用匹配规则 1.1 匹配某个字符串 text = 'hello' ret = re.match('he',text)#math从字符串起始位置开始匹配,起始位置未匹配返回None print(ret.group()) >> he 以上便可以在hello中,匹配出he。 1.2 点(
阅读全文
posted @ 2019-03-28 15:23 enjoyzier
阅读(1538)
评论(0)
推荐(0)
2019年3月22日
python之BeautifulSoup库
摘要: 1. BeautifulSoup库简介 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model
阅读全文
posted @ 2019-03-22 16:40 enjoyzier
阅读(417)
评论(0)
推荐(0)
2019年3月20日
Xpath语法与lxml库
摘要: lxml中文文档https://www.w3cschool.cn/lxml/ 1. Xpath 1 )什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 2) XPath开发工具 Ch
阅读全文
posted @ 2019-03-20 11:12 enjoyzier
阅读(583)
评论(0)
推荐(0)
2019年3月19日
爬虫之cookie
摘要: 什么是cookie: 在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,
阅读全文
posted @ 2019-03-19 16:22 enjoyzier
阅读(424)
评论(0)
推荐(0)
python之urllib库
摘要: urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 urlopen函数: 在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlo
阅读全文
posted @ 2019-03-19 12:14 enjoyzier
阅读(282)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告