会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
阿星Plus
生命不息,奋斗不止
管理
上一页
1
···
4
5
6
7
8
9
10
下一页
2019年7月17日
Scrapy-Redis分布式爬虫
摘要: Scrapy Redis分布式爬虫组件 Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,使得爬虫可以进行分布式。可以充分的利用资源(多个ip、更多带宽、
阅读全文
posted @ 2019-07-17 20:19 阿星Plus
阅读(232)
评论(0)
推荐(0)
2019年7月16日
Scrapy框架
摘要: Scrapy框架介绍 写一个爬虫,需要做很多的事情,比如:发送网络请求、数据解析、数据存储、反反爬虫机制(ip代理,设置请求头等)、异步请求等等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此scrapy把一些基础的东西都封装好了,在scrapy框架上开发爬虫可以变得更加的高效,爬取效率
阅读全文
posted @ 2019-07-16 19:51 阿星Plus
阅读(311)
评论(0)
推荐(0)
2019年7月15日
图形验证码识别
摘要: 图形验证码识别技术 阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在一
阅读全文
posted @ 2019-07-15 23:22 阿星Plus
阅读(596)
评论(0)
推荐(0)
2019年7月14日
动态网页爬虫
摘要: Ajax是什么 AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新
阅读全文
posted @ 2019-07-14 22:34 阿星Plus
阅读(323)
评论(0)
推荐(0)
2019年7月13日
多线程爬虫
摘要: 有些时候,比如下载图片,是一个比较耗时的操作,如果采用同步的方式去下载,效率肯定会特别慢,这时候我们就可以考虑使用多线程的方式来下载图片 多线程介绍 多线程是为了同步完成多项任务,通过提高资源使用效率来进一步提高系统的效率 线程是在同一时间需要完成多项任务的时候实现的 最简单的比喻,多线程就像火车的
阅读全文
posted @ 2019-07-13 21:51 阿星Plus
阅读(396)
评论(0)
推荐(0)
2019年7月12日
Python操作MongoDB数据库
摘要: MongoDB 原生语句 "MongoDB Shell 命令" 安装pymongo Python连接MongoDB
阅读全文
posted @ 2019-07-12 20:40 阿星Plus
阅读(282)
评论(0)
推荐(0)
2019年7月11日
Python操作MySQL数据库
摘要: Windows下安装MySQL 详细可参考 "Windows下MySQL安装流程,8.0以上版本ROOT密码报错及修改" 安装驱动程序 python想要操作MySQL,必须要有一个中间件,或者叫做驱动程序,驱动程序有很多,mysqlclient、mysqldb、pymysql。我选择用pymysql
阅读全文
posted @ 2019-07-11 19:30 阿星Plus
阅读(229)
评论(0)
推荐(0)
2019年7月10日
csv文件处理
摘要: 读取csv文件 这样操作以后获取数据的时候,就要通过下标来获取数据。如果想要在获取数据的时候通过标题来获取,那么就可以使用 DictReader 写入数据到csv文件 写入数据到csv文件,需要创建一个write对象,主要用到两个方法,一个是writerow写入一行,一个是writerows写入多行
阅读全文
posted @ 2019-07-10 23:11 阿星Plus
阅读(198)
评论(0)
推荐(0)
2019年7月9日
json文件处理
摘要: 什么是json JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语
阅读全文
posted @ 2019-07-09 22:45 阿星Plus
阅读(1243)
评论(0)
推荐(0)
2019年7月8日
re模块
摘要: match 从开始的位置进行匹配,如果开始的位置没有匹配到,就直接匹配失败 如果第一个字母不是h,那么就会失败 如果想要匹配换行的数据,那么就要传入一个 ,就可以匹配换行符了 search 在字符串中找满足条件的字符,如果找到,就返回,就是只会找到第一个满足条件的 group 在正则表达式中,可以对
阅读全文
posted @ 2019-07-08 21:34 阿星Plus
阅读(144)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
下一页
公告