会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Alex
每个人都有属于自己的一片森林,也许我们从来不曾去过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢!
一只丶顽皮猫
博客园
首页
新随笔
联系
订阅
管理
08 2018 档案
shell变量
摘要:Shell 变量 定义变量时,变量名不加美元符号($,PHP语言中变量需要),如: 注意,变量名和等号之间不能有空格,这可能和你熟悉的所有编程语言都不一样。同时,变量名的命名须遵循如下规则: 命名只能使用英文字母,数字和下划线,首个字符不能以数字开头。 中间不能有空格,可以使用下划线(_)。 不能使
阅读全文
posted @
2018-08-29 01:15
Alex_c
阅读(141)
评论(0)
推荐(0)
简单分布式爬虫
摘要:简单分布式爬虫 一、简单分布式爬虫结构 主从模式,主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了, 在这个过程中不必与其他爬虫通信,这种方式实现简单、利于管理。而控制节点则需要与所有爬虫进行通信,因此可有看到
阅读全文
posted @
2018-08-24 15:51
Alex_c
阅读(279)
评论(0)
推荐(0)
基础的爬虫框架及运行流程
摘要:爬虫框架的基础和运行流程 基本的框架流程 基础爬虫框架主要包括五大模块、分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下: 爬虫调度器主要负责统筹其他四个模块的协调工作。 URL管理器负责URL链接的管理,维护已经爬取的URL集合和未爬取的URL集合,提供获取
阅读全文
posted @
2018-08-24 12:04
Alex_c
阅读(1947)
评论(0)
推荐(0)
爬虫存储器
摘要:爬虫数据存储 1、 HTML正文抽取 1.1、存储为json 首先使用Requests访问http://seputu.com/,获取HTML文档内容,并打印内容,代码如下 1.2、爬虫异常发送邮件 开启网易邮件的第三方设置 获取邮箱授权码 #构造MIMEText对象时需要3个参数:邮件正文,MIME
阅读全文
posted @
2018-08-23 20:13
Alex_c
阅读(194)
评论(0)
推荐(0)
公告