数据抓取
大数据分析——数据抓取
- IOT数据抓取
1、系统架构
2、架构说明
系统架构分成三层和四个功能 ,三层分布式M2M层、M2C层、平台应用层,四个功能是 数据采集、连接、逻辑处理、存储
M2M层: 主要指的是硬件数据采集层,它包括但设备数据通过NB-IOT、WIFI、4G、5G、RJ45的方式直接上传云端,设备直接互相通信,把数据传输到中控或是网关再上传 到云端; 具体的方式请参阅互联网设备M2M层系统搭建;
M2C层: M2C层主要包括设备配网、绑定、鉴权、连接、话题订阅等功能;
-
- 配网 :配网指的是设备需要得到上网的路由,并进行相连; 比如以WIFI方式上网的方式需要让设备得到路由器的SSID和密码,然后通过SSID和密码连接到路由器。
- 绑定 : 绑定指的是设备需要告诉系统它是什么类型,设备模型是什么,设备属于哪个用户等信息; 在平台对设备和用户等信息进行填充。
- 鉴权 : 鉴权指的是设备需要获得平台系统的授权,才可以正常连接平台
- 连接 : 指的是设备与平台的推送系统进行长连接; 包括连接、心跳、重连等话题
- 话题订阅 : 话题订阅指的是某个设备推送到平台的系统的信息需要让那些客户端知晓,并进行相应的逻辑处理
平台应用层 : 平台应用层主要有两个功能,一个是当EMQ不具备固化功能时承接固化功能。另外一个是应用功能, 比如事件触发逻辑运算、用户控制操作命令执行等
- 网络爬虫
1、系统架构
2、抓取策略
-
- 深度优先遍历策略
- 宽度优先遍历策略
- 反向链接数策略
- PartiaRank策略
- OPIC(重要性打分)策略
- 大站优先策略
- 日志系统