会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
我不知道取什么名字好
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
14
下一页
2022年3月17日
常用linux相关命令
摘要: 1.系统信息 uname -m:显示机器的处理器架构 uname -r:显示正在使用的内核版本 dmidecode -q:显示硬件系统部件 cat /proc/cpuinfo:显示CPU info的信息 cat /proc/interrupts:显示中断 cat /proc/meminfo:显示内存
阅读全文
posted @ 2022-03-17 01:43 我不知道取什么名字好
阅读(51)
评论(0)
推荐(0)
2022年2月27日
Mysql数据库 -
摘要: Mysql数据库 - 3.1概述 数据存储 人工管理阶段 缺点 : 数据存储量有限,共享处理麻烦,操作容易混乱 文件管理阶段 (.txt .doc .xls) 优点 : 数据可以长期保存,可以存储大量的数据,使用简单。 缺点 : 数据一致性差,数据查找修改不方便,数据冗余度可能比较大。 数据库管理阶
阅读全文
posted @ 2022-02-27 01:53 我不知道取什么名字好
阅读(146)
评论(0)
推荐(0)
2022年2月26日
hadoop,hive
摘要: 1. 大数据简介 1.1 大数据的由来 随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网、物联网建设的加快,信息更是爆炸式增长,收集、检索、统计这些信息越发困难,必须使用新的技术来解决这些问题 1.2 什么是大数据 【1】定义 大数据指无
阅读全文
posted @ 2022-02-26 16:13 我不知道取什么名字好
阅读(104)
评论(0)
推荐(0)
SPIDER-DAY08 -- 滑块验证,验证码。抓包,app数据抓取
摘要: SPIDER-DAY08 1. 腾讯招聘爬虫 scrapy项目代码 见day08笔记:Tencent 文件夹【1】一级页面 提取数据: 每个职位的PostId【2】二级页面 提取数据:1个职位的 名称、地点、类别、发布时间、职责、要求 2. 腾讯招聘数据持久化 建库建表SQL create data
阅读全文
posted @ 2022-02-26 15:57 我不知道取什么名字好
阅读(331)
评论(0)
推荐(0)
SPIDER-DAY07--scrapy框架
摘要: SPIDER-DAY07 1. scrapy框架 1.1 scrapy概述 定义 异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架 安装 【1】Ubuntu安装 sudo pip3 install Scrapy 【2】Windows安装 python -m pip inst
阅读全文
posted @ 2022-02-26 15:55 我不知道取什么名字好
阅读(42)
评论(0)
推荐(0)
SPIDER-DAY06--selenium
摘要: SPIDER-DAY06 1. selenium详解 1.1 代码演示 """使用selenium打开浏览器,进入百度的搜索页面"""# 导入selenium的webdriver接口from selenium import webdriver# 1.打开浏览器 - 创建浏览器对象driver =
阅读全文
posted @ 2022-02-26 15:53 我不知道取什么名字好
阅读(307)
评论(0)
推荐(0)
SPIDER-DAY05--动态数据抓取,和selenium
摘要: 1. 动态加载数据抓取 1.1 AJAX动态加载 数据特点 【1】右键 -> 查看网页源码中没有具体数据【2】滚动鼠标滑轮或其他动作时加载,或者页面局部刷新 分析流程 【1】F12打开控制台,页面动作抓取网络数据包【2】抓取json文件URL地址 2.1) 控制台中 XHR :异步加载的数据包 2.
阅读全文
posted @ 2022-02-26 15:51 我不知道取什么名字好
阅读(268)
评论(0)
推荐(0)
SPIDER-DAY04--,requests.post 请求,及代理
摘要: 1. 代理参数 1.1 代理IP概述 【1】定义 代替你原来的IP地址去对接网络的IP地址【2】作用 隐藏自身真实IP,避免被封 【3】获取代理IP网站 快代理、全网代理、代理精灵、... ...【4】参数类型 proxies proxies = { '协议':'协议://IP:端口号' } p
阅读全文
posted @ 2022-02-26 15:49 我不知道取什么名字好
阅读(334)
评论(0)
推荐(0)
SPIDER-DAY03--Chrome,xpath,lxml
摘要: SPIDER-DAY03 1. Chrome浏览器插件 【1】在线安装 1.1> 下载插件 - google访问助手 1.2> 安装插件 - google访问助手: Chrome浏览器-设置-更多工具-扩展程序-开发者模式-拖拽(解压后的插件) 1.3> 在线安装其他插件 - 打开google访问助
阅读全文
posted @ 2022-02-26 15:47 我不知道取什么名字好
阅读(217)
评论(0)
推荐(0)
SPIDER-DAY02--数据持久化--mysql,csv,mongodb
摘要: 电影天堂案例 import requestsimport reimport timeimport random# http://httpbin.org/getclass DyttSpider: def __init__(self): self.url = 'https://www.dytt8.ne
阅读全文
posted @ 2022-02-26 15:45 我不知道取什么名字好
阅读(234)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
14
下一页
公告