会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
小小小光子
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
9
10
11
12
13
14
15
16
17
18
下一页
2020年1月14日
Python os包功能(Windows)
摘要: Python os包功能 (图片为Windows10环境) 1.os.name # 导入依赖操作系统模块的名字 2.os.environ # 一个mapping对象表示环境 3.os.curdir # 一个mapping对象表示环境 4.os.pardir # 操作系统用此常数字符串作为父文件夹的引
阅读全文
posted @ 2020-01-14 15:00 小小小光子
阅读(897)
评论(0)
推荐(0)
2020年1月13日
Windows永久修改pip安装源
摘要: 一些国内的pip源: 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 h
阅读全文
posted @ 2020-01-13 15:32 小小小光子
阅读(2163)
评论(0)
推荐(0)
2020年1月8日
MySQL 超键 候选键 主键 外键是什么
摘要: 搬运出处: https://github.com/0voice/interview_internal_reference 超键(super key): 在关系中能唯一标识元组的属性集称为关系模式的超键 候选键(candidate key): 不含有多余属性的超键称为候选键。也就是在候选键中,若再删除
阅读全文
posted @ 2020-01-08 16:19 小小小光子
阅读(1845)
评论(0)
推荐(1)
scrapy中间件
摘要: 1 scrapy中间件的分类和作用 1.1 scrapy中间件的分类 根据scrapy运行流程中所在位置不同分为: 下载中间件 爬虫中间件 1.2 scrapy中间的作用 主要功能是在爬虫运行过程中进行一些处理,如对非200响应的重试(重新构造Request对象yield给引擎) 也可以对heade
阅读全文
posted @ 2020-01-08 15:02 小小小光子
阅读(148)
评论(0)
推荐(0)
crawlspider
摘要: 从response中提取所有的满足规则的url地址 自动的构造自己requests请求,发送给引擎 2.1 创建crawlspider爬虫: scrapy genspider -t crawl tencent hr.tencent.com 2.3 观察跟普通的scrapy.spider的区别 在cr
阅读全文
posted @ 2020-01-08 15:01 小小小光子
阅读(242)
评论(0)
推荐(0)
scrapy
摘要: rapy的安装:pip install scrapy 创建scrapy的项目: scrapy startproject myspider 创建scrapy爬虫:在项目目录下执行 scrapy genspider itcast itcast.cn 运行scrapy爬虫:在项目目录下执行 scrapy
阅读全文
posted @ 2020-01-08 15:00 小小小光子
阅读(143)
评论(0)
推荐(0)
MongoDB 命令
摘要: 1. mongodb服务端启动 sudo mongod --auth # 以权限认证的方式启动 --fork # 后台运行 --logpath= # 指定日志文件路径 --logappend # 声明日志以追加方式写入 --dbpath= # 指定数据库文件夹所在路径 2. 进入mongo shel
阅读全文
posted @ 2020-01-08 14:58 小小小光子
阅读(148)
评论(0)
推荐(0)
如何反扒
摘要: 2 通过headers字段来反爬 headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫 2.1 通过headers中的User-Agent字段来反爬 反爬原理:爬虫默认情况下没有User-Agent 解决方法:请求之前添加User-Agent即可;更好的方式是使用Use
阅读全文
posted @ 2020-01-08 14:57 小小小光子
阅读(425)
评论(0)
推荐(0)
selenium的其他方法
摘要: 1 selenium 处理cookie driver.get_cookies()获取的是完整的cookie信息!不光有name、value,还有domain等其他信息! # 把cookie转为字典cookies_dict = {cookie['name']: cookie['value'] for
阅读全文
posted @ 2020-01-08 14:55 小小小光子
阅读(139)
评论(0)
推荐(0)
selenium
摘要: 1 加载网页: selenium通过控制浏览器,所以对应的获取的数据都是elements中的内容 from selenium import webdriver # 指定driver的绝对路径 # driver = webdriver.PhantomJS(executable_path='/home/
阅读全文
posted @ 2020-01-08 14:43 小小小光子
阅读(118)
评论(0)
推荐(0)
上一页
1
···
9
10
11
12
13
14
15
16
17
18
下一页
公告