摘要: 搬运出处: https://github.com/0voice/interview_internal_reference 超键(super key): 在关系中能唯一标识元组的属性集称为关系模式的超键 候选键(candidate key): 不含有多余属性的超键称为候选键。也就是在候选键中,若再删除 阅读全文
posted @ 2020-01-08 16:19 小小小光子 阅读(1845) 评论(0) 推荐(1)
摘要: 1 scrapy中间件的分类和作用 1.1 scrapy中间件的分类 根据scrapy运行流程中所在位置不同分为: 下载中间件 爬虫中间件 1.2 scrapy中间的作用 主要功能是在爬虫运行过程中进行一些处理,如对非200响应的重试(重新构造Request对象yield给引擎) 也可以对heade 阅读全文
posted @ 2020-01-08 15:02 小小小光子 阅读(148) 评论(0) 推荐(0)
摘要: 从response中提取所有的满足规则的url地址 自动的构造自己requests请求,发送给引擎 2.1 创建crawlspider爬虫: scrapy genspider -t crawl tencent hr.tencent.com 2.3 观察跟普通的scrapy.spider的区别 在cr 阅读全文
posted @ 2020-01-08 15:01 小小小光子 阅读(242) 评论(0) 推荐(0)
摘要: rapy的安装:pip install scrapy 创建scrapy的项目: scrapy startproject myspider 创建scrapy爬虫:在项目目录下执行 scrapy genspider itcast itcast.cn 运行scrapy爬虫:在项目目录下执行 scrapy 阅读全文
posted @ 2020-01-08 15:00 小小小光子 阅读(143) 评论(0) 推荐(0)
摘要: 1. mongodb服务端启动 sudo mongod --auth # 以权限认证的方式启动 --fork # 后台运行 --logpath= # 指定日志文件路径 --logappend # 声明日志以追加方式写入 --dbpath= # 指定数据库文件夹所在路径 2. 进入mongo shel 阅读全文
posted @ 2020-01-08 14:58 小小小光子 阅读(148) 评论(0) 推荐(0)
摘要: 2 通过headers字段来反爬 headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫 2.1 通过headers中的User-Agent字段来反爬 反爬原理:爬虫默认情况下没有User-Agent 解决方法:请求之前添加User-Agent即可;更好的方式是使用Use 阅读全文
posted @ 2020-01-08 14:57 小小小光子 阅读(425) 评论(0) 推荐(0)
摘要: 1 selenium 处理cookie driver.get_cookies()获取的是完整的cookie信息!不光有name、value,还有domain等其他信息! # 把cookie转为字典cookies_dict = {cookie['name']: cookie['value'] for 阅读全文
posted @ 2020-01-08 14:55 小小小光子 阅读(139) 评论(0) 推荐(0)
摘要: 1 加载网页: selenium通过控制浏览器,所以对应的获取的数据都是elements中的内容 from selenium import webdriver # 指定driver的绝对路径 # driver = webdriver.PhantomJS(executable_path='/home/ 阅读全文
posted @ 2020-01-08 14:43 小小小光子 阅读(118) 评论(0) 推荐(0)
摘要: 表达式描述 nodename 选中该元素。 / 从根节点选取、或者是元素和元素间的过渡。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。 text() 选取文本。 实例 在下面的表格中,我们已列出了一些路径表达式以及 阅读全文
posted @ 2020-01-08 14:42 小小小光子 阅读(111) 评论(0) 推荐(0)
摘要: -- 数据库备份与恢复数据库导入文件 -- mysqldump –uroot –p 数据库名 > python.sql; -- mysql -uroot –p 新数据库名 < python.sql; 阅读全文
posted @ 2020-01-08 14:40 小小小光子 阅读(213) 评论(0) 推荐(0)
摘要: -- 全列插入 -- insert [into] 表名 values(...) insert into classes values(1,"python14"); -- 部分插入 -- insert into 表名(列1,...) values(值1,...) insert into student 阅读全文
posted @ 2020-01-08 14:39 小小小光子 阅读(458) 评论(0) 推荐(0)
摘要: -- 查看当前数据库中所有表 show tables; -- 创建表 -- int unsigned 无符号整形 -- auto_increment 表示自动增长 -- not null 表示不能为空 -- primary key 表示主键 -- default 默认值 -- create tabl 阅读全文
posted @ 2020-01-08 14:36 小小小光子 阅读(155) 评论(0) 推荐(0)
摘要: -- 链接数据库 mysql -uroot -pmysql -- 不显示密码 mysql -uroot -p mysql -- 退出数据库 exit/quit/ctrl + d -- sql语句最后需要有分号;结尾 -- 显示数据库版本 version select version(); -- 显示 阅读全文
posted @ 2020-01-08 14:32 小小小光子 阅读(117) 评论(0) 推荐(0)
摘要: 定义时,在实例方法的基础上添加 @property 装饰器;并且仅有一个self参数 调用时,无需括号 三种@property装饰器 #coding=utf-8 # ############### 定义 ############### class Goods: """定义一个商品类 第一种装饰器:@ 阅读全文
posted @ 2020-01-08 14:30 小小小光子 阅读(121) 评论(0) 推荐(0)
摘要: 正则表达式匹配单个字符 代码 功能 . 匹配任意1个字符(除了\n) [ ] 匹配[ ]中列举的字符 \d 匹配数字,即0-9 \D 匹配非数字,即不是数字 \s 匹配空白,即 空格,tab键 \S 匹配非空白 \w 匹配非特殊字符,即a-z、A-Z、0-9、_、汉字 \W 匹配特殊字符,即非字母、 阅读全文
posted @ 2020-01-08 14:29 小小小光子 阅读(137) 评论(0) 推荐(0)
摘要: 匹配`中文字符`的正则表达式: [u4e00-u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配`双字节字符(包括汉字在内)`:[^x00-xff] 评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 匹配`空白行`的正则表达式:ns*r 评注:可以 阅读全文
posted @ 2020-01-08 14:21 小小小光子 阅读(329) 评论(0) 推荐(0)
摘要: 在def函数里面看到有yield关键字那么就是生成器 代码执行到yield会暂停,然后把结果返回出去,下次启动生成器会在暂停的位置继续往下执行 yield和return的对比 使用了yield关键字的函数不再是函数,而是生成器。(使用了yield的函数就是生成器) 代码执行到yield会暂停,然后把 阅读全文
posted @ 2020-01-08 14:16 小小小光子 阅读(184) 评论(0) 推荐(0)
摘要: 自定义迭代器对象: 在类里面定义__iter__和__next__方法创建的对象就是迭代器对象 iter()函数与next()函数 iter函数: 获取可迭代对象的迭代器,会调用可迭代对象身上的__iter__方法 next函数: 获取迭代器中下一个值,会调用迭代器对象身上的__next__方法 f 阅读全文
posted @ 2020-01-08 14:15 小小小光子 阅读(1016) 评论(0) 推荐(0)
摘要: 1. 功能对比 进程,能够完成多任务,比如 在一台电脑上能够同时运行多个QQ 线程,能够完成多任务,比如 一个QQ中的多个聊天窗口 2. 定义对比 进程是系统进行资源分配基本单位,每启动一个进程操作系统都需要为其分配运行资源。 线程是运行程序中的一个执行分支,是CPU调度基本单位。 总结:进程是操作 阅读全文
posted @ 2020-01-08 14:05 小小小光子 阅读(220) 评论(0) 推荐(0)
摘要: 优点: 可靠,稳定 适合传输大量数据 缺点: 传输速度慢 占用系统资源高 TCP和UDP区别 TCP面向连接; UDP是不面向连接; TCP提供可靠的数据传输,也就是说,通过TCP连接传送的数据,无差错,不丢失,不重复,且按序到达;UDP不保证可靠的数据传输,容易出现丢包情况; TCP需要连接传输速 阅读全文
posted @ 2020-01-08 14:03 小小小光子 阅读(181) 评论(0) 推荐(0)