摘要: 数据库的概念 数据库的定义 可以理解为 数据库 是一个可以在一台机器上独立工作的,并且可以给我们提供高效、便捷的方式对数据进行增删改查的一种工具。 将所有的数据都存储在一个独立的机器上,而对用户提供服务的机器只是存放你写的代码。 数据库的优势 认识数据库 什么是数据(Data) 描述事物的符号记录称 阅读全文
posted @ 2019-08-15 21:44 四块钱 阅读(166) 评论(0) 推荐(0) 编辑
摘要: Flask的路由系统 @app.route() 装饰器中的参数 methods:表示当前的url地址,允许访问的请求方式 endpoint:反向url地址,默认为视图函数名(url_for) defaults:视图函数的参数默认值{”nid“:1} redirect_to:url地址重定向, 不经过 阅读全文
posted @ 2019-08-15 20:32 四块钱 阅读(178) 评论(0) 推荐(0) 编辑
摘要: scrapy框架介绍 定义 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 安装方 阅读全文
posted @ 2019-08-15 20:26 四块钱 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 递归爬取解析多页页面数据 需求展示 将xx直聘网站搜索关键字后所有页码的作者和薪资数据进行爬取持久化存储 需求分析 每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析 实现方案 1.将每一个页码对应的url存放到爬虫文 阅读全文
posted @ 2019-08-15 20:26 四块钱 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 初始MongoDB MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 文件型数据库和关系型数据库的区别 Mo 阅读全文
posted @ 2019-08-15 20:25 四块钱 阅读(1575) 评论(0) 推荐(0) 编辑
摘要: 数据解析 requests实现数据爬取的流程 因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据,所以,我们的数据爬取的流程可以修改为: 正则解析 常用的正则表达式回顾: re模块练习: 项目爬取练习: Xpath解析 xpath表达式 阅读全文
posted @ 2019-08-15 20:25 四块钱 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 数据分析 含义: 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析三剑客:Numpy,Pandas,Matplotlib Numpy NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针 阅读全文
posted @ 2019-08-15 20:24 四块钱 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 代理操作 代理操作的目的 一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问。所以我们需要设置一些代理IP,每隔一段时间换一个代理IP,就算IP被禁止,依然可以换个IP继续爬取。 什么是代理 代理服务 阅读全文
posted @ 2019-08-05 21:48 四块钱 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫 爬虫的定义: 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫: php:可以实现爬虫,但是php在实现爬虫中支持多线程和多进程方面做的不好。 java:可以实现爬虫。java可以非常好的处理和实现爬虫,但是java实现爬虫代码较为臃肿,重构成 阅读全文
posted @ 2019-08-01 20:25 四块钱 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 创建一个多表模型 表与表之间存在一对一,一对多,多对多的关系,加外键约束和不加外键约束的区别,一对一的外键约束是在一对多的约束上加上唯一约束。 创建一个简单的多表关联模型: 作者模型:一个作者有姓名和年龄。 作者详细模型:把作者的详情放到详情表,包含手机号,家庭住址等信息。作者详情模型和作者模型之间 阅读全文
posted @ 2019-05-28 21:51 四块钱 阅读(321) 评论(0) 推荐(0) 编辑
ヾ(≧O≦)〃嗷~