摘要: 决策树 决策树(decision tree)是一种基本的分类与回归方法。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树学习的经典算法:ID3,C4.5,CART 决策树的概念很简单,下图所示的流程图是一 阅读全文
posted @ 2018-08-03 21:00 luchun666 阅读(440) 评论(0) 推荐(0) 编辑
摘要: K近邻算法(KNN) k近邻算法 k近邻(k-nearest neighbor,KNN)是一种基本的分类与回归算法。于1968年由Cover和Hart提出。k近邻的输入是实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k近邻算法假设给定一个训练数据集,其中的实例类别已定,分类时,对 阅读全文
posted @ 2018-08-02 22:16 luchun666 阅读(609) 评论(0) 推荐(0) 编辑
摘要: 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 阅读全文
posted @ 2018-07-31 09:28 luchun666 阅读(116722) 评论(0) 推荐(4) 编辑
摘要: 一、"大数据时代",数据获取的方式: 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测, 和各行各业的公司进行合作 阅读全文
posted @ 2018-07-30 17:09 luchun666 阅读(1735) 评论(0) 推荐(0) 编辑
摘要: Python与MongoDB交互 创建管理员 > use admin switched to db admin > db admin > db.createUser({user:'admin',pwd:'123456',roles:[{role:'userAdminAnyDatabase',db:' 阅读全文
posted @ 2018-07-30 16:26 luchun666 阅读(254) 评论(0) 推荐(0) 编辑
摘要: MongoDB高级操作 讲解关于mongodb的高级操作,包括聚合、主从复制、分片、备份与恢复、MR 完成python与mongodb的交互 聚合 aggregate 聚合(aggregate)主要用于计算数据,类似sql中的sum()、avg() 语法 管道 管道在Unix和Linux中一般用于将 阅读全文
posted @ 2018-07-30 10:25 luchun666 阅读(156) 评论(0) 推荐(0) 编辑
摘要: MongoDB简介 MongoDB 是一个基于分布式 文件存储的NoSQL(非关系型)数据库 由C++语言编写,运行稳定,性能高 旨在为 WEB 应用提供可扩展的高性能数据存储解决方案 查看官方网站 MongoDB特点 模式自由 :可以把不同结构的文档存储在同一个数据库里 面向集合的存储:适合存储 阅读全文
posted @ 2018-07-29 16:13 luchun666 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 数据库高级简介 实体与实体之间有3种对应关系,这些关系也需要存储下来 在开发中需要对存储的数据进行一些处理,用到内置的一些函数 视图用于完成查询语句的封装 事务可以保证复杂的增删改操作有效 关系 创建成绩表scores,结构如下 id 学生 科目 成绩 思考:学生列应该存什么信息呢? 答:学生列的数 阅读全文
posted @ 2018-07-28 20:44 luchun666 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 数据库查询简介 查询的基本语法 select * from 表名; select * from 表名; from关键字后面写表名,表示数据来源于是这张表 select后面写表中的列名,如果是*表示在结果中显示表中所有列 在select后面的列名部分,可以使用as为列起别名,这个别名出现在结果集中 如 阅读全文
posted @ 2018-07-28 20:32 luchun666 阅读(138) 评论(0) 推荐(0) 编辑
摘要: mysql数据库,是当前应用非常广泛的一款关系型数据库。 数据库简介 计算机诞生后,数据开始在计算机中存储并计算,并设计出了数据库系统 数据库系统解决的问题:持久化存储,优化读写,保证数据的有效性 当前使用的数据库,主要分为两类 文档型,如sqlite,就是一个文件,通过对文件的复制完成数据库的复制 阅读全文
posted @ 2018-07-28 20:19 luchun666 阅读(118) 评论(0) 推荐(0) 编辑