摘要: The Fundamentals of Machine Learning The Machine Learning Landscape End to End Machine Learning Project Classification Training Models Support Vector 阅读全文
posted @ 2019-01-27 11:40 BerMaker 阅读(161) 评论(0) 推荐(0) 编辑
摘要: Competition Description The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, 阅读全文
posted @ 2018-07-29 11:58 BerMaker 阅读(172) 评论(0) 推荐(0) 编辑
摘要: Start Books and courses are frustrating. They give you lots of recipes and snippets, but you never get to see how they all fit together. When you are 阅读全文
posted @ 2018-07-29 11:56 BerMaker 阅读(193) 评论(0) 推荐(0) 编辑
摘要: Steps Data Exploration Data Properties and Data Visualization data analysis to get a feeling for the dataset check the missing data learn which featur 阅读全文
posted @ 2018-07-29 11:55 BerMaker 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 支持向量机(support vector machines, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略是间隔最大化,可形式化为一个求解凸二次规划(conve 阅读全文
posted @ 2018-06-17 22:35 BerMaker 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 什么是数据分析 专业 有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术 客观 从行业的角度看,数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程 本质 数据分析包括3个方面:目标、方法和结果。 1. 目标:数据分析的关键再与设立 阅读全文
posted @ 2018-06-10 18:15 BerMaker 阅读(612) 评论(0) 推荐(0) 编辑
摘要: 描述定性数据的图形法和数值法 对给定的类, 类(或组)频数 是指落入这个类中的观测值的个数。 对给定的类, 类(或组)相对频率 是指落入这个类中的观测值个数相对于观测值总数的比例。 定性数据的图形描述常用 条形图 , 饼图 和 帕雷托图 。 条形图 :给出相应每一类的频数(或相对频率),长方形的高度 阅读全文
posted @ 2018-06-10 18:04 BerMaker 阅读(864) 评论(0) 推荐(0) 编辑
摘要: 数据集由 数据对象 组成。一个数据对象代表一个实体。通常,数据对象用属性描述。数据对象又称 样本 、 实例 、 数据点 或 对象 。 什么是属性 属性 (attribute)是一个数据字段,表示数据对象的一个特征。 一个属性的类型由该属性可能具有的值得集合决定。 属性可以是标称的、二元的、序数的或数 阅读全文
posted @ 2018-06-10 18:01 BerMaker 阅读(2693) 评论(0) 推荐(0) 编辑
摘要: 什么是统计学 统计学 统计学是 数据的科学 ,它包括数据的收集、分类、概括、整理、分析以及解释。 统计学通常应用于两种类型的问题: 1. 概括、描述以及探索数据,即描述性统计 2. 利用样本数据推断被选取样本的数据集的性质,即推断统计学 描述性统计 致力于数据集的整理、概括以及描述的统计学分支称作描 阅读全文
posted @ 2018-06-10 17:58 BerMaker 阅读(728) 评论(0) 推荐(0) 编辑
摘要: Hypothesis Linear Regression, 线性回归是机器学习中监督学习的一种非常常用的方法。 $$ h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_n x_n $$ The vectori 阅读全文
posted @ 2018-04-15 22:37 BerMaker 阅读(191) 评论(0) 推荐(0) 编辑
摘要: Introduction 什么是存储过程 存储过程可以说是一个记录集,它是由一些T SQL语句组成的代码块,这些T SQL语句代码像一个方法一样实现一些功能(对单表或多表的增删改查),然后再给这个代码块取一个名字,在用到这个功能的时候调用他就行了。 简单的说,就是一组SQL语句集,功能强大,可以实现 阅读全文
posted @ 2018-04-15 22:30 BerMaker 阅读(127) 评论(0) 推荐(0) 编辑
摘要: Python 数据分析库 Python 编程语言 Pythong Tutorial: "https://docs.python.org/3/tutorial/" NumPy 提供常用的数值数组、矩阵等函数,为Python提供快速的多维数组处理能力。 官网: "http://www.numpy.org 阅读全文
posted @ 2018-04-15 18:37 BerMaker 阅读(258) 评论(0) 推荐(0) 编辑
摘要: Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka拓扑结构 安装和启动 Download Download t 阅读全文
posted @ 2018-04-15 18:36 BerMaker 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 基本用法 测试配置文件是否在安装路径 如下输入: 简单的例子 从文件中读取数据 1) 写 taxi pipeline.conf, 如下 2) 测试配置文件是否OK The config.test_and_exit option parses your configuration file and r 阅读全文
posted @ 2018-04-15 18:32 BerMaker 阅读(237) 评论(0) 推荐(0) 编辑
摘要: Introduction Logstash is an open source data collection engine with real time pipelining capabilities. Logstash can dynamically unify data from dispar 阅读全文
posted @ 2018-04-15 18:30 BerMaker 阅读(127) 评论(0) 推荐(0) 编辑