随笔分类 -  机器学习

LibSVM格式简介
摘要:对于训练或预测,XGBoost采用如下格式的实例文件: train.txt 1 101:1.2 102:0.03 0 1:2.1 10001:300 10002:400 0 0:1.3 1:0.3 1 0:0.01 1:0.3 0 0:0.2 1:0.3 train.txt 1 101:1.2 10 阅读全文

posted @ 2019-06-15 16:40 NothingLZ 阅读(3235) 评论(0) 推荐(0)

libsvm数据格式
摘要:train.txt 1 101:1.2 102:0.03 0 1:2.1 10001:300 10002:400 0 0:1.3 1:0.3 1 0:0.01 1:0.3 0 0:0.2 1:0.3 train.txt 1 101:1.2 102:0.03 0 1:2.1 10001:300 100 阅读全文

posted @ 2018-09-05 16:29 NothingLZ 阅读(130) 评论(0) 推荐(0)

spark机器学习
摘要:多层感知器(MLP) 阅读全文

posted @ 2018-05-18 09:03 NothingLZ 阅读(181) 评论(0) 推荐(0)

tensorflow学习笔记
摘要:简介: 基于Tensorflow的NN:用张量表示数据;用计算图搭建神经网络;用会话执行计算图;优化线上的权重(参数),得到模型。 张量(tensor):多维数组(列表) 阶:张量的维数 数据类型:tf.float32 tf.float64 .... 计算图(graph):搭建神经网络的计算过程,只 阅读全文

posted @ 2018-04-02 09:58 NothingLZ 阅读(267) 评论(0) 推荐(0)

逻辑回归原理(python代码实现)
摘要:Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数。 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 使用数据类型:数值型和标称型数据。 介绍逻辑回归之前,我们先看一问题 阅读全文

posted @ 2018-03-19 21:48 NothingLZ 阅读(23208) 评论(0) 推荐(2)

朴素贝叶斯文本分类(python代码实现)
摘要:朴素贝叶斯(naive bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。 优点:在数据较少的情况下仍然有效,可以处理多分类问题。 缺点:对入输入数据的准备方式较为敏感。 使用数据类型:标称型数据。 下面从一个简单问题出发,介绍怎么使用朴素贝叶斯解决分类问题。 一天,老师问了个问题,只根据 阅读全文

posted @ 2018-03-19 21:41 NothingLZ 阅读(9589) 评论(0) 推荐(0)

KNN算法原理(python代码实现)
摘要:kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点:精度高、对异常值不敏感 阅读全文

posted @ 2018-03-19 21:35 NothingLZ 阅读(1526) 评论(0) 推荐(0)

决策树原理实例(python代码实现)
摘要:决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。 缺点:可 阅读全文

posted @ 2018-03-19 21:30 NothingLZ 阅读(34151) 评论(2) 推荐(2)

[Machine Learning & Algorithm] 朴素贝叶斯算法(Naive Bayes)
摘要:阅读目录 一、病人分类的例子 二、朴素贝叶斯分类器的公式 三、账号分类的例子 四、性别分类的例子 阅读目录 一、病人分类的例子 二、朴素贝叶斯分类器的公式 三、账号分类的例子 四、性别分类的例子 生活中很多场合需要用到分类,比如新闻分类、病人分类等等。 本文介绍朴素贝叶斯分类器(Naive Baye 阅读全文

posted @ 2018-03-05 18:13 NothingLZ 阅读(335) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用(二):找出相似文章
摘要:今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。 为 阅读全文

posted @ 2018-03-02 12:00 NothingLZ 阅读(211) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用(一):自动提取关键词
摘要:有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都 阅读全文

posted @ 2018-03-02 11:52 NothingLZ 阅读(209) 评论(0) 推荐(0)

7.23 学习问题
摘要:1、什么是DBSCAN的核心点? DBSCAN算法的目的在于过滤低密度区域,发现稠密度样本点。跟传统的基于层次的聚类和划分聚类的凸形聚类簇不同,该算法可以发现任意形状的聚类簇,与传统的算法相比它有如下优点: (1)与K-MEANS比较起来,不需要输入要划分的聚类个数; (2)聚类簇的形状没有偏倚; 阅读全文

posted @ 2017-07-26 17:30 NothingLZ 阅读(118) 评论(0) 推荐(0)

7.24 学习问题
摘要:1、决策树算法有哪些?对应公式是什么? 2、HMM一般模型的要素 3、HMM主要运用于什么领域?有什么应用? 4、用一句话分别概述维特比算法和前向算法所做的事 。5、梯度下降和遗传算法有什么异同 6、支持向量机主要应用于哪些方面? 7、为什么样引入核函数到支持向量机? 8、逻辑回归的激活函数是什么? 阅读全文

posted @ 2017-07-26 17:29 NothingLZ 阅读(121) 评论(0) 推荐(0)

7.25 学习问题
摘要:1、多项式贝叶斯模型和贝叶斯模型有什么区别? 2、推荐算法常见的有几种?分别为哪几种? 3、广告投放系统的流程?具体变现的是哪一个过程?(有兴趣的同学可回答) 4、文本处理主要步骤是哪几个?可以用什么包来实现? 5、N-grams模型是HMM模型吗?它和普通的有什么区别? 6、最大熵模型作何理解?为 阅读全文

posted @ 2017-07-26 17:28 NothingLZ 阅读(111) 评论(0) 推荐(0)

导航