机器学习 - 随笔分类 - NothingLZ

LibSVM格式简介

摘要：对于训练或预测，XGBoost采用如下格式的实例文件： train.txt 1 101:1.2 102:0.03 0 1:2.1 10001:300 10002:400 0 0:1.3 1:0.3 1 0:0.01 1:0.3 0 0:0.2 1:0.3 train.txt 1 101:1.2 10 阅读全文

posted @ 2019-06-15 16:40 NothingLZ 阅读(3235) 评论(0) 推荐(0)

libsvm数据格式

摘要：train.txt 1 101:1.2 102:0.03 0 1:2.1 10001:300 10002:400 0 0:1.3 1:0.3 1 0:0.01 1:0.3 0 0:0.2 1:0.3 train.txt 1 101:1.2 102:0.03 0 1:2.1 10001:300 100 阅读全文

posted @ 2018-09-05 16:29 NothingLZ 阅读(130) 评论(0) 推荐(0)

spark机器学习

摘要：多层感知器(MLP) 阅读全文

posted @ 2018-05-18 09:03 NothingLZ 阅读(181) 评论(0) 推荐(0)

tensorflow学习笔记

摘要：简介：基于Tensorflow的NN：用张量表示数据；用计算图搭建神经网络；用会话执行计算图；优化线上的权重（参数），得到模型。张量（tensor）：多维数组（列表）阶：张量的维数数据类型：tf.float32 tf.float64 .... 计算图（graph）：搭建神经网络的计算过程，只阅读全文

posted @ 2018-04-02 09:58 NothingLZ 阅读(267) 评论(0) 推荐(0)

逻辑回归原理（python代码实现）

摘要：Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程，为最大化方程，利用牛顿梯度上升求解方程参数。优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。使用数据类型：数值型和标称型数据。介绍逻辑回归之前，我们先看一问题阅读全文

posted @ 2018-03-19 21:48 NothingLZ 阅读(23208) 评论(0) 推荐(2)

朴素贝叶斯文本分类(python代码实现)

摘要：朴素贝叶斯（naive bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。优点：在数据较少的情况下仍然有效，可以处理多分类问题。缺点：对入输入数据的准备方式较为敏感。使用数据类型：标称型数据。下面从一个简单问题出发，介绍怎么使用朴素贝叶斯解决分类问题。一天，老师问了个问题，只根据阅读全文

posted @ 2018-03-19 21:41 NothingLZ 阅读(9589) 评论(0) 推荐(0)

KNN算法原理（python代码实现）

摘要：kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点：精度高、对异常值不敏感阅读全文

posted @ 2018-03-19 21:35 NothingLZ 阅读(1526) 评论(0) 推荐(0)

决策树原理实例（python代码实现）

摘要：决策数(Decision Tree)在机器学习中也是比较常见的一种算法，属于监督学习中的一种。看字面意思应该也比较容易理解，相比其他算法比如支持向量机(SVM)或神经网络，似乎决策树感觉“亲切”许多。优点：计算复杂度不高，输出结果易于理解，对中间值的缺失值不敏感，可以处理不相关特征数据。缺点：可阅读全文

posted @ 2018-03-19 21:30 NothingLZ 阅读(34151) 评论(2) 推荐(2)

[Machine Learning & Algorithm] 朴素贝叶斯算法（Naive Bayes）

摘要：阅读目录一、病人分类的例子二、朴素贝叶斯分类器的公式三、账号分类的例子四、性别分类的例子阅读目录一、病人分类的例子二、朴素贝叶斯分类器的公式三、账号分类的例子四、性别分类的例子生活中很多场合需要用到分类，比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器（Naive Baye 阅读全文

posted @ 2018-03-05 18:13 NothingLZ 阅读(335) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（二）：找出相似文章

摘要：今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。为阅读全文

posted @ 2018-03-02 12:00 NothingLZ 阅读(211) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（一）：自动提取关键词

摘要：有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都阅读全文

posted @ 2018-03-02 11:52 NothingLZ 阅读(209) 评论(0) 推荐(0)

7.23 学习问题

摘要：1、什么是DBSCAN的核心点？ DBSCAN算法的目的在于过滤低密度区域，发现稠密度样本点。跟传统的基于层次的聚类和划分聚类的凸形聚类簇不同，该算法可以发现任意形状的聚类簇，与传统的算法相比它有如下优点：（1）与K-MEANS比较起来，不需要输入要划分的聚类个数；（2）聚类簇的形状没有偏倚；阅读全文

posted @ 2017-07-26 17:30 NothingLZ 阅读(118) 评论(0) 推荐(0)

7.24 学习问题

摘要：1、决策树算法有哪些？对应公式是什么？ 2、HMM一般模型的要素 3、HMM主要运用于什么领域？有什么应用？ 4、用一句话分别概述维特比算法和前向算法所做的事。5、梯度下降和遗传算法有什么异同 6、支持向量机主要应用于哪些方面？ 7、为什么样引入核函数到支持向量机？ 8、逻辑回归的激活函数是什么？阅读全文

posted @ 2017-07-26 17:29 NothingLZ 阅读(121) 评论(0) 推荐(0)

7.25 学习问题

摘要：1、多项式贝叶斯模型和贝叶斯模型有什么区别? 2、推荐算法常见的有几种？分别为哪几种？ 3、广告投放系统的流程？具体变现的是哪一个过程？（有兴趣的同学可回答） 4、文本处理主要步骤是哪几个？可以用什么包来实现？ 5、N-grams模型是HMM模型吗？它和普通的有什么区别？ 6、最大熵模型作何理解？为阅读全文

posted @ 2017-07-26 17:28 NothingLZ 阅读(111) 评论(0) 推荐(0)

随笔分类 - 机器学习