冬色 - 博客园

2018年7月13日

摘要：如何表示词语的意思语言学中meaning近似于“指代，代指，符号”。计算机中如何处理词语的意思过去一直采用，计算语言学中常见的方式时WordNet那样的词库，比如NLTK中可以通过WordNet查询熊猫的上位词(hypernums)，得到“食肉动物”，“动物”之类的上位词。也可以查询“goo 阅读全文

posted @ 2018-07-13 23:18 冬色阅读(425) 评论(0) 推荐(0)

CS224n笔记一：开端

摘要：何为自然语言处理自然语言处理的目标是让计算机处理或者“理解”自然语言，以完成有意义的任务，如QA等。自然语言处理涉及的层次输入有两个来源：语音和文本，所以第一级是语音识别，OCR或者分词形态学（Morphological analysis）或称词法或者词汇形态学。其研究词的内部结构，包括屈折阅读全文

posted @ 2018-07-13 23:15 冬色阅读(502) 评论(0) 推荐(0)

PRML Chapter3

摘要：曲线拟合的几种方法最大似然估计MLE，最大后验概率MAP： "MLE和MAP" MLE 给定一堆数据，假如我们知道它是从某一种分布中随机取出来的，可是我们并不知道这个分布具体的参，即“模型已定，参数未知”。最大化： MAP 假如这个参数有一个先验概率，比如说，在抛硬币的例子中，假如我们的经验告诉我阅读全文

posted @ 2018-07-13 23:13 冬色阅读(226) 评论(0) 推荐(0)

机器学习特征工程

摘要：特征和数据决定了机器学习效果的上限，而算法和模型不过是接近这个上限而已，因此对于机器学习是及其重要的。一图胜前言[1]：数据清洗在实际的应用过程中，数据是十分的杂乱的，可能包含大量的噪音，缺失值等，所以需要通过一些方法，尽可能提高数据质量。一般包括：分析数据缺失值处理异常值处理噪音数阅读全文

posted @ 2018-07-13 23:13 冬色阅读(920) 评论(0) 推荐(0)

CNN(卷积神经网络)、RNN(循环神经网络)和DNN(深度神经网络)

摘要：本文转载修改自： "知乎科言君" 感知机(perceptron) 神经网络技术起源于上世纪五、六十年代，当时叫，拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。但是，Rosenblatt的单层感知机有一个严重阅读全文

posted @ 2018-07-13 23:12 冬色阅读(3052) 评论(0) 推荐(0)

Decision Tree

摘要： Decision Tree builds classification or regression models in the form of a tree structure. It break down dataset into smaller and smaller subsets while 阅读全文

posted @ 2018-07-13 23:06 冬色阅读(356) 评论(0) 推荐(0)

PRML Chapter2

摘要：参考文献： "PRML2" 参数方法和非参数方法机器学习上的方法分为参数方法(根据先验知识假定模型服从某种分布，然后利用训练集估计出模型参数，也就弄清楚了整个模型，例如感知器)和非参数方法(基于记忆训练集，然后根据训练集预测，例如kNN)。参数方法参数方法根据先验知识假定模型服从某种分布，然后阅读全文

posted @ 2018-07-13 23:06 冬色阅读(359) 评论(0) 推荐(0)

Bigtable:结构化数据的分布式存储系统

摘要： Bigtable最初是谷歌设计用来存储大规模结构化数据的分布式系统，其可以在数以千计的商用服务器上存储高达PB级别的数据量。开源社区根据Bigtable的设计思路开发了 "HBase" 。其优势在于提供了高效的随机读写，缺陷在于不（原生）支持类SQL的数据分析。 Bigtable的设计目标是：适应性阅读全文

posted @ 2018-07-13 23:03 冬色阅读(1883) 评论(0) 推荐(0)

xgboost原理

摘要： xgboost和gdbt 在科学研究中，有种优化方法叫组合，将很多人的方法组合在一起做成一个集成的方法，集百家之长，效果一般就会比单个的好，这个方法就是集成学习。集成学习将弱学习算法通过组合提升为强学习算法。这要求每个弱学习方法要具有一定的准确性，并且之间具有差异性，即集成学习，关键在于各个弱分类器阅读全文

posted @ 2018-07-13 23:02 冬色阅读(941) 评论(0) 推荐(0)

HDFS的几点改进

摘要： HDFS(Hadoop Distributed File System)是一个运行在商用机器上面的分布式文件系统，其设计思想来自于google著名的Google File System论文。 HDFS的设计目标：为何产生HDFS？由于数据量的急剧增大，原有的单机多磁盘因为速度，存储量等原因，已经远阅读全文

posted @ 2018-07-13 23:02 冬色阅读(872) 评论(0) 推荐(0)

变量的选择——Lasso&Ridge&ElasticNet

摘要：对模型参数进行限制或者规范化能将一些参数朝着0收缩（shrink）。使用收缩的方法的效果提升是相当好的，岭回归（ridge regression，后续以ridge代称），lasso和弹性网络（elastic net）是常用的变量选择的一般化版本。弹性网络实际上是结合了岭回归和lasso的特点。 La 阅读全文

posted @ 2018-07-13 23:02 冬色阅读(12362) 评论(0) 推荐(0)

xgboost参数及调参

摘要：常规参数General Parameters 1. booster[default=gbtree]:选择基分类器，可以是：gbtree,gblinear或者dart。gbtree和draf基于树模型，而gblinear基于线性模型。 2. slient[default=0]：是否有运行信息输出，设置阅读全文

posted @ 2018-07-13 23:01 冬色阅读(10840) 评论(0) 推荐(0)

比快更快——微软LightGBM

摘要： LightGBM介绍 xgboost是一种优秀的boosting框架，但是在使用过程中，其训练耗时过长，内存占用比较大。微软在2016年推出了另外一种boosting框架——lightgbm，在不降低准确度的的前提下，速度提升了10倍左右，占用内存下降了3倍左右。详细的实验结果参见： "LightG 阅读全文

posted @ 2018-07-13 23:01 冬色阅读(1521) 评论(0) 推荐(0)

实现最小二乘的问题——求矩阵的逆

摘要：我们可以使用最小二乘法求解线性回归： β即是我们模型训练获得的系数。但是这里有个问题即是涉及到了矩阵求逆，这就要求XTX可逆，在实际的应用中，很多情况下，矩阵是不可逆的，如何处理呢？我们可以求矩阵的伪逆，函数原型：计算一个矩阵的伪逆(Moore Penrose)。 a:(m,n)要求逆的矩阵 rc 阅读全文

posted @ 2018-07-13 23:00 冬色阅读(2579) 评论(0) 推荐(0)

线性回归中的抗过拟

摘要：过拟合是机器学习的模型建立中，由于独立同分布的假设可能并不成立，为了提高模型泛化的能力（推广到未知数据的能力），所以必须在训练模型中抗过拟。过拟合一直是机器学习中比较头疼的问题。常用的方法有：正则化Regularization（在目标函数或者代价函数加上正则项），early stopping，数据阅读全文

posted @ 2018-07-13 22:58 冬色阅读(705) 评论(0) 推荐(0)

sklearn文本特征提取——TfidfVectorizer

摘要：什么是TF IDF TF IDF(term frequency inverse document frequency)词频逆向文件频率。在处理文本时，如何将文字转化为模型可以处理的向量呢？TF IDF就是这个问题的解决方案之一。字词的重要性与其在文本中出现的频率成正比(TF)，与其在语料库中出现的阅读全文

posted @ 2018-07-13 22:57 冬色阅读(30428) 评论(1) 推荐(2)

sklearn中LinearRegression使用及源码解读

摘要： sklearn中的LinearRegression 函数原型： fit\_intercept:模型是否存在截距 normalize:模型是否对数据进行标准化（在回归之前，对X减去平均值再除以二范数），如果fit\_intercept被设置为False时，该参数将忽略。该函数有属性：coef\_可供阅读全文

posted @ 2018-07-13 22:57 冬色阅读(14976) 评论(0) 推荐(0)

matplotlib简介

摘要： python的matplotlib包可以帮助我们绘制丰富的图表，有助于我们的数据分析。 matplotlib官方文档： "matplotlib" 本博客所有代码默认导入matplotlib.pyplot和numpy包，即默认有以下代码： import matplotlib.pyplot as plt 阅读全文

posted @ 2018-07-13 22:55 冬色阅读(1620) 评论(0) 推荐(0)

nltk处理文本

摘要： nltk(Natural Language Toolkit)是处理文本的利器。安装进入python命令行，键入nltk.download()可以下载nltk需要的语料库等等。分词按词语分割（传入句子） sentence='hello,world!' tokens=nltk.word_toke 阅读全文

posted @ 2018-07-13 22:55 冬色阅读(442) 评论(0) 推荐(0)

Hadoop中一些重要概念简要总结

摘要： Hadoop是一个利用大规模计算机集群，可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。主要特点：1.高容错性；2.高吞吐量访阅读全文

posted @ 2018-07-13 22:53 冬色阅读(277) 评论(0) 推荐(0)

Hadoop中重要概念简要总结

posted @ 2018-07-13 22:47 冬色阅读(272) 评论(0) 推荐(0)

获取数据——爬取某微博评论

摘要：微博评论API 想要爬取某一条微博的评论，首先会想到微博官方提供的API，但是不巧的是，官方提供的api能够获取的评论数量有限，不足以分析，那怎么办呢？我们想到了网页端，手机端的微博，希望直接爬取上面的数据。试了下网页端，可能网页做得很完善了吧，网页端找不到突破口，于是想到手机端碰碰运气。通过使用阅读全文

posted @ 2018-07-13 22:47 冬色阅读(9650) 评论(0) 推荐(0)

使用Microsoft Power BI进行基本的数据分析

摘要： Power BI是微软开发的一款简单易用的数据可视化软件。导入数据使用Power BI的第一步是将数据导入到软件中。获取数据更多，可以看到可使用多种数据源，甚至微软提供了一些联机的数据源供分析。由于我要分析的数据在Mysql中，因此选择“Mysql 数据库”作为数据源，选中“Mysql 数据阅读全文

posted @ 2018-07-13 22:46 冬色阅读(1096) 评论(0) 推荐(0)

Hadoop分布式文件系统

摘要：在一个经典的数据架构中，Hadoop是处理复杂数据流的核心。数据从各种系统中收集而来，并汇总导入到Hadoop分布式文件系统HDFS中，然后通过MapReduce或者其它基于MapReduce封装的语言如Hive,Pig等进行处理，将处理后的数据导出即可。具体例子而言，如果一个大型网站需要做网站点击阅读全文

posted @ 2018-07-13 22:45 冬色阅读(453) 评论(0) 推荐(0)

使用Visual Studio开发Python

摘要： Python优秀的集成开发环境有PyCharm，Visual Studio Code等，当然你仍然可以使用Visual Studio进行开发。如果你熟悉Visual Studio，使用Visual Studio你将获得更熟悉的开发体验。在Visual Studio上安装Python 网络上的关于V 阅读全文

posted @ 2018-07-13 22:45 冬色阅读(32150) 评论(0) 推荐(2)

冬色

GitHub: https://github.com/cnlinxi

公告