摘要: 如何表示词语的意思 语言学中meaning近似于“指代,代指,符号”。 计算机中如何处理词语的意思 过去一直采用 ,计算语言学中常见的方式时WordNet那样的词库,比如NLTK中可以通过WordNet查询熊猫的上位词(hypernums),得到“食肉动物”,“动物”之类的上位词。也可以查询“goo 阅读全文
posted @ 2018-07-13 23:18 冬色 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 何为自然语言处理 自然语言处理的目标是让计算机处理或者“理解”自然语言,以完成有意义的任务,如QA等。 自然语言处理涉及的层次 输入有两个来源:语音和文本,所以第一级是语音识别,OCR或者分词 形态学(Morphological analysis)或称词法或者词汇形态学。其研究词的内部结构,包括屈折 阅读全文
posted @ 2018-07-13 23:15 冬色 阅读(485) 评论(0) 推荐(0) 编辑
摘要: 曲线拟合的几种方法 最大似然估计MLE,最大后验概率MAP: "MLE和MAP" MLE 给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。最大化: MAP 假如这个参数有一个先验概率,比如说,在抛硬币的例子中,假如我们的经验告诉我 阅读全文
posted @ 2018-07-13 23:13 冬色 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 特征和数据决定了机器学习效果的上限,而算法和模型不过是接近这个上限而已,因此 对于机器学习是及其重要的。 一图胜前言[1]: 数据清洗 在实际的应用过程中,数据是十分的杂乱的,可能包含大量的噪音,缺失值等,所以需要通过一些方法,尽可能提高数据质量。一般包括: 分析数据 缺失值处理 异常值处理 噪音数 阅读全文
posted @ 2018-07-13 23:13 冬色 阅读(864) 评论(0) 推荐(0) 编辑
摘要: 本文转载修改自: "知乎 科言君" 感知机(perceptron) 神经网络技术起源于上世纪五、六十年代,当时叫 ,拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。早期感知机的推动者是Rosenblatt。但是,Rosenblatt的单层感知机有一个严重 阅读全文
posted @ 2018-07-13 23:12 冬色 阅读(2804) 评论(0) 推荐(0) 编辑
摘要: Decision Tree builds classification or regression models in the form of a tree structure. It break down dataset into smaller and smaller subsets while 阅读全文
posted @ 2018-07-13 23:06 冬色 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 参考文献: "PRML2" 参数方法和非参数方法 机器学习上的方法分为参数方法(根据先验知识假定模型服从某种分布,然后利用训练集估计出模型参数,也就弄清楚了整个模型,例如感知器)和非参数方法(基于记忆训练集,然后根据训练集预测,例如kNN)。 参数方法 参数方法根据先验知识假定模型服从某种分布,然后 阅读全文
posted @ 2018-07-13 23:06 冬色 阅读(333) 评论(0) 推荐(0) 编辑
摘要: Bigtable最初是谷歌设计用来存储大规模结构化数据的分布式系统,其可以在数以千计的商用服务器上存储高达PB级别的数据量。开源社区根据Bigtable的设计思路开发了 "HBase" 。其优势在于提供了高效的随机读写,缺陷在于不(原生)支持类SQL的数据分析。 Bigtable的设计目标是:适应性 阅读全文
posted @ 2018-07-13 23:03 冬色 阅读(1750) 评论(0) 推荐(0) 编辑
摘要: xgboost和gdbt 在科学研究中,有种优化方法叫组合,将很多人的方法组合在一起做成一个集成的方法,集百家之长,效果一般就会比单个的好,这个方法就是集成学习。集成学习将弱学习算法通过组合提升为强学习算法。这要求每个弱学习方法要具有一定的准确性,并且之间具有差异性,即集成学习,关键在于各个弱分类器 阅读全文
posted @ 2018-07-13 23:02 冬色 阅读(894) 评论(0) 推荐(0) 编辑
摘要: HDFS(Hadoop Distributed File System)是一个运行在商用机器上面的分布式文件系统,其设计思想来自于google著名的Google File System论文。 HDFS的设计目标:为何产生HDFS? 由于数据量的急剧增大,原有的单机多磁盘因为速度,存储量等原因,已经远 阅读全文
posted @ 2018-07-13 23:02 冬色 阅读(831) 评论(0) 推荐(0) 编辑
摘要: 对模型参数进行限制或者规范化能将一些参数朝着0收缩(shrink)。使用收缩的方法的效果提升是相当好的,岭回归(ridge regression,后续以ridge代称),lasso和弹性网络(elastic net)是常用的变量选择的一般化版本。弹性网络实际上是结合了岭回归和lasso的特点。 La 阅读全文
posted @ 2018-07-13 23:02 冬色 阅读(12044) 评论(0) 推荐(0) 编辑
摘要: 常规参数General Parameters 1. booster[default=gbtree]:选择基分类器,可以是:gbtree,gblinear或者dart。gbtree和draf基于树模型,而gblinear基于线性模型。 2. slient[default=0]:是否有运行信息输出,设置 阅读全文
posted @ 2018-07-13 23:01 冬色 阅读(10523) 评论(0) 推荐(0) 编辑
摘要: LightGBM介绍 xgboost是一种优秀的boosting框架,但是在使用过程中,其训练耗时过长,内存占用比较大。微软在2016年推出了另外一种boosting框架——lightgbm,在不降低准确度的的前提下,速度提升了10倍左右,占用内存下降了3倍左右。详细的实验结果参见: "LightG 阅读全文
posted @ 2018-07-13 23:01 冬色 阅读(1475) 评论(0) 推荐(0) 编辑
摘要: 我们可以使用最小二乘法求解线性回归: β即是我们模型训练获得的系数。但是这里有个问题即是涉及到了矩阵求逆,这就要求XTX可逆,在实际的应用中,很多情况下,矩阵是不可逆的,如何处理呢?我们可以求矩阵的伪逆,函数原型: 计算一个矩阵的伪逆(Moore Penrose)。 a:(m,n)要求逆的矩阵 rc 阅读全文
posted @ 2018-07-13 23:00 冬色 阅读(2220) 评论(0) 推荐(0) 编辑
摘要: 过拟合是机器学习的模型建立中,由于独立同分布的假设可能并不成立,为了提高模型泛化的能力(推广到未知数据的能力),所以必须在训练模型中抗过拟。 过拟合一直是机器学习中比较头疼的问题。常用的方法有:正则化Regularization(在目标函数或者代价函数加上正则项),early stopping,数据 阅读全文
posted @ 2018-07-13 22:58 冬色 阅读(624) 评论(0) 推荐(0) 编辑
摘要: 什么是TF IDF TF IDF(term frequency inverse document frequency)词频 逆向文件频率。在处理文本时,如何将文字转化为模型可以处理的向量呢?TF IDF就是这个问题的解决方案之一。字词的重要性与其在文本中出现的频率成正比(TF),与其在语料库中出现的 阅读全文
posted @ 2018-07-13 22:57 冬色 阅读(30038) 评论(1) 推荐(2) 编辑
摘要: sklearn中的LinearRegression 函数原型: fit\_intercept:模型是否存在截距 normalize:模型是否对数据进行标准化(在回归之前,对X减去平均值再除以二范数),如果fit\_intercept被设置为False时,该参数将忽略。 该函数有属性:coef\_可供 阅读全文
posted @ 2018-07-13 22:57 冬色 阅读(14531) 评论(0) 推荐(0) 编辑
摘要: python的matplotlib包可以帮助我们绘制丰富的图表,有助于我们的数据分析。 matplotlib官方文档: "matplotlib" 本博客所有代码默认导入matplotlib.pyplot和numpy包,即默认有以下代码: import matplotlib.pyplot as plt 阅读全文
posted @ 2018-07-13 22:55 冬色 阅读(1591) 评论(0) 推荐(0) 编辑
摘要: nltk(Natural Language Toolkit)是处理文本的利器。 安装 进入python命令行,键入nltk.download()可以下载nltk需要的语料库等等。 分词 按词语分割(传入句子) sentence='hello,world!' tokens=nltk.word_toke 阅读全文
posted @ 2018-07-13 22:55 冬色 阅读(410) 评论(0) 推荐(0) 编辑
摘要: Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访 阅读全文
posted @ 2018-07-13 22:53 冬色 阅读(261) 评论(0) 推荐(0) 编辑
摘要: Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访 阅读全文
posted @ 2018-07-13 22:47 冬色 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 微博评论API 想要爬取某一条微博的评论,首先会想到微博官方提供的API,但是不巧的是,官方提供的api能够获取的评论数量有限,不足以分析,那怎么办呢? 我们想到了网页端,手机端的微博,希望直接爬取上面的数据。试了下网页端,可能网页做得很完善了吧,网页端找不到突破口,于是想到手机端碰碰运气。通过使用 阅读全文
posted @ 2018-07-13 22:47 冬色 阅读(9415) 评论(0) 推荐(0) 编辑
摘要: Power BI是微软开发的一款简单易用的数据可视化软件。 导入数据 使用Power BI的第一步是将数据导入到软件中。获取数据 更多,可以看到可使用多种数据源,甚至微软提供了一些联机的数据源供分析。 由于我要分析的数据在Mysql中,因此选择“Mysql 数据库”作为数据源,选中“Mysql 数据 阅读全文
posted @ 2018-07-13 22:46 冬色 阅读(1007) 评论(0) 推荐(0) 编辑
摘要: 在一个经典的数据架构中,Hadoop是处理复杂数据流的核心。数据从各种系统中收集而来,并汇总导入到Hadoop分布式文件系统HDFS中,然后通过MapReduce或者其它基于MapReduce封装的语言如Hive,Pig等进行处理,将处理后的数据导出即可。具体例子而言,如果一个大型网站需要做网站点击 阅读全文
posted @ 2018-07-13 22:45 冬色 阅读(419) 评论(0) 推荐(0) 编辑
摘要: Python优秀的集成开发环境有PyCharm,Visual Studio Code等,当然你仍然可以使用Visual Studio进行开发。如果你熟悉Visual Studio,使用Visual Studio你将获得更熟悉的开发体验。 在Visual Studio上安装Python 网络上的关于V 阅读全文
posted @ 2018-07-13 22:45 冬色 阅读(31724) 评论(0) 推荐(2) 编辑