2018 年 7月 13 日随笔档案 - 冬色

2018年7月13日

论文阅读计划2(Deep Joint Rain Detection and Removal from a Single Image)

摘要： Deep Joint Rain Detection and Removal from a Single Image[1] 简介：多任务全卷积从单张图片中去除雨迹。本文在现有的模型上，开发了一种多任务深度学习框架，学习了三个方面，包括二元雨条纹映射(binary rain streak map)，雨条阅读全文

posted @ 2018-07-13 23:59 冬色阅读(1249) 评论(0) 推荐(0) 编辑

论文阅读计划1(Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming & An Enforcement of Real Time Scheduling in Spark Streaming & StyleBank: An Explicit Representation for Neural Ima)

摘要： Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming[1] 简介：雅虎发布的一份各种流处理引擎的基准测试，包括Storm, Flink, Spark Streaming 动机：贴近生产环境，使用Kaf 阅读全文

posted @ 2018-07-13 23:58 冬色阅读(532) 评论(0) 推荐(0) 编辑

斯特林数、欧拉数的求和技术及应用

摘要：斯特林数和欧拉数斯特林数主要处理的是将N个不同元素分成k个集合或环的个数问题，可以分为第一类斯特林数和第二类斯特林数，其中第一类斯特林数还分为有符号和无符号两种。第一类斯特林数第一类斯特林数表示的是将n个不同元素分成k个不同环的方案数，当且仅当两阅读全文

posted @ 2018-07-13 23:57 冬色阅读(2709) 评论(0) 推荐(2) 编辑

Survey Report on Data Skew in Big Data

摘要： 1 Introduction 信息时代产生了大量的数据，运用和使用数据已经成为一个公司乃至一个国家核心实力的重要组成部分。当代大数据一般指的是：数据量巨大，需要运用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长和多样化的信息资产。大数据的特征有四个层面：第一：数据量巨大，从TB级阅读全文

posted @ 2018-07-13 23:20 冬色阅读(412) 评论(0) 推荐(0) 编辑

具体数学第三章作业解答

摘要：老师的具体数学作业要电子版了，那就把我自己的解答放在这里。 10. $$ \begin{array}{l} \left \lceil \frac{2x+1} {2} \right \rceil \left \lceil \frac{2x+1} {4} \right \rceil+\left \lfl 阅读全文

posted @ 2018-07-13 23:19 冬色阅读(1081) 评论(0) 推荐(0) 编辑

认识Java

摘要： Java简介 Java语言体系中，最基础的部分是Java SE，其是Java的标准版本，包含了Java的一些面向对象的特性等；Java EE是Java的企业版；Java ME用于嵌入式开发 JVM：Java Virtual Machine；JRE：Java Runtime Environment；J 阅读全文

posted @ 2018-07-13 23:18 冬色阅读(191) 评论(0) 推荐(1) 编辑

CS224n笔记二：word2vec

摘要：如何表示词语的意思语言学中meaning近似于“指代，代指，符号”。计算机中如何处理词语的意思过去一直采用，计算语言学中常见的方式时WordNet那样的词库，比如NLTK中可以通过WordNet查询熊猫的上位词(hypernums)，得到“食肉动物”，“动物”之类的上位词。也可以查询“goo 阅读全文

posted @ 2018-07-13 23:18 冬色阅读(386) 评论(0) 推荐(0) 编辑

CS224n笔记一：开端

摘要：何为自然语言处理自然语言处理的目标是让计算机处理或者“理解”自然语言，以完成有意义的任务，如QA等。自然语言处理涉及的层次输入有两个来源：语音和文本，所以第一级是语音识别，OCR或者分词形态学（Morphological analysis）或称词法或者词汇形态学。其研究词的内部结构，包括屈折阅读全文

posted @ 2018-07-13 23:15 冬色阅读(485) 评论(0) 推荐(0) 编辑

机器学习特征工程

摘要：特征和数据决定了机器学习效果的上限，而算法和模型不过是接近这个上限而已，因此对于机器学习是及其重要的。一图胜前言[1]：数据清洗在实际的应用过程中，数据是十分的杂乱的，可能包含大量的噪音，缺失值等，所以需要通过一些方法，尽可能提高数据质量。一般包括：分析数据缺失值处理异常值处理噪音数阅读全文

posted @ 2018-07-13 23:13 冬色阅读(863) 评论(0) 推荐(0) 编辑

PRML Chapter3

摘要：曲线拟合的几种方法最大似然估计MLE，最大后验概率MAP： "MLE和MAP" MLE 给定一堆数据，假如我们知道它是从某一种分布中随机取出来的，可是我们并不知道这个分布具体的参，即“模型已定，参数未知”。最大化： MAP 假如这个参数有一个先验概率，比如说，在抛硬币的例子中，假如我们的经验告诉我阅读全文

posted @ 2018-07-13 23:13 冬色阅读(205) 评论(0) 推荐(0) 编辑

CNN(卷积神经网络)、RNN(循环神经网络)和DNN(深度神经网络)

摘要：本文转载修改自： "知乎科言君" 感知机(perceptron) 神经网络技术起源于上世纪五、六十年代，当时叫，拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。但是，Rosenblatt的单层感知机有一个严重阅读全文

posted @ 2018-07-13 23:12 冬色阅读(2801) 评论(0) 推荐(0) 编辑

Decision Tree

摘要： Decision Tree builds classification or regression models in the form of a tree structure. It break down dataset into smaller and smaller subsets while 阅读全文

posted @ 2018-07-13 23:06 冬色阅读(340) 评论(0) 推荐(0) 编辑

PRML Chapter2

摘要：参考文献： "PRML2" 参数方法和非参数方法机器学习上的方法分为参数方法(根据先验知识假定模型服从某种分布，然后利用训练集估计出模型参数，也就弄清楚了整个模型，例如感知器)和非参数方法(基于记忆训练集，然后根据训练集预测，例如kNN)。参数方法参数方法根据先验知识假定模型服从某种分布，然后阅读全文

posted @ 2018-07-13 23:06 冬色阅读(331) 评论(0) 推荐(0) 编辑

Bigtable:结构化数据的分布式存储系统

摘要： Bigtable最初是谷歌设计用来存储大规模结构化数据的分布式系统，其可以在数以千计的商用服务器上存储高达PB级别的数据量。开源社区根据Bigtable的设计思路开发了 "HBase" 。其优势在于提供了高效的随机读写，缺陷在于不（原生）支持类SQL的数据分析。 Bigtable的设计目标是：适应性阅读全文

posted @ 2018-07-13 23:03 冬色阅读(1743) 评论(0) 推荐(0) 编辑

变量的选择——Lasso&Ridge&ElasticNet

摘要：对模型参数进行限制或者规范化能将一些参数朝着0收缩（shrink）。使用收缩的方法的效果提升是相当好的，岭回归（ridge regression，后续以ridge代称），lasso和弹性网络（elastic net）是常用的变量选择的一般化版本。弹性网络实际上是结合了岭回归和lasso的特点。 La 阅读全文

posted @ 2018-07-13 23:02 冬色阅读(12033) 评论(0) 推荐(0) 编辑

HDFS的几点改进

摘要： HDFS(Hadoop Distributed File System)是一个运行在商用机器上面的分布式文件系统，其设计思想来自于google著名的Google File System论文。 HDFS的设计目标：为何产生HDFS？由于数据量的急剧增大，原有的单机多磁盘因为速度，存储量等原因，已经远阅读全文

posted @ 2018-07-13 23:02 冬色阅读(831) 评论(0) 推荐(0) 编辑

xgboost原理

摘要： xgboost和gdbt 在科学研究中，有种优化方法叫组合，将很多人的方法组合在一起做成一个集成的方法，集百家之长，效果一般就会比单个的好，这个方法就是集成学习。集成学习将弱学习算法通过组合提升为强学习算法。这要求每个弱学习方法要具有一定的准确性，并且之间具有差异性，即集成学习，关键在于各个弱分类器阅读全文

posted @ 2018-07-13 23:02 冬色阅读(893) 评论(0) 推荐(0) 编辑

xgboost参数及调参

摘要：常规参数General Parameters 1. booster[default=gbtree]:选择基分类器，可以是：gbtree,gblinear或者dart。gbtree和draf基于树模型，而gblinear基于线性模型。 2. slient[default=0]：是否有运行信息输出，设置阅读全文

posted @ 2018-07-13 23:01 冬色阅读(10515) 评论(0) 推荐(0) 编辑

比快更快——微软LightGBM

摘要： LightGBM介绍 xgboost是一种优秀的boosting框架，但是在使用过程中，其训练耗时过长，内存占用比较大。微软在2016年推出了另外一种boosting框架——lightgbm，在不降低准确度的的前提下，速度提升了10倍左右，占用内存下降了3倍左右。详细的实验结果参见： "LightG 阅读全文

posted @ 2018-07-13 23:01 冬色阅读(1475) 评论(0) 推荐(0) 编辑

实现最小二乘的问题——求矩阵的逆

摘要：我们可以使用最小二乘法求解线性回归： β即是我们模型训练获得的系数。但是这里有个问题即是涉及到了矩阵求逆，这就要求XTX可逆，在实际的应用中，很多情况下，矩阵是不可逆的，如何处理呢？我们可以求矩阵的伪逆，函数原型：计算一个矩阵的伪逆(Moore Penrose)。 a:(m,n)要求逆的矩阵 rc 阅读全文

posted @ 2018-07-13 23:00 冬色阅读(2210) 评论(0) 推荐(0) 编辑

冬色

GitHub: https://github.com/cnlinxi

公告