2019 年 3月随笔档案 - DUDUDA

卷积之后尺寸变化

摘要：卷积尺度变化输入矩阵格式: 样本数目，图像高度，图像宽度，图像通道数卷积之后矩阵格式: 样本数目，图像高度，图像宽度，图像通道数（后三个维度在卷积之后会发生变化）权重矩阵（卷积核的格式:卷积核高度，卷积核宽度，输入通道数，输出通道数（以RGB为例，每个通道对应自己的一个权重矩阵），输出通道数阅读全文

posted @ 2019-03-18 14:02 DUDUDA 阅读(4893) 评论(0) 推荐(0)

如何在hadoop中使用外部的python程序文件

摘要：业务场景大概是这样，我需要在公司hadoop集群上对博文进行结巴分词。我的数据是存储在hive表格中的,数据量涉及到五百万用户三个月内发的所有博文。首先对于数据来说，很简单，在hive表格中就是两列，一列代表的是uid，一列代表的是博文内容。举个例子如下: 对于hive表格，我在使用hadoop的阅读全文

posted @ 2019-03-15 12:30 DUDUDA 阅读(2258) 评论(0) 推荐(0)

hive-show-partitions

摘要：展示分区命令 show partitions show partitions 可以展示这个表格之下的所有分区信息。这个命令常常用在使用SQL语句操作数据之前。举个简单的例子，如果我们想要根据uid融合两个hive表格，那么在筛选数据的时候用到分区dt(datetime)以确保融合的数据是在同一天阅读全文

posted @ 2019-03-15 12:29 DUDUDA 阅读(27126) 评论(0) 推荐(2)

hive的load命令

摘要：Hive Load语句不会在加载数据的时候做任何转换工作，而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法描述如果命令中带有LOCAL，说明从本地文件系统加载数据，文件路径可以是相对路径，也可以是绝对路径。在这种情况下，首先将文件从本地复制到hdfs相应的位置，然后移动到hive表格阅读全文

posted @ 2019-03-15 12:28 DUDUDA 阅读(7671) 评论(0) 推荐(0)

hive的desc命令

摘要：desc命令 desc 命令是为了展示hive表格的内在属性。例如列名，data_type，存储位置等信息.这个命令常常用在我们对hive表格观察之时，我们想要知道这个hive各个列名(基于这些具体列名我们才可以使用sql语句挑选数据)，hive表格的存储位置(有些时候我们需要查看locatio 阅读全文

posted @ 2019-03-15 12:26 DUDUDA 阅读(12144) 评论(0) 推荐(1)

hive表格取差集

摘要：hive 求两个集合的差集业务场景是这样的，这里由两个hive表格A和B A的形式大概是这样的:uid B的形式大概是这样的:uid 我想要得到存在A中但是不存在B中的uid 具体代码如下在这里我要穿插一个非常重要的知识点，在A和Bjoin(不管是哪种join)，在对结果表格取数据的时候，我们不阅读全文

posted @ 2019-03-15 12:25 DUDUDA 阅读(2549) 评论(0) 推荐(0)

使用union all 命令之后如何对hive表格进行去重

摘要：业务场景大概是这样的，这里由两个hive表格，tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中，我们知道union有着自动去重的功能，但是那是真对几行内容完全一致的情况下才可以。现在我们要进行去重的情况是根据uid进行去重。也就是说可能存在阅读全文

posted @ 2019-03-15 12:24 DUDUDA 阅读(3205) 评论(0) 推荐(0)

使用shell脚本依据分区信息分批次的下载hive表格数据

摘要：今天的业务场景大概是这样的，我想把hive表格下载到本地文件系统，然后把这个文件传送到另一个服务器上。但是这个业务场景一个核心问题就是说我本地机器内存有限，hive表格大概是70G，我是不可能全部下载到本地的。这个时候我想到的一个方法就是依靠分区实现这个目的。首先这个hive表格的内容大概是这样阅读全文

posted @ 2019-03-15 12:23 DUDUDA 阅读(510) 评论(0) 推荐(0)

使用python写一个最基本的mapreduce程序

摘要：一个mapreduce程序大致分成三个部分，第一部分是mapper文件，第二个就是reducer文件，第三部分就是使用hadoop command 执行程序。在这个过程中，困惑我最久的一个问题就是在hadoop command中hadoop streaming 也就是streaming jar包的阅读全文

posted @ 2019-03-15 12:22 DUDUDA 阅读(1978) 评论(0) 推荐(0)

如何在创建hive表格的python代码中导入外部文件

摘要：业务场景大概是这样的，我要对用户博文进行分词(这个步骤可以看这篇文章 "如何在hive调用python的时候使用第三方不存在的库 how to use external python library in hadoop" ）然后在对每条博文进行分词之后呢，我需要做的就是对分词之后的结果去除停用词，阅读全文

posted @ 2019-03-15 12:21 DUDUDA 阅读(667) 评论(0) 推荐(0)

如何删除hive表格的分区

摘要：今天的一个业务场景就是要把三年的数据从第一天不停的融合起来，每一天作为表格一个新的分区。由于空间有限，数据量很大，可能每天数据都是几十个G的大小。所以我需要做的一点就是在融合这一天之后，删除一天的分区数据，为了保险起见，我删除这一天的前三天的数据。大致代码是这样的 shell function s 阅读全文

posted @ 2019-03-15 12:19 DUDUDA 阅读(3944) 评论(0) 推荐(0)

pytorch中torch.nn构建神经网络的不同层的含义

摘要：主要是参考这里,写的很好 "PyTorch 入门实战（四）——利用Torch.nn构建卷积神经网络" 1. 卷积层nn.Con2d() 常用参数 in_channels:输入通道数 out_channels:输出通道数 kernel_size:滤波器（卷积核）大小，宽和高相等的卷积核可以用一个数字表阅读全文

posted @ 2019-03-15 12:06 DUDUDA 阅读(1393) 评论(0) 推荐(0)

pytorch中如何使用预训练词向量

摘要：不涉及具体代码，只是记录一下自己的疑惑。我们知道对于在pytorch中，我们通过构建一个词向量矩阵对象。这个时候对象矩阵是随机初始化的，然后我们的输入是单词的数值表达，也就是一些索引。那么我们会根据索引，赋予每个单词独一无二的一个词向量表达。在其后的神经网络训练过程中，每个单词对应独一无二的索引，阅读全文

posted @ 2019-03-15 12:05 DUDUDA 阅读(5740) 评论(2) 推荐(1)

pytorch中词向量生成的原理

摘要：pytorch中的词向量的使用在pytorch我们使用nn.embedding进行词嵌入的工作。具体用法就是: 在torch.nn.Embedding的源代码中，它是这么解释， This module is often used to store word embeddings and retr 阅读全文

posted @ 2019-03-15 12:04 DUDUDA 阅读(2666) 评论(0) 推荐(1)

如何自定义数据集

摘要：pytorch读取图片，主要是通过Dataset类。 Dataset类源代码如下: python class Dataset(object): """An abstract class representing a Dataset. All other datasets should subclas 阅读全文

posted @ 2019-03-15 12:02 DUDUDA 阅读(1789) 评论(0) 推荐(0)

如何在nlp问题中定义自己的数据集

摘要：我之前大致写了一篇在pytorch中如何自己定义数据集合，在这里 "如何自定义数据集" 不过这个例子使用的是image，也就是图像。如果我们用到的是文本呢，处理的是NLP问题呢？在解决这个问题的时候，我在网上无意间搜索到这样一篇文章 "PyTorch 入门实战（三）——Dataset和DataLo 阅读全文

posted @ 2019-03-15 12:02 DUDUDA 阅读(1420) 评论(0) 推荐(0)

transformer

摘要：他还写了一篇关于transformer的可以看一看 "transfromer" 阅读全文

posted @ 2019-03-15 11:58 DUDUDA 阅读(159) 评论(0) 推荐(0)

RNN-GRU-LSTM变体详解

摘要：首先介绍一下 encoder decoder 框架中文叫做编码解码器，它一个最抽象的模式可以用下图来展现出来: 这个框架模式可以看做是RNN的一个变种:N vs M,叫做Encoder Decoder模型，也可以称之为Seq2Seq模型。原始的N vs N RNN要求序列等长，然而我们遇到的大阅读全文

posted @ 2019-03-15 11:48 DUDUDA 阅读(1701) 评论(0) 推荐(0)

attention发展历史及其相应论文

摘要："这个论文讲述了attention机制的发展历史以及在发展过程的变体注意力机制（Attention Mechanism）在自然语言处理中的应用" 上面那个论文提到attention在CNN中应用，有一个模型叫做ABCNN模型，我找到了相应的博文解释，写的还是不错的，可以看一下 "这里《ABCN 阅读全文

posted @ 2019-03-15 11:37 DUDUDA 阅读(5053) 评论(1) 推荐(3)

HAN模型理解2

摘要：Hierarchical Attention Networks for Document Classification 论文的理解在论文的摘要中，它提出了论文的两个特点。第一个就是对应文章所有具有的分层结构，这个模型采取了相应的分层结构。这个文章的分层结构怎么理解呢？文章是具有分层结构的，单词构阅读全文

posted @ 2019-03-15 11:36 DUDUDA 阅读(1111) 评论(0) 推荐(0)

HAN模型理解1

摘要：HAN 模型最开始看这个模型是看的这个解释: RNN+Attention(HAN) 文本分类阅读笔记今天做作业没的文章知乎 https://zhuanlan.zhihu.com/p/42121435 Hierarchical Attention Networks for Document C 阅读全文

posted @ 2019-03-15 11:35 DUDUDA 阅读(1984) 评论(0) 推荐(0)

RCNN

摘要：RCNN 首先从这里 "通俗易懂理解——双向LSTM" 我了解到对于RNN来说，上一层的隐层仓的输出和这一时刻输入两者向量拼接作为输入。这一层的输入维度取决于输入神经元的个数，隐层的输入维度取决于rnn隐层的神经元的个数。通过这个知识点的了解，我就知道为什么在 "这个教程中" lstm在初始化h 阅读全文

posted @ 2019-03-15 11:34 DUDUDA 阅读(238) 评论(0) 推荐(0)

深度CNN

摘要：[具体参考可以看这里(https://cloud.tencent.com/developer/article/1369425) 阅读全文

posted @ 2019-03-15 11:32 DUDUDA 阅读(109) 评论(0) 推荐(0)

多通道CNN

摘要：在读Convolutional Neural Networks for Sentence Classification 这个文章的时候，它在论文中提出一种模型变种就是 CNN multichannel，也就是多通道CNN。和最普通的textcnn相比，这个东西最重要的一个区别就是输入为两个通道，一阅读全文

posted @ 2019-03-15 11:31 DUDUDA 阅读(3869) 评论(0) 推荐(0)

TextCNN

摘要：第一个模型就是TextCNN 对于textcnn一个基本介绍可以参考 "这里" textcnn 模型的pytorch实现版本需要参考的链接 "文本分类模型pytorch实现 1" "文本分类模型pytorch实现 2" "文本分类模型多通道CNN讲解" "文本分类模型深度CNN讲解" "NLP如何阅读全文

posted @ 2019-03-15 11:30 DUDUDA 阅读(931) 评论(0) 推荐(0)

词向量2

摘要：word2vec 20190305学习得到的新的感悟之前，我一直认为word2vec得到的词向量是输入层和隐层之间的参数，我其实对这句话的理解并不深入。这句话本质上是没有错的，但是更加准确的说法应该是: 每个单词的one hot词向量模式乘以这个权重矩阵得到的是相对应的单词的word2vec词向阅读全文

posted @ 2019-03-15 11:28 DUDUDA 阅读(205) 评论(0) 推荐(0)

词向量1.md

摘要：词向量我们以句子分类为例，我们使用深度学习模型对句子进行分类，本质上这个模型的接受的舒服需要是数值型。因为文字是人们抽象出来的一个概念，这个东西是不能被计算机直接理解的，我们需要人为的将这个文字转为数值，换句话讲，我们需要把这个文字嵌入到一个数学空间中去，这中嵌入方式就是词嵌入方式。 Word2 阅读全文

posted @ 2019-03-15 11:27 DUDUDA 阅读(369) 评论(0) 推荐(0)

Effective Approaches to Attention-based Neural Machine Translation(Global和Local attention)

摘要：这篇论文主要是提出了Global attention 和 Local attention 这个论文有一个译文，不过我没细看 Effective Approaches to Attention based Neural Machine Translation 中英文对照翻译一译的文章知乎 http 阅读全文

posted @ 2019-03-14 21:22 DUDUDA 阅读(1531) 评论(3) 推荐(0)

对Neural Machine Translation by Jointly Learning to Align and Translate论文的详解

摘要：读论文 Neural Machine Translation by Jointly Learning to Align and Translate 这个论文是在NLP中第一个使用attention机制的论文。他们把attention机制用到了神经网络机器翻译（NMT）上。NMT其实就是一个典型的se 阅读全文

posted @ 2019-03-12 20:15 DUDUDA 阅读(1455) 评论(0) 推荐(0)

【Hadoop/Hive/mapreduce】系列之使用union all 命令之后如何对hive表格使用python进行去重

摘要：业务场景大概是这样的，这里由两个hive表格，tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中，我们知道union有着自动去重的功能，但是那是真对几行内容完全一致的情况下才可以。现在我们要进行去重的情况是根据uid进行去重。也就是说可能存在阅读全文

posted @ 2019-03-11 16:52 DUDUDA 阅读(499) 评论(0) 推荐(0)

【Hadoop/Hive/mapreduce】系列之如何删除HIVE 表格的分区

摘要：今天的一个业务场景就是要把三年的数据从第一天不停的融合起来，每一天作为表格一个新的分区。由于空间有限，数据量很大，可能每天数据都是几十个G的大小。所以我需要做的一点就是在融合这一天之后，删除一天的分区数据，为了保险起见，我删除这一天的前三天的数据。大致代码是这样的 shell function s 阅读全文

posted @ 2019-03-11 16:28 DUDUDA 阅读(848) 评论(0) 推荐(0)

DUDUDA

03 2019 档案

公告