摘要: 1.Hive相关 脚本导数据,并设置运行队列 将毫秒转换为日期 对值类型为JSON的数据进行解析,如下就是一个字段data为json类型,其中的type代表日志类型,查询搜索日志。 JSONArray类型解析 表格有3个字段(asrtext array, asraudiourl string) se 阅读全文
posted @ 2015-08-28 16:37 春文秋武 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 1.变量 类变量紧接在类名后面定义,相当于java和c++的static变量 实例变量在init里定义,相当于java和c++的普通变量 2.日期 #coding:utf-8 import time import datetime #日期格式化,time.strftime(format[, t]), 阅读全文
posted @ 2015-08-28 15:57 春文秋武 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 1.统计重复行的个数 2.查看压缩文件 3.查看2个文件的交集、差集 comm用于比较两个有序文件,默认第一列为第一个文件独有的元素,第二列为第二个文件独有的元素,第三列为共有元素,语法:comm 选项 参数 -1:不显示在第一个文件出现的内容 -2:不显示在第二个文件出现的内容 -3:不显示同时在 阅读全文
posted @ 2012-08-23 17:51 春文秋武 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 1.抽特征 一个query属不属于音乐,这和我们对音乐的理解有很大的关系,需要进行产品上的定义。如你会唱歌吗,刘德华,换一首音乐,如何让孩子爱上学习等,既可以属于音乐也可以不属于音乐。对音乐的理解最终落到标注数据上,继而来影响我们的打分模型给出高分或者低分。 我们对query进行了很多的清理、转换、 阅读全文
posted @ 2017-08-18 17:34 春文秋武 阅读(727) 评论(0) 推荐(0) 编辑
摘要: SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据(训练集)中得到一个模型,包括最大似然估计及相应的平滑算法;而评测则是从测试集中计算其困惑度。其最基础和最核心的模块是n-gram模块,这也是最早实现的模块,包括两个工 具:ngram-count和ngram,相应的被用来估计语言模型和 阅读全文
posted @ 2017-08-07 10:04 春文秋武 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: 逻辑函数 来源于数字电路,输入量和输出量之间的关系是一种逻辑上的因果关系,输出是0或1。函数定义: 最大似然估计 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。 正则化 L1/L2 regularization 为了避免过拟合overf 阅读全文
posted @ 2017-04-01 14:54 春文秋武 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 语言模型 计算词序列(words sequences)概率的模型称为语言模型(LMs),词序列(w1,w2,...,wn)的概率为: P(w1n) = P(w1)p(w2|w1)P(w3|w1w2)...P(wn|w1n 1) Bigram model 二元模型的前提是Markov假设(一个词的概率 阅读全文
posted @ 2017-03-10 19:20 春文秋武 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 为什么崩溃前fullgc的时间越来越长 根据内存模型和垃圾回收算法,垃圾回收分两部分:内存标记、清除(复制),标记部分只要内存大小固定时间是不变的,变的是复制部分,因为每次垃圾回收都有一些回收不掉的内存,所以增加了复制量,导致时间延长。所以,垃圾回收的时间也可以作为判断内存泄漏的依据。 为什么崩溃前 阅读全文
posted @ 2017-01-22 16:56 春文秋武 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 人机交互方式越来越多的变成语音交互,用户说出口语化的自然语言,系统需要正确理解并实现对应的操作。语音识别是另外一个问题,本文讨论语音识别后的文本处理。而音乐在人们生活中是刚需,amazon的echo、google的google home、讯飞京东的叮咚智能音箱、百度的对话式人工智能操作系统DuerO 阅读全文
posted @ 2017-01-07 14:39 春文秋武 阅读(1281) 评论(0) 推荐(0) 编辑
摘要: stanford corenlp的中文切词有时不尽如意,那我们就需要实现一个自定义切词类,来完全满足我们的私人定制(加各种词典干预)。上篇文章《IKAnalyzer》介绍了IKAnalyzer的自由度,本篇文章就说下怎么把IKAnalyzer作为corenlp的切词工具。 《stanford cor 阅读全文
posted @ 2016-12-09 15:34 春文秋武 阅读(2955) 评论(0) 推荐(0) 编辑
摘要: 我们的项目中中文切词使用的是mmseg,有一个不满意的地方是jar包中的默认词典一定会被加载进去,当我对有些term有意见时,无法删除。 mmseg中Dictionary.java里一段代码保证了/data/words.dic的加载,我无法提供自己的进行替换。 而IKAnalyzer就比较自由,既可 阅读全文
posted @ 2016-12-09 15:21 春文秋武 阅读(722) 评论(0) 推荐(0) 编辑
摘要: 最近做一些音乐类、读物类的自然语言理解,就调研使用了下Stanford corenlp,记录下来。 功能 Stanford Corenlp是一套自然语言分析工具集包括: POS(part of speech tagger)-标注词性 NER(named entity recognizer)-实体名识 阅读全文
posted @ 2016-08-05 15:59 春文秋武 阅读(4003) 评论(0) 推荐(0) 编辑
摘要: 最近发现服务的逻辑完成时间很短,但是上游接收到的时间比较长,所以就怀疑是底层数据的序列化/反序列化、读写、传输有问题,然后怀疑是TCP的读写缓存是不是设置太小。现在就记录下TCP缓存的各配置项以及缓存大小的计算公式。 1.有关发送、接收缓存的配置 内核设置的套接字缓存 /proc/sys/net/c 阅读全文
posted @ 2016-06-13 15:48 春文秋武 阅读(10249) 评论(0) 推荐(1) 编辑