listenviolet - 博客园

2020年8月14日

摘要：确定map任务数时依次优先参考如下几个原则： 1) 每个map任务使用的内存不超过800M，尽量在500M以下比如处理256MB数据需要的时间为10分钟，内存为800MB，此时如果处理128MB时，内存可以减小为400MB，则选择每一个map的处理数据量为128MB 2) 每个map任务运行时间控阅读全文

posted @ 2020-08-14 10:02 listenviolet 阅读(1297) 评论(0) 推荐(0)

2020年7月16日

[Shell] 生成日期列表

摘要： start_date=`date -d "20200701" +"%Y%m%d"` last_date=`date -d "20200710" +"%Y%m%d"` cur_date=$start_date date_list="" while [ $cur_date -le $last_date 阅读全文

posted @ 2020-07-16 00:14 listenviolet 阅读(1339) 评论(0) 推荐(0)

2020年7月12日

[Python] Python 获取文件路径

摘要：转载：https://www.cnblogs.com/yitao326/p/10535899.htmlprint("获取当前文件路径——" + os.path.realpath(__file__)) # 获取当前文件路径 parent = os.path.dirname(os.path.realpa 阅读全文

posted @ 2020-07-12 19:34 listenviolet 阅读(468) 评论(0) 推荐(0)

2020年7月11日

[Search] 倒排索引与bool检索

摘要：参考链接：倒排索引：https://www.cnblogs.com/meibaorui/p/reverse_index.html bool检索：https://www.cnblogs.com/meibaorui/p/boolean_search.html 阅读全文

posted @ 2020-07-11 22:05 listenviolet 阅读(348) 评论(0) 推荐(0)

2020年7月1日

[NLP] Reformer: The Efficient Transformer

摘要： 1.现状 Transformer模型目前被广泛应用，但目前存在以下几个问题： (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析层参数设置参数量与占用内存 1 layer 0.5Billion 0.5Billion * 4 阅读全文

posted @ 2020-07-01 23:09 listenviolet 阅读(773) 评论(0) 推荐(0)

2020年6月28日

[Alg] 随机抽样完备算法-蓄水池算法 Reservoir Sampling

摘要： 1. 问题定义在保证$n$个元素被抽取的概率是相同的前提下，从总量为$n$的样本空间中随机抽取$k$个元素 2. 应用场景和一般算法 (1) 对于总数$n$值已知的情况我们可以用最简单的随机数算法，生成范围在 $[1, n]$间的$k$个随机数。 (2) 对于总数$n$值提前未知的情况一种方法阅读全文

posted @ 2020-06-28 20:30 listenviolet 阅读(655) 评论(0) 推荐(0)

2020年5月29日

[Chaos] 混沌数学学习资料

摘要：书籍： 1. Student Solutions Manual for Nonlinear Dynamics and Chaos, 2nd edition http://93.174.95.29/main/B0EFCAD73D8C6552F24DCC7BBE380318 2. Nonlinear D 阅读全文

posted @ 2020-05-29 07:16 listenviolet 阅读(584) 评论(0) 推荐(0)

2020年4月2日

[Alg] 文本匹配-多模匹配-WM算法

摘要：转载：https://blog.csdn.net/joylnwang/article/details/6801720 1. 算法原理提到多模式匹配算法，就得说一下Wu-Manber算法，其在多模式匹配领域相较于Aho-Corasick算法，就好象在单模式匹配算法中BM算法相较于KMP算法一样，在绝阅读全文

posted @ 2020-04-02 23:26 listenviolet 阅读(2214) 评论(0) 推荐(0)

2020年3月30日

[Alg]文本匹配-单模匹配-Sunday算法

摘要：转自：https://www.cnblogs.com/zhangtianq/p/5839909.html 1. 算法 KMP算法和BM算法，这两个算法在最坏情况下均具有线性的查找时间。但实际上，KMP算法并不比最简单的c库函数strstr()快多少，而BM算法虽然通常比KMP算法快，但BM算法也还不阅读全文

posted @ 2020-03-30 22:43 listenviolet 阅读(429) 评论(0) 推荐(0)

2020年3月22日

[Alg] 文本匹配-多模匹配-AC自动机

摘要： 1. 简介 AC自动机是一种多模匹配的文本匹配算法。如果采用naive的方法，即依次比较文本串s中是否包含模式串p1, p2,...非常耗时。考虑到这些模式串中可能具有相同子串，可以利用已经比较过的那些模式串的一些信息，来优化效率。容易想到的一种方法是为这些模式串构建一个trie树，可以较好的利用阅读全文

posted @ 2020-03-22 19:18 listenviolet 阅读(1266) 评论(0) 推荐(0)

认真积累每一天

公告