打赏
摘要:[TOC] 前言 在18年末时,NLP各大公众号、新闻媒体都被BERT(《BERT: Pre training of Deep Bidirectional Transformers for Language Understanding》)刷屏了,刷新了自然语言处理11项纪录,也被称为了2018年最强 阅读全文
posted @ 2019-05-07 11:34 xlturing 阅读(12150) 评论(5) 推荐(0) 编辑
摘要:[TOC] 最近一段时间,996ICU在互联网界引发“大地震”,从普通员工、行业大佬甚至官媒都进行了发声,大家对这个问题进行了充分讨论: 事件回顾: 从16 19年陆续有企业强制员工996引起极大不满,在今年爆发了996icu的抗议,并申请了独立域名和github项目: https://996.ic 阅读全文
posted @ 2019-04-15 10:48 xlturing 阅读(1729) 评论(0) 推荐(3) 编辑
摘要:[TOC] 前言 很早便规划的浅谈分词算法,总共分为了五个部分,想聊聊自己在各种场景中使用到的分词方法做个总结,种种事情一直拖到现在,今天抽空赶紧将最后一篇补上。前面几篇博文中我们已经阐述了不论分词、词性标注亦或NER,都可以抽象成一种序列标注模型,seq2seq,就是将一个序列映射到另一个序列,这 阅读全文
posted @ 2019-01-06 22:25 xlturing 阅读(894) 评论(0) 推荐(0) 编辑
摘要:[TOC] 前言 通过前面几篇系列文章,我们从分词中最基本的问题开始,并分别利用了1 gram和HMM的方法实现了分词demo。本篇博文在此基础上,重点介绍利用CRF来实现分词的方法,这也是一种基于字的分词方法,在将句子转换为序列标注问题之后,不使用HMM的生成模型方式,而是使用条件概率模型进行建模 阅读全文
posted @ 2018-12-28 12:16 xlturing 阅读(3800) 评论(0) 推荐(0) 编辑
摘要:[TOC] 前言 在 "浅谈分词算法(1)分词中的基本问题" 我们讨论过基于词典的分词和基于字的分词两大类,在 "浅谈分词算法(2)基于词典的分词方法" 文中我们利用n gram实现了基于词典的分词方法。在(1)中,我们也讨论了这种方法有的缺陷,就是OOV的问题,即对于未登录词会失效在,并简单介绍了 阅读全文
posted @ 2018-02-24 17:22 xlturing 阅读(1923) 评论(1) 推荐(1) 编辑
摘要:[TOC] 前言 在 "浅谈分词算法(1)分词中的基本问题" 中我们探讨了分词中的基本问题,也提到了基于词典的分词方法。基于词典的分词方法是一种比较传统的方式,这类分词方法有很多,如:正向最大匹配(forward maximum matching method, FMM)、逆向最大匹配(backwa 阅读全文
posted @ 2018-02-24 17:21 xlturing 阅读(6388) 评论(0) 推荐(0) 编辑
摘要:[TOC] 前言 分词或说切词是自然语言处理中一个经典且基础的问题,在平时的工作中也反复的接触到分词问题,用到了不同的模型,不同的方法应用在各个领域中,所以想对分词问题做一个系统的梳理。大多数分词问题主要是针对类似汉语、韩语、日语等,词语之间并没有天然的分割,而像英语等,句子中是带有天然的分割的。但 阅读全文
posted @ 2018-02-24 17:20 xlturing 阅读(2172) 评论(1) 推荐(3) 编辑
摘要:[TOC] 前言 在Spark的使用中,性能的调优配置过程中,查阅了很多资料,本文的思路是从spark最细节的本质,即核心的数据结构RDD出发,到整个Spark集群宏观的调度过程做一个整理归纳,从微观到宏观两方面总结,方便自己在调优过程中找寻问题,理清思路,也加深自己对于分布式程序开发的理解。(有任 阅读全文
posted @ 2017-05-27 18:19 xlturing 阅读(3728) 评论(0) 推荐(0) 编辑
摘要:[TOC] 前言 "Spark踩坑记——初试" "Spark踩坑记——数据库(Hbase+Mysql)" "Spark踩坑记——Spark Streaming+kafka应用及调优" 在前面总结的几篇spark踩坑博文中,我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多 阅读全文
posted @ 2017-03-31 19:04 xlturing 阅读(7238) 评论(1) 推荐(0) 编辑
摘要:[TOC] 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafk 阅读全文
posted @ 2017-01-03 21:35 xlturing 阅读(85370) 评论(13) 推荐(9) 编辑