xlturing

2022年5月26日

摘要：最近在做OneNote->notion的事情，遇到了大量笔记需要迁移的问题，官方又不提供导入功能，好多手动保存。 PS notion是真好用，别用OneNote了保存OneNote全篇笔记保存长图分两步： command+A全选当前笔记打开Mac 预览，command+N 完成！完全所见即所得，阅读全文

posted @ 2022-05-26 15:38 xlturing 阅读(457) 评论(0) 推荐(0)

2019年5月7日

BERT解析及文本分类应用

摘要： [TOC] 前言在18年末时，NLP各大公众号、新闻媒体都被BERT（《BERT: Pre training of Deep Bidirectional Transformers for Language Understanding》）刷屏了，刷新了自然语言处理11项纪录，也被称为了2018年最强阅读全文

posted @ 2019-05-07 11:34 xlturing 阅读(19901) 评论(5) 推荐(0)

2019年4月15日

996ICU与程序猿的个人成长

摘要： [TOC] 最近一段时间，996ICU在互联网界引发“大地震”，从普通员工、行业大佬甚至官媒都进行了发声，大家对这个问题进行了充分讨论：事件回顾：从16 19年陆续有企业强制员工996引起极大不满，在今年爆发了996icu的抗议，并申请了独立域名和github项目： https://996.ic 阅读全文

posted @ 2019-04-15 10:48 xlturing 阅读(2011) 评论(0) 推荐(3)

2019年1月6日

浅谈分词算法（5）基于字的分词方法（bi-LSTM）

摘要： [TOC] 前言很早便规划的浅谈分词算法，总共分为了五个部分，想聊聊自己在各种场景中使用到的分词方法做个总结，种种事情一直拖到现在，今天抽空赶紧将最后一篇补上。前面几篇博文中我们已经阐述了不论分词、词性标注亦或NER，都可以抽象成一种序列标注模型，seq2seq，就是将一个序列映射到另一个序列，这阅读全文

posted @ 2019-01-06 22:25 xlturing 阅读(2355) 评论(0) 推荐(0)

2018年12月28日

浅谈分词算法（4）基于字的分词方法（CRF）

摘要： [TOC] 前言通过前面几篇系列文章，我们从分词中最基本的问题开始，并分别利用了1 gram和HMM的方法实现了分词demo。本篇博文在此基础上，重点介绍利用CRF来实现分词的方法，这也是一种基于字的分词方法，在将句子转换为序列标注问题之后，不使用HMM的生成模型方式，而是使用条件概率模型进行建模阅读全文

posted @ 2018-12-28 12:16 xlturing 阅读(8514) 评论(0) 推荐(0)

2018年2月24日

浅谈分词算法（3）基于字的分词方法（HMM）

摘要： [TOC] 前言在 "浅谈分词算法（1）分词中的基本问题" 我们讨论过基于词典的分词和基于字的分词两大类，在 "浅谈分词算法（2）基于词典的分词方法" 文中我们利用n gram实现了基于词典的分词方法。在（1）中，我们也讨论了这种方法有的缺陷，就是OOV的问题，即对于未登录词会失效在，并简单介绍了阅读全文

posted @ 2018-02-24 17:22 xlturing 阅读(4678) 评论(3) 推荐(1)

浅谈分词算法（2）基于词典的分词方法

摘要： [TOC] 前言在 "浅谈分词算法（1）分词中的基本问题" 中我们探讨了分词中的基本问题，也提到了基于词典的分词方法。基于词典的分词方法是一种比较传统的方式，这类分词方法有很多，如：正向最大匹配（forward maximum matching method, FMM）、逆向最大匹配（backwa 阅读全文

posted @ 2018-02-24 17:21 xlturing 阅读(11455) 评论(1) 推荐(0)

浅谈分词算法（1）分词中的基本问题

摘要： [TOC] 前言分词或说切词是自然语言处理中一个经典且基础的问题，在平时的工作中也反复的接触到分词问题，用到了不同的模型，不同的方法应用在各个领域中，所以想对分词问题做一个系统的梳理。大多数分词问题主要是针对类似汉语、韩语、日语等，词语之间并没有天然的分割，而像英语等，句子中是带有天然的分割的。但阅读全文

posted @ 2018-02-24 17:20 xlturing 阅读(4137) 评论(1) 推荐(4)

2017年5月27日

Spark踩坑记——从RDD看集群调度

摘要： [TOC] 前言在Spark的使用中，性能的调优配置过程中，查阅了很多资料，本文的思路是从spark最细节的本质，即核心的数据结构RDD出发，到整个Spark集群宏观的调度过程做一个整理归纳，从微观到宏观两方面总结，方便自己在调优过程中找寻问题，理清思路，也加深自己对于分布式程序开发的理解。（有任阅读全文

posted @ 2017-05-27 18:19 xlturing 阅读(4245) 评论(0) 推荐(0)

2017年3月31日

Spark踩坑记——共享变量

摘要： [TOC] 前言 "Spark踩坑记——初试" "Spark踩坑记——数据库（Hbase+Mysql）" "Spark踩坑记——Spark Streaming+kafka应用及调优" 在前面总结的几篇spark踩坑博文中，我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多阅读全文

posted @ 2017-03-31 19:04 xlturing 阅读(8131) 评论(1) 推荐(0)

梦如茶，一个程序员的逐梦之旅 - 转载请注明 http://www.cnblogs.com/xlturing/

公告