2018 年 5月 16 日随笔档案 - Elesdspline

2018年5月16日

摘要：最近在做词向量相关工作，训练的词向量如何进行评测？本文将从业界使用最广泛的两个评测任务进行阐述，包括相似度任务（`word similarity task`）和词汇类比任务(`word analogy task`)，这里已经写好了相关评测脚本（[Word_Similarity_and_Word_Analogy](https://github.com/bamtercelboo/Word_Similarity_and_Word_Analogy)），包括中文词向量评测脚本和英文V词向量评测脚本，方便大家使用。阅读全文

posted @ 2018-05-16 09:16 Elesdspline 阅读(2233) 评论(0) 推荐(3) 编辑

中文维基百科数据处理

摘要：最近在做词向量相关工作，词向量的训练数据采用中文维基百科数据，训练之前，要对维基百科数据进行处理，这篇文章记录了一些处理过程及相关的脚本。阅读全文

posted @ 2018-05-16 09:13 Elesdspline 阅读(1701) 评论(0) 推荐(1) 编辑

cw2vec理论及其实现

摘要：本文对AAAI 2018(Association for the Advancement of Artificial Intelligence 2018)高分录用的一篇中文词向量论文（[cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information](http://www.statnlp.org/wp-content/uploads/papers/2018/cw2vec/cw2vec.pdf)）进行简述与实现，这篇论文出自蚂蚁金服人工智能部。本文将从背景知识、模型简介、c++实现、实验结果、结论等几个方面来进行阐述。阅读全文

posted @ 2018-05-16 09:11 Elesdspline 阅读(2346) 评论(4) 推荐(1) 编辑

bamtercelboo

公告