石头木

2020年2月29日

摘要：假如有一款新闻APP，也有一些人在使用，这将会产生一些用户行为日志。我想根据这些用户日志构建一个画像系统，主要是新闻画像和用户画像，统计好这些画像，为个性化推荐做好铺垫。新闻画像和用户画像的一些常用特征如下：一.news profile 这里可以采用json层次化表示一篇新闻，实时对抓取的新闻进行阅读全文

posted @ 2020-02-29 23:53 石头木阅读(430) 评论(2) 推荐(0)

2019年12月16日

在线学习简单构建

摘要：构建一个简单的在线学习pipeline，主要包括样本的生成，模型的训练等。众所周知腾讯开源的一个框架叫angel以及阿里的alink，这两个框架有很多算法模型，可以拿来直接使用。这里面当然也有像FTRL这样的在线更新模型，后期有机会可以利用angel和alink进行相关测试。大数据处理采用Flin 阅读全文

posted @ 2019-12-16 21:43 石头木阅读(280) 评论(0) 推荐(0)

2019年12月11日

使用horovod构建分布式深度学习框架

摘要：最近一直在尝试着分布式深度学习的架构，主要的原因一方面是几台机子全是1060卡，利用深度网络在较大数据样本上训练的效率极其低下，所以尝试着将几台机子做成分布式，看看能否提高训练效率；第二方面是有人习惯使用tensorflow，有人习惯使用keras，也有人喜欢使用pytorch等，虽然这些框架各自都阅读全文

posted @ 2019-12-11 22:11 石头木阅读(2799) 评论(2) 推荐(0)

2019年10月24日

关于bert+lstm+crf实体识别训练数据的构建

摘要：一.在实体识别中，bert+lstm+crf也是近来常用的方法。这里的bert可以充当固定的embedding层，也可以用来和其它模型一起训练fine-tune。大家知道输入到bert中的数据需要一定的格式，如在单个句子的前后需要加入"[CLS]"和“[SEP]”，需要mask等。下面使用pad_s 阅读全文

posted @ 2019-10-24 12:44 石头木阅读(10024) 评论(0) 推荐(0)

2019年10月22日

import torch错误解决

摘要： import torch出现 ”from torch._C import * ImportError: DLL load failed: 找不到指定的模块“错误这里torch=1.0.1，torchvision=0.2.0。最后解决这个错误的手段是升级了numpy=1.17，python=3.6.3 阅读全文

posted @ 2019-10-22 17:43 石头木阅读(7607) 评论(0) 推荐(1)

2019年10月16日

利用pointer-network进行文本摘要

摘要：文本摘要主要分为抽取式和生成式，抽取式就是从文章中抽取重要的句子作为文章的核心，之前也利用该方法做过相关工作，方法也较简单和直接，但往往不够连贯；生成式即根据文章自动生成文章核心内容，一般训练语料的格式为:标题-文章，和机器翻译有点像，这种方法需要大量的训练语料并不断的调优，但这种方法有时候会产生莫阅读全文

posted @ 2019-10-16 22:17 石头木阅读(525) 评论(0) 推荐(0)

single-pass单遍聚类方法

摘要：一.通常关于文本聚类也都是针对已有的一堆历史数据进行聚类，比如常用的方法有kmeans,dbscan等。如果有个需求需要针对流式文本进行聚类(即来一条聚一条)，那么这些方法都不太适用了，当然也有很多其它针对流式数据进行动态聚类方法，动态聚类也有很多挑战，比如聚类个数是不固定的，聚类的相似阈值也不好设阅读全文

posted @ 2019-10-16 22:12 石头木阅读(6194) 评论(1) 推荐(1)

利用pyltp进行实体识别

摘要：一.实体识别作为信息抽取中基础的也是重要的一步，其技术可以分为三类，分别是其于规则的方法、其于统计模型的方法以及基于深度学习的方法。基于规则的方法，主要依靠构建大量的实体抽取规则，一般由具有一定领域知识的专家手工构建。然后将规则与文本进行匹配，识别出实体。基于统计的方法，需要一定的标注语料进行训阅读全文

posted @ 2019-10-16 21:55 石头木阅读(1500) 评论(0) 推荐(0)

2019年8月17日

利用neo4j构建一个简单的知识图谱

该文被密码保护。阅读全文

posted @ 2019-08-17 18:10 石头木阅读(11) 评论(0) 推荐(0)

2019年7月26日

基于熵的方法计算query与docs相似度

摘要：一.简单总结其实相似度计算方法也是老生常谈，比如常用的有： 1.常规方法 a.编辑距离 b.Jaccard c.余弦距离 d.曼哈顿距离 e.欧氏距离 f.皮尔逊相关系数 2.语义方法 a.LSA b.Doc2Vec c.DSSM ...... 二.利用熵计算相似度关于什么是熵、相对熵、交叉熵的阅读全文

posted @ 2019-07-26 21:32 石头木阅读(771) 评论(0) 推荐(1)

https://jiangnanboy.github.io

公告