2019年9月21日

正文内容加载中...
posted @ 2019-09-21 13:12 志青云集 阅读(188) 评论(1) 推荐(0) 编辑

2017年4月8日

正文内容加载中...
posted @ 2017-04-08 20:29 志青云集 阅读(828) 评论(0) 推荐(0) 编辑

2015年11月16日

正文内容加载中...
posted @ 2015-11-16 22:33 志青云集 阅读(2827) 评论(0) 推荐(0) 编辑

2015年11月12日

正文内容加载中...
posted @ 2015-11-12 23:56 志青云集 阅读(1371) 评论(1) 推荐(1) 编辑

2015年11月9日

正文内容加载中...
posted @ 2015-11-09 19:42 志青云集 阅读(1448) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2015-11-09 18:09 志青云集 阅读(9685) 评论(0) 推荐(0) 编辑

2015年10月25日

正文内容加载中...
posted @ 2015-10-25 11:03 志青云集 阅读(2122) 评论(0) 推荐(0) 编辑

2015年10月15日

正文内容加载中...
posted @ 2015-10-15 09:19 志青云集 阅读(29127) 评论(6) 推荐(4) 编辑

2015年9月19日

正文内容加载中...
posted @ 2015-09-19 13:27 志青云集 阅读(11268) 评论(0) 推荐(0) 编辑

2019年10月9日

摘要:作为算法开发人员,在算法模块完成后,拟部署Web服务以对外提供服务,从而将算法模型落地应用。本文针对首次基于Flask + uWSGI + Tensorflow + Nginx部署Web服务时可能会遇到的问题进行简要分析,并提供解决方案,以供大家参考。 阅读全文
posted @ 2019-10-09 17:53 志青云集 阅读(802) 评论(0) 推荐(0) 编辑

2019年9月21日

摘要:针对现有中文分词在垂直领域应用时,存在准确率不高的问题,本文对其进行了简要分析,对中文分词面临的分词歧义及未登录词等难点进行了介绍,最后对当前中文分词实现的算法原理(基于词表、统计以及序列标注等算法)进行了简要阐述,并对比了现有技术的优缺点,并给出了本文作者在工程应用上的中文分词调优的经验分享。 阅读全文
posted @ 2019-09-21 13:12 志青云集 阅读(188) 评论(1) 推荐(0) 编辑

2017年4月9日

摘要:本文针对Linux操作过程中提升工作效率问题,给出常见操作技巧,主要从Linux终端管理、显示git分支、终端快速检索历史命令等方面进行介绍。 阅读全文
posted @ 2017-04-09 21:51 志青云集 阅读(268) 评论(0) 推荐(0) 编辑
摘要:本文针对在Java下操作elasticsearch给出应用示例,主要涉及创建连接,构建索引以及检索数据3个部分。 阅读全文
posted @ 2017-04-09 20:58 志青云集 阅读(123) 评论(0) 推荐(0) 编辑

2017年4月8日

摘要:鉴于维特比算法可解决多步骤中每步多选择模型的最优选择问题,本文简要介绍了维特比算法的基本理论,并从源代码角度对维特比算法进行剖析,并对源码中涉及的要点进行了解读,以便能快速应用该算法解决自然语言处理中的问题。 阅读全文
posted @ 2017-04-08 20:29 志青云集 阅读(828) 评论(0) 推荐(0) 编辑

2015年11月16日

摘要:鉴于在Web抓取服务和文本挖掘之句子向量中对权重值的计算需要,本文基于MapReduce计算模型实现了PageRank算法。为验证本文算法的有效性,本文采用177万余条源URL到目标URL链接的数据集,并迭代101次来展开测试,测试结果表明:对上述数据集进行测试,总计耗时40.29分钟。但是,本文作者的意图并不是为了实现该算法, 而是将该算法的设计思想引入后续Web抓取服务的优化与改进之中,以及后续文本挖掘中对权重值计算的需要之中。 阅读全文
posted @ 2015-11-16 22:33 志青云集 阅读(2827) 评论(0) 推荐(0) 编辑

2015年11月12日

摘要:针对大数量的文本数据,采用单线程处理时,一方面消耗较长处理时间,另一方面对大量数据的I/O操作也会消耗较长处理时间,同时对内存空间的消耗也是很大,因此,本文引入MapReduce计算模型,以分布式方式处理文本数据,以期提高数据处理速率。本文结合Kmeans和DBSCAN算法,对上述算法进行改进,其中借鉴Kmeans聚类方法(类别个数的确定性)以及DBSCAN聚类方法(基于密度),并在数据处理过程中引入多个Reducer对数据进行归并处理。测试结果表明:在文本个数为457条,迭代次数为50次时,该算法具有可行性;但是在数据规模较小时,其处理速率较单线程处理存在一定的劣势,但是当数据量继续增大(数据量达到一定规模)时,基于分布式的算法,其速率优势会更加明显。 阅读全文
posted @ 2015-11-12 23:56 志青云集 阅读(1371) 评论(1) 推荐(1) 编辑

2015年11月9日

摘要:在研究文本推荐算法时,需要挖掘关键字之间的规则,其中比较重要的一步是构建关键字的集合,即需要求取一个集合的所有子集。因此本文根据需求,采用二叉树递归、位图和集合3种方式实现该算法,以期对后续算法研究提供帮助。 阅读全文
posted @ 2015-11-09 19:53 志青云集 阅读(1059) 评论(0) 推荐(0) 编辑
摘要:鉴于DBSCAN算法对输入参数,领域半径E和阈值M比较敏感,在参数调优时比较麻烦,因此本文对另一种基于密度的聚类算法OPTICS展开研究,其为DBSCAN的改进算法,与DBSCAN相比,该算法对输入参数不敏感。此外,OPTICS算法不显示地生成数据聚类,其只是对数据对象集合中的对象进行排序,获取一个有序的对象列表,其中包含了足够的信息能用来提取聚类。在实际的应用中,可利用该有序的对象序列,对数据的分布展开分析以及对数据的关联进行分析。 阅读全文
posted @ 2015-11-09 19:42 志青云集 阅读(1448) 评论(0) 推荐(0) 编辑
摘要:鉴于基于划分的文本聚类方法只能识别球形的聚类,因此本文对基于密度的文本聚类算法展开研究。DBSCAN是一种典型的基于密度的聚类方法,可以找出形状不规则的聚类,而且聚类时无需事先知道聚类的个数。 阅读全文
posted @ 2015-11-09 18:09 志青云集 阅读(9685) 评论(0) 推荐(0) 编辑

导航

统计