2015 年 10月随笔档案 - 志青云集

文本挖掘之文本聚类（借力打力）

摘要：在文本相似度判定中，作者将该算法用于文本聚类中，其核心思想通过比较两个文本向量中元素的相似度，即向量中所含的元素相似个数越多，则两个向量越相似，继而上述文本越相似。作者在短文本相似判定中采用了余弦相似度该算法来实现，本文借鉴数学集合取交集，借用现有组件来实现上述算法功能，继而减少工作量，也具备便捷性，也能取得较好的效果。阅读全文

posted @ 2015-10-25 11:03 志青云集阅读(2883) 评论(0) 推荐(0)

摘要：针对实际应用中并发访问MySQL的场景，本文采用多线程对MySQL进行并发读取访问，其中以返回用户所需的数据并显示在终端为测试结束节点，即将数据从MySQL集群读取后存储于客户端本地内存中。测试过程如下：分别针对4种应用场景，从10、20、50、100个线程对MySQL展开测试。测试结果表明：对场景1）一般的并发访问能够满足需求；对于场景2）和3）响应时间在分钟级，分别处于1-3分钟和10分钟左右；对于场景4）则经常会抛出异常，并且以异常点为基准，其响应时间在30分钟左右。阅读全文

posted @ 2015-10-18 11:08 志青云集阅读(11446) 评论(2) 推荐(1)

数据库选型之内存数据库eXtremeDB

摘要：鉴于内存数据库访问速率快的特点，本文分别从单线程、多线程（并发访问）和多线程读/写混合访问角度对eXtremeDB数据库读写速率展开测试。需要指出的是，本文读取操作包含将数据读取后，并在控制台显示出来。测试结果表明：eXtremeDB在单一读/写访问时，速率大约在10w条/s，其速率是比较快的；同时相对单线程来说，多线程读或者写操作并发访问eXtremeDB，也并未衰减其性能，因此在一定程度上可以满足并发访问需求；另一方面，多线程读/写混合访问eXtremeDB时，单个线程写入速率大约在10w条/s，单个线程读取速率大约在4w条/s，此外，随着读/写线程个数的增加，其读写速率在整体上趋于稳定。阅读全文

posted @ 2015-10-15 18:29 志青云集阅读(6879) 评论(0) 推荐(1)

文本挖掘之文本相似度判定

摘要：针对文本相似判定，本文提供余弦相似度和SimHash两种算法，并根据实际项目遇到的一些问题，给出相应的解决方法。经过实际测试表明：余弦相似度算法适合于短文本，而SimHash算法适合于长文本，并且能应用于大数据环境中。阅读全文

posted @ 2015-10-15 09:19 志青云集阅读(34592) 评论(6) 推荐(4)

志青云集

10 2015 档案

文本挖掘之文本聚类（借力打力）

数据库选型之亿级数据量并发访问（MySQL集群）

数据库选型之内存数据库eXtremeDB

文本挖掘之文本相似度判定

公告

导航