2012年8月10日

用户数据分表思路

摘要: 最近公司启动一个类SNS的网站项目,可能会产生大量的注册用户,对于重中之重的用户数据表就涉及到了大数据存储的问题,对于这方面,没有成熟的经验,只能根据需求,摸着石头过河。 项目底层数据库是Mysql,对Mysql执行show processlist,可以很明显的看出Mysql在执行一个SQL的过程基本分为1,接收SQL,2,把SQL放到执行队列里等待,3,执行SQL,4,返回结果,整个过程中,在等待和执行这两个阶段最为消耗时间,所以我们所要作的就是在等待和执行这两个步骤,缩短时间。 首先,MYSQL集群肯定是优先考虑的问题,单点库一次性接收到10条SQL放到执行队列里的话,我们如果将数... 阅读全文

posted @ 2012-08-10 14:02 陈弘 阅读(543) 评论(0) 推荐(0)

2012年7月30日

全文索引Sphinx和sphinx的中文分词(二)

摘要: 2.sphinx的中文分词Coreseek官网地址:http://www.coreseek.cn/使用最多的sphinx中文全文检索,它提供了为Sphinx设计的中文分词包LibMMSeg。这个项目用的词库格式与普通词库的格式不一样, 还需要转换一下格式才能转换成词库文件. 这个项目里提供了一个叫mmseg的可执行文件做词库生成,做繁体的定制是要收费的。sfc(sphinx-for-chinese)google code:http://code.google.com/p/sphinx-for-chinese/这个项目是在每个Sphinx的发行版中, 在sphinxutils.cpp中加入了一个 阅读全文

posted @ 2012-07-30 09:49 陈弘 阅读(542) 评论(0) 推荐(0)

全文索引Sphinx和sphinx的中文分词(一)

摘要: 1.Sphinx是什么Sphinx是有俄罗斯人Andrew Aksyonoff 开发的一个全文检索引擎(计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式)。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置Mysql和PostgreSQL数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原生支持)S 阅读全文

posted @ 2012-07-30 09:44 陈弘 阅读(453) 评论(0) 推荐(0)

导航