1 <?php
 2     /** 
 3     *设计一个系统处理词语搭配问题,比如说中国和人民可以搭配,
 4     *则中国人民人民中国都有效。要求:
 5     *系统每秒的查询数量可能上千次;
 6     *词语的数量级为10W;
 7     *每个词至多可以与1W 个词搭配
 8     *当用户输入中国人民的时候,要求返回与这个搭配词组相关的信息。
 9     **/
10 
11     /**
12     *解决思路
13     *假设10W的词语都是二字词语,UTF8存储,则每个词语占 2*3 bytes = 6 bytes
14     *现在先对10W个词语建一棵二叉查找树,树节点存储词语内容和一个指向词语匹配表的指针,忽略左右孩子指针和指向词语匹配表的指针大小
15     *10W个词语组成的树大小是 100,000 * 6 bytes = 600 Kbytes,即使加上各种指针也不大
16     *每个词语的匹配表对应1W个单词,这1W个单词使用数组存储,并排序,则每个数组大小为10,000 * 6bytes = 60 Kbytes
17     *10W个单词的匹配数组就是 100,000 * 60 Kbytes = 6 Gbytes,应该来说大多数服务器内存都够
18     *然后查找的时候先通过查找树找到关键词,然后去匹配数组用二分查找找到匹配词即可
19     **/
20 ?>
posted on 2012-10-06 19:17  ZimZz  阅读(1854)  评论(0编辑  收藏  举报