唯有前进值得敬仰

---等得越久,相聚时越幸福
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

一个海量字符串匹配问题

Posted on 2011-03-30 10:16  绿豆芽33  阅读(1434)  评论(2编辑  收藏  举报

现在的浏览器地址栏中不必输入完整的地址就可以找到你以前访问过的网页,如果你仅记得之前访问的网址中有某个字符串aaa,那么只要在地址栏里输入aaa,就可以找到该网址的完整形式。
比如在地址栏中输入一个字符:t ,那么以前访问的地址就会显示出来供你选择:
t.sina.com.cn/****
taobao.com
www.tudou.com
code.taobao.org
.......
如果继续输入tao,那么显示出来的就只有
taobao.com
code.taobao.org
了。
问题是假设存放访问网址历史记录的文件有几百万行,每行是一个网址字符串,输入要查找的字符串可能是某一行的一部分,怎么才能快速高效地找出符合要求的结果来呢。不能使用kmp算法一行一行地进行模式匹配。

欢迎大牛们给出自己的思路啊!!!

(解决方案待续)