11 2017 档案

摘要:这些问题一般有着内存限制,使用hashmap和位图解决不实际。 1.只用2GB内存在20亿个整数中找到出现次数最多的数?将20亿个整数的大文件用hash函数分为16小文件(这个时候同一个数一般分到了同一个小文件上,小文件的数最好不要超过2亿),这个时候每个小文件用hash函数计算出现次数,这个时候得 阅读全文
posted @ 2017-11-15 19:07 林嘉瑜 阅读(253) 评论(0) 推荐(0)
摘要:用于网页黑名单系统,垃圾邮件过滤系统,爬虫的网址判重系统。一般的意思是在大量数据集合中,判断一个新数据是否存在于这个集合中。数据量少还可以使用hashmap和位图bitmap。数据一大占用内存不理想。布隆的做饭法是,开辟一个长度为m的位图数组,对于每一个集合的元素使用多个hash函数计算得值%m,落 阅读全文
posted @ 2017-11-15 19:07 林嘉瑜 阅读(208) 评论(0) 推荐(0)