2015 年 3月 20 日随笔档案 - 南南南南南

2015年3月20日

摘要： 1. 给A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。分析：1MB = 2^20 = 10^6 = 100万1GB = 2^30 = 10^9 = 1亿50亿url = 5G*64 Byte整理方法如下：方法一：分别扫描A,B文件，根据... 阅读全文

posted @ 2015-03-20 16:12 南南南南南阅读(281) 评论(0) 推荐(0)

分治法+Hash处理海量日志数据

摘要：海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash... 阅读全文

posted @ 2015-03-20 15:53 南南南南南阅读(395) 评论(0) 推荐(0)

图的遍历算法

摘要：图的遍历算法图采用邻接表存储，其中有顶点结点和边结点如下：顶点结点[VerName,adjacent] 边结点[VerAdj,cost,link]其中VerName为顶点v结点名，adjacent为其第一个邻接顶点的地址。VerAdj为该临接顶点在Head表中的位置，link为顶点v下一个邻接顶点的... 阅读全文

posted @ 2015-03-20 15:25 南南南南南阅读(288) 评论(0) 推荐(0)

南南南南南

公告