摘要: Spark 执行层包括三个模块,master、worker、client。master负责管理 worker 进程,worker负责任务的执行并将结果提交给 master,client负责向 master 提交作业。其中,master 和 worker 是后台常驻进程。client 在作业运行过程中由 SparkContext 初始化的时候启动,然后,client 向 master 注册作业... 阅读全文
posted @ 2014-03-02 21:50 LF1205 阅读(811) 评论(0) 推荐(0)
摘要: 使用到的 Python 库包括urllib,urllib2, cookielib由于目标网站使用简单的 form-submit 结构,所以可以省去很多事。基本过程是通过urllib2.build_opener() 建立新的打开链接的方式,这种打开方式包含 cookie 信息,从而维护一个登录的 session,然后依据这个 session 以登录用户的身份查询信息。借用了[1]中的一些代码,最后的样子如下class Crawl(object): def __init__(self): self.operation = None # 初始化一个CookieJar... 阅读全文
posted @ 2014-02-25 21:38 LF1205 阅读(475) 评论(0) 推荐(0)
摘要: 一、什么是 RedisREmoteDIctionaryServer(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统。Redis 提供了一些丰富的数据结构,包括lists, sets, ordered sets 以及hashes ,当然还有和Memcached一样的string 结构(key-alue)。Redis当然还包括了对这些数据结构的丰富操作。二、Redis vs. MongoDB vs. Memcache系统RedisMemcacheMongoDB简介advancedkey-value'data structureserve 阅读全文
posted @ 2014-02-24 17:04 LF1205 阅读(173) 评论(0) 推荐(0)
摘要: 一直很好奇 C# 与 .Net 的关系,之前也没有接触过。因为项目需要,开始学习 .Net 框架。今天去书市借了一本 Deitel 的《Visual C#2012 大学教程(第五版)》,这里做一下学习笔记。一、 .NET、CLR、MSIL 之间的区别与联系.Net 是一个面向 Web 服务的开发平台,可以用来快速的搭建 C#、VC++、VB 等程序。CLR(公共语言运行时) 是执行 .Net 程序,提供开发和调试功能。MSIL 是 CLR 的中间语言,不同的 .Net 语言在 CLR 中被编译成 MSIL 形成一个统一的程序从而保证了 .Net 框架的独立性。二、第一个 Windows 可视化 阅读全文
posted @ 2014-02-20 00:23 LF1205 阅读(232) 评论(0) 推荐(0)