摘要: Django 新手图文教程 1. web框架介绍 具体介绍Django之前,必须先介绍WEB框架等概念。 web框架: 别人已经设定好的一个web网站模板,你学习它的规则,然后“填空”或“修改”成你自己需要的样子 其它基于python的web框架,如tornado、flask、webpy都是在这个范 阅读全文
posted @ 2018-02-09 16:33 飞末 阅读(312) 评论(0) 推荐(0)
摘要: 1、基本抓取网页 get方法 post方法 2、使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP; 在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段: 3、Cookies处理 cookies是某些网站为了辨别用户身份、进行s 阅读全文
posted @ 2018-02-09 16:28 飞末 阅读(229) 评论(0) 推荐(0)
摘要: Apache Spark 内存管理详解 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的 阅读全文
posted @ 2018-02-09 16:25 飞末 阅读(573) 评论(0) 推荐(0)
摘要: CarbonData是一种高性能大数据存储方案,支持快速过滤查找和即席OLAP分析,已在20+企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿。针对当前大数据领域分析场景需求各异而导致的存储冗余问题,业务驱动下的数据分析灵活性要求越来越高,CarbonData提供了一种新的融合数据存储方 阅读全文
posted @ 2018-02-09 10:52 飞末 阅读(461) 评论(0) 推荐(0)