python - 随笔分类 - 杰哥要增肥

从零开始搭建django前后端分离项目系列六（实战之聚类分析）

摘要：项目需求本项目从impala获取到的数据为用户地理位置数据，每小时的数据量大概在8000万条，数据格式如下：公司要求对这些用户按照聚集程度进行划分，将300米范围内用户数大于200的用户划分为一个簇，并计算这个簇的中心点和簇的边界点。附模拟的数据：https://files.cnblogs.c 阅读全文

posted @ 2018-09-25 09:35 杰哥要增肥阅读(826) 评论(2) 推荐(0)

从零开始搭建django前后端分离项目系列五（实战之excel流式导出）

摘要：项目中有一处功能需求是：需要在历史数据查询页面进行查询字段的选择，然后由后台数据库动态生成对应的excel表格并下载到本地。如果文件较小，解决办法是先将要传送的内容全生成在内存中，然后再一次性传入Response对象中；如果文件较大时，我们可以考虑向HttpResponse传递一个迭代器，流式的阅读全文

posted @ 2018-09-22 16:18 杰哥要增肥阅读(956) 评论(0) 推荐(0)

从零开始搭建django前后端分离项目系列四（实战之实时进度）

摘要：本项目实现了任务执行的实时进度查询实现方式前端websocket + 后端websocket + 后端redis订阅/发布实现原理任务执行后，假设用变量num标记任务执行的进度，然后将num发布为订阅的消息保存到redis队列，比如 redis_helper.public('当前任务进度为阅读全文

posted @ 2018-09-21 15:23 杰哥要增肥阅读(2954) 评论(0) 推荐(0)

从零开始搭建django前后端分离项目系列三（实战之异步任务执行）

摘要：前面已经将项目环境搭建好了，下面进入实战环节。这里挑选项目中涉及到的几个重要的功能模块进行讲解。 celery执行异步任务和任务管理 Celery 是一个专注于实时处理和任务调度的分布式任务队列。由于本项目进行数据分析的耗时比较长，所以采用异步方式执行任务。本项目中Broker使用redis，Res 阅读全文

posted @ 2018-09-19 16:22 杰哥要增肥阅读(2479) 评论(0) 推荐(0)

从零开始搭建django前后端分离项目系列二（项目搭建）

摘要：在开始项目之前，假设你已了解以下知识：webpack配置、vue.js、django。这里不会教你webpack的基本配置、热更新是什么，也不会告诉你如何开始一个django项目，有需求的请百度，相关的文章已经很多了。下面开始一步一步构建完整的项目： 1、开发环境准备 win7 x64 pytho 阅读全文

posted @ 2018-09-19 15:30 杰哥要增肥阅读(4865) 评论(2) 推荐(0)

windows下数据挖掘相关包numpy、pandas的安装

摘要：安装Anaconda的绕道这里介绍如何在windows下安装numpy/scipy/matplotlib/pandas/scikit_learn等数据分析相关包相关环境： win7 64位 python3.4 安装步骤： 1、pip install numpy-1.13.1+mkl-cp34-c 阅读全文

posted @ 2018-09-19 15:25 杰哥要增肥阅读(552) 评论(0) 推荐(0)

从零开始搭建django前后端分离项目系列一（技术选型）

摘要：前言最近公司要求基于公司的hadoop平台做一个关于电信移动网络的数据分析平台，整个项目需求大体分为四大功能模块：数据挖掘分析、报表数据查询、GIS地理化展示、任务监控管理。由于页面功能较复杂，所以采用前后端分离方式开发。前端采用webpack+vue+vue-router+axios技术栈，后端阅读全文

posted @ 2018-09-18 21:01 杰哥要增肥阅读(11867) 评论(5) 推荐(0)

基于layui和bootstrap搭建极简后台管理框架

摘要：年前无聊，想自己搭建一个后台管理框架，对比了easyui、Extjs、H-ui、H+UI、layui几个框架，easyui和Extjs虽然功能强大但是界面实在是接受不了，H+UI和layuiAdmin是收费的，layui界面确实做的不错，于是想着用layui做一个极简的后台（菜单+选项卡）。先上图阅读全文

posted @ 2018-02-23 10:44 杰哥要增肥阅读(19697) 评论(132) 推荐(23)

pandas读取各类sql数据源

摘要：大数据分析中，我们经常需要使用pandas工具读取各类数据源并将结果保存到数据库中。本文总结了一些读取和写入常用数据库数据的一些方法，包括mysql，oracle，impala等。其中读取数据库数据有两种方法，一种是DBAPI2 connection，另一种是SQLAlchemy engine。阅读全文

posted @ 2017-09-26 16:06 杰哥要增肥阅读(3965) 评论(0) 推荐(0)

python3.4下django集成使用xadmin后台

摘要：环境：window7 x64、python3.4、django1.10 一、pip install xadmin安装报错 1、使用pip install xadmin命令安装可能报如下错误： 2、解决方案亲测使用二、django项目中配置xadmin settings.py配置 urls.py配阅读全文

posted @ 2017-08-15 15:20 杰哥要增肥阅读(477) 评论(0) 推荐(0)

在django中集成ckeditor富文本

摘要：目前用的比较多的富文本插件有百度的ueditor、ckeditor、kindeditor等，其中ueditor和kindeditor比较美观，ckeditor的皮肤较少。但是ueditor加载较慢，kindeditor样式与django后台样式相冲突，ckeditor与django耦合较好且配置简单阅读全文

posted @ 2017-08-15 14:53 杰哥要增肥阅读(450) 评论(0) 推荐(0)

python多线程爬虫设计及实现示例

摘要：爬虫的基本步骤分为：获取，解析，存储。假设这里获取和存储为io密集型（访问网络和数据存储），解析为cpu密集型。那么在设计多线程爬虫时主要有两种方案：第一种方案是一个线程完成三个步骤，然后运行多个线程；第二种方案是每个步骤运行一个多线程，比如N个线程进行获取，1个线程进行解析（多个线程之间切换会降低阅读全文

posted @ 2017-07-13 13:52 杰哥要增肥阅读(4597) 评论(0) 推荐(0)

利用python将mysql中的数据导入excel

摘要：Python对Excel的读写主要有xlrd、xlwt、xlutils、openpyxl、xlsxwriter几种。如下分别利用xlwt和openpyxl将mysql数据库中查询的数据保存到excel中（注意：xlwt不支持.xlsx文件）：一、从mysql查询数据二、分别利用xlwt和ope 阅读全文

posted @ 2017-06-29 13:29 杰哥要增肥阅读(2729) 评论(0) 推荐(0)

win7中python3.4下安装scrapy爬虫框架（亲测可用）

摘要：貌似最新的scrapy已经支持python3，但是错误挺多的，以下为在win7中的安装步骤： 1、首先需要安装Scrapy的依赖包，包括parsel, w3lib, cryptography, pyOpenSSL,twisted,lxml 其中，twisted和lxml的安装包可以在http://w 阅读全文

posted @ 2017-06-15 12:00 杰哥要增肥阅读(594) 评论(0) 推荐(0)

windows下pycharm远程调试pyspark

摘要：参考http://www.mamicode.com/info-detail-1523356.html1.远端执行:vi /etc/profile添加一行：PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.9-src.zip或者P 阅读全文

posted @ 2017-06-09 10:41 杰哥要增肥阅读(1941) 评论(0) 推荐(0)

python连接impala（安装impyla）

摘要：相关环境如下: Python3.4 Win7 64位参照官网https://github.com/cloudera/impyla中的安装步骤执行： 1、pip install six 2、pip install bit_array 3、pip install thriftpy ## thrift 阅读全文

posted @ 2017-06-07 11:43 杰哥要增肥阅读(20800) 评论(0) 推荐(0)

windows下python连接oracle数据库

摘要：python连接oracle数据库阅读全文

posted @ 2017-06-06 09:50 杰哥要增肥阅读(549) 评论(0) 推荐(0)

随笔分类 - python