随笔分类 -  Python

摘要:## Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上。 阅读全文
posted @ 2018-09-28 22:39 大道至简(老徐) 阅读(201) 评论(0) 推荐(0)
摘要:## Python扩展包 ### 1、NumPy NumPy提供了多种python本身不支持的多种集合,有list、ndarray和ufunc。 - list 更加灵活的数组,支持多维,数据可不同型,存储数量远大于array。array只支持同型数据,空间有限。 - ndarray 多维数组类,方便操纵多维数组,数据必须同型,操纵高效。 - ufunc 对数组进行高效处... 阅读全文
posted @ 2018-09-28 22:39 大道至简(老徐) 阅读(1541) 评论(0) 推荐(0)
摘要:## 分布式爬虫-Kafka监控 ### 1、介绍 阅读全文
posted @ 2018-09-17 18:51 大道至简(老徐) 阅读(991) 评论(0) 推荐(0)
摘要:## 快速启动 提示,快速启动构成均在centos上完成,其中redis服务器采用的是root用户安装,因此为避免权限问题,建议使用root用户进行操作。 ### 1、下载软件包 ```shell https://github.com/istresearch/scrapy-cluster/archive/v1.2.1.zip https://github.com/istresearch/sc... 阅读全文
posted @ 2018-09-12 11:27 大道至简(老徐) 阅读(448) 评论(0) 推荐(0)
摘要:## 分布式爬虫 ### 1、概览 该项目使用kafka和redis构建分布式爬虫集群。在多个spider实例间分发url的种子,这些请求通过redis进行协同。由于边界扩展或深度遍历的特点,任何其他抓取这些触发器的内容也将在集群中的所有工作程序之间分发。 系统的输入是一组Kafka主题,输出是一组Kafka主题。原始HTML和资源以交互方式,spider和日志输出方式进行爬网。 ### ... 阅读全文
posted @ 2018-09-10 19:15 大道至简(老徐) 阅读(1037) 评论(0) 推荐(0)
摘要:## 爬虫 ### 1、设计 分布式爬虫系统允许位于多个不同主机上的爬虫程序并行爬取提交的爬虫作业,进而协调他们之间的爬取能力。爬取队列由redis管理,每个spider通过修改的调度程序从queue中拉取job。 页面被spider成功爬取后,就交给管线进行进一步处理。如果页面没有成功爬取,重试中间件重新提交页面给后端queue,以备由其他爬虫进行重试爬取。 link spider是分布... 阅读全文
posted @ 2018-09-10 19:15 大道至简(老徐) 阅读(682) 评论(0) 推荐(0)
摘要:## 推荐系统### 1、概要推荐系统时使用广泛的技术之一,尤其在电商领域中,使用非常频繁。推荐系统涉及多种专业术语和算法。### 2、数据说明#### 2.1 用户列表所有用户构成的集合,主要是用户id。 例如电影推荐中的所有观影人users.dat数据:```reactuid::性别::年龄::职业::邮编----------------------1::F::1::10::480672::M... 阅读全文
posted @ 2018-08-27 18:20 大道至简(老徐) 阅读(1119) 评论(0) 推荐(0)
摘要:## MySQL访问### 1、介绍python访问mysql数据库,需要安装mysql的python插件。### 2、安装插件通过pip命令安装mysql插件。```python#cmd>pip install PyMySQL```### 3、编写访问代码访问本地数据库时,注意不能用**localhost**,需要使用127.0.0.1。### 3.1 查询```python# -*-codin... 阅读全文
posted @ 2018-08-27 18:19 大道至简(老徐) 阅读(167) 评论(0) 推荐(0)
摘要:## Socket编程### 1、介绍python支持socket编程,可以使用TCP和UDP协议。同java中的socket编程相类似。### 2、tcp协议#### 2.1 服务器端服务器端绑定到指定地址,监听特定的端口,接受发来的连接请求。```python# -*-coding:utf-8-*-import socketimport threading#接收者线程class RecvThr... 阅读全文
posted @ 2018-08-27 18:19 大道至简(老徐) 阅读(196) 评论(0) 推荐(0)
摘要:## 多线程### 1、低级API使用```python#-*-coding:utf-8-*-import threadimport time#函数def sayhello(name,age): print "%s,%d"%(name,age)#try - catchtry: thread.start_new_thread(sayhello, ("tom", 12))except Ex... 阅读全文
posted @ 2018-08-27 18:18 大道至简(老徐) 阅读(113) 评论(0) 推荐(0)
摘要:## Python基础### 1、hello world字符串单双引号即可,'''或"""三引号也可以,通常用于多行文档原生输出。```python#双引号>>>print "hello world"#单引号>>>print 'hello world'#方法调用>>>print('hello world')>>>print("hello world")#,号结尾不换行打印>>>pr 阅读全文
posted @ 2018-08-27 18:17 大道至简(老徐) 阅读(269) 评论(0) 推荐(0)
摘要:## Python面向对象### 1、class定义```python#定义类class Emp: pass```### 2、静态变量```pythonclass Emp: #静态变量,通过类直接访问 id = 100 #__开头的是私有属性 __age = 20#通过类直接访问print Emp.id```### 3、构造函数和实例方法#### 3.1 构造函数... 阅读全文
posted @ 2018-08-27 18:17 大道至简(老徐) 阅读(193) 评论(0) 推荐(0)
摘要:## Python ### 1、 python介绍 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。 ### 2、 python特点 1. 易于学习 Python有相对较少的关键字,结构简单,和一个明确定义的语法,学习起来更加简... 阅读全文
posted @ 2018-08-27 18:16 大道至简(老徐) 阅读(355) 评论(0) 推荐(0)