会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
本心从未变
You only get one life.It's actually your duty to live it as fully as possible.
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2018年5月21日
NLP(一)
摘要: “自然语言处理”(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作。 自然语言工具包(NLTK) 语言处理任务与相应 NLTK 模块以及功能描述 NLTK 频率分布类中定义的函数 示例:简单的语音对话系统的流程架构: 分析语音输入(左上),识
阅读全文
posted @ 2018-05-21 23:26 Mr.SSC
阅读(252)
评论(0)
推荐(0)
2018年5月16日
scrapy分布式抓取基本设置
摘要: scrapy本身并不是一个为分布式爬取而设计的框架,但第三方库scrapy-redis为其扩展了分布式抓取的功能,在分布式爬虫框架中,需要使用某种通信机制协调各个爬虫工作 (1)当前的爬取任务,下载+提取数据(分配任务) (2)当前爬取任务是否已经被其他爬虫执行过(任务去重) (3)如何存储怕去到的
阅读全文
posted @ 2018-05-16 18:00 Mr.SSC
阅读(160)
评论(0)
推荐(0)
2018年5月14日
scrapy框架结构与工作原理
摘要: 组件: ENGINE:引擎,框架的核心,其他组件在其控制下协同工作。 SCHEDULER:调度器,负责对SPIDER提交的下载请求进行调度 DOWNLOADER:下载器,负责下载页面,发送HTTP请求/接收HTTP响应 SPIDER:爬虫,负责提取页面数据,并产生对新的页面的下载请求 MIDDLEW
阅读全文
posted @ 2018-05-14 16:13 Mr.SSC
阅读(506)
评论(0)
推荐(0)
2018年5月9日
django
摘要: MVC 大部分开发语言中都有MVC框架 MVC框架的核心思想是:解耦 降低各功能模块之间的耦合性,方便变更,更容易重构代码,最大程度上实现代码的重用 m表示model,主要用于对数据库层的封装 v表示view,用于向用户展示结果 c表示controller,是核心,用于处理请求、获取数据、返回结果
阅读全文
posted @ 2018-05-09 17:12 Mr.SSC
阅读(150)
评论(0)
推荐(0)
2018年4月29日
python 小笔记
摘要: NoSQL 是什么,优势在哪? NoSQL 全称为 Not Only SQL,传统 的关系模型使用 的是固定模式 , 并将数据分割到各个表中 。 然而 , 对于大数 据集的情况 , 数据量太大使其难 以 存放在单一服务器 中 , 此 时就需要扩展到 多 台服务器 。 不过 , 关系模型对于这种扩展的
阅读全文
posted @ 2018-04-29 13:00 Mr.SSC
阅读(305)
评论(0)
推荐(0)
2018年4月26日
scrapy框架Selector提取数据
摘要: 从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库,解析速度快,API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的,并且简
阅读全文
posted @ 2018-04-26 00:18 Mr.SSC
阅读(6972)
评论(0)
推荐(2)
2018年4月23日
python抓取头条文章
摘要: python抓取头条美文并存储到mongodb
阅读全文
posted @ 2018-04-23 23:47 Mr.SSC
阅读(1151)
评论(0)
推荐(0)
python 数据可视化(一)
摘要: 数据可视化指的是通过可视化表示来探索数据 数据挖掘指的是使用代码来探索数据集的规律和关联 使用matplotlib可制作的各种图表 绘制简单的折线图 结果图 调整可视化的各个方面,改善这个图形的可读性 当你向plot()提供一系列数字时,它假设第一个数据点对应的x坐标值为0,为改变这种默认行为,我们
阅读全文
posted @ 2018-04-23 00:23 Mr.SSC
阅读(4223)
评论(0)
推荐(0)
2018年4月22日
python unittest自动测试框架
摘要: 编写函数或者类时进行测试,确保代码正常工作 python unittest 模块提供了代码测试工具。按照定义测试包括两部分:管理测试依赖库的代码(称为‘固件’)和测试本身。 单元测试用于核实函数的某个方面没有问题; 测试用例是一组单元测试,这些单元测试一起核实函数在各种情况选的行为都符合要求 uni
阅读全文
posted @ 2018-04-22 17:37 Mr.SSC
阅读(550)
评论(0)
推荐(0)
2018年4月21日
使用selenium抓取淘宝信息并存储mongodb
摘要: selenium模块 简单小例子
阅读全文
posted @ 2018-04-21 00:29 Mr.SSC
阅读(237)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告