随笔分类 - python
摘要:输入法中,当你输入一个字的时候,输入法就能猜出你要输入什么词。这就是词联想。现在,再python中简单实现类似这样的功能:根据制定好的词库,输入一个新的词,帮助实现词联想。其中分词用了jieba包。
阅读全文
摘要:需求:爬取【安居客—广州—新楼盘】的数据,具体到每个楼盘的详情页的若干字段。 难点:楼盘类型各式各样:住宅 别墅 商住 商铺 写字楼,不同楼盘字段的名称不一样。然后同一种类型,比如住宅,又分为不同的情况,比如分为期房在售,现房在售,待售,尾盘。其他类型也有类似情况。所以字段不能设置固定住。 解决方案
阅读全文
摘要:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 这就是整个Scrapy的架构图了; 各部件职能: Scrapy Engine: 这是引擎,负责Spiders、ItemPipeline、Downloader、Sch
阅读全文
摘要:爬虫爬下来的数据,有个字段含有大量脏数据,如图1所示,现在需要提取出“红色框”中的“作者机构名称”。 一开始用的excel,替换、分类、按照模式的快速填充各种都用上了,但是,数据量太大了(有上万条,辛苦机器性能还行)而且你懂得,人工操作肯定有误操作而且分列啥的这些功能适应新不怎么强,结果,弄了小半天
阅读全文
摘要:loc: only work on indexiloc: work on positionix: You can get data from dataframe without it being in the indexat: get scalar values. It's a very fast
阅读全文
摘要:http://peteryuan.net/use-anaconda/ http://www.jianshu.com/p/03d757283339
阅读全文
摘要:以下分别是numpy、Scipy、pandas的简介。虽然这些包提供的一些结构比python自身的“更高级、更高效”,更高级是因为它们能完成更高级的任务,但是,学习的时候尽量不要和python割裂开认识,最好是辩证的看问题,既要看到区别,又要看到联系,这样才能理解深刻、真正的运用自如。比如pytho
阅读全文
摘要:一、mongodb的原理介绍: 特点: 为了理解以上特点,我们从一个真实的场景出发,介绍mongodb的原理:参考视频:https://www.youtube.com/watch?v=4SxHNmk5JHI 我们需要从华为的app商店里抓取一些app的详细信息的数据;如下图,这是我们爬到的一条数据,
阅读全文
摘要:因为最近的多元统计讲到了聚类分析,课上同学也分别同R、SPSS、python展示了简单的聚类。但是问题是,理论不够联系实际,具体说,就是我们没有结合具体的业务背景,甚至连数据清洗的环节也直接略过了,这样不够好。一是理论被证明是否可行还需要实践去检验,基于特定业务背景上的模型的选择、数据的抽取、探索、
阅读全文
摘要:一共两个脚本: 第一个是【借书完毕以及借书信息有变更(续借等)】的时候需要执行的脚本;实现模拟登陆,同时最新的借书信息的下载到本地文本;之所以没有这样做,是因为如果每次爬取一遍的话,需要每次输入一遍验证码,就没有意义了;现在输入一次就可以了;导出到文本上,以后直接读取就行了。 第二个脚本,需要添加到
阅读全文
摘要:原文地址:http://cenalulu.github.io/mysql/mysql-mojibake/ 原文作者:Junyi Lu,卢钧轶 / cenalulu / Luke 查看原文。
阅读全文
摘要:原文地址:http://cenalulu.github.io/linux/character-encoding/ 原文作者:Junyi Lu,卢钧轶 本文将简述字符集,字符编码的概念。以及在遭遇乱码时的一些常用诊断技巧 背景:字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题。当遇到纷繁复杂的字符集
阅读全文

浙公网安备 33010602011771号