python - 随笔分类 - coskaka

摘要：图书馆学号去敏，末尾数字随机改变为字母。阅读全文

posted @ 2017-03-24 23:43 coskaka 阅读(273) 评论(0) 推荐(0)

摘要：输入法中，当你输入一个字的时候，输入法就能猜出你要输入什么词。这就是词联想。现在，再python中简单实现类似这样的功能：根据制定好的词库，输入一个新的词，帮助实现词联想。其中分词用了jieba包。阅读全文

posted @ 2017-01-02 22:05 coskaka 阅读(6473) 评论(0) 推荐(0)

摘要：需求：爬取【安居客—广州—新楼盘】的数据，具体到每个楼盘的详情页的若干字段。难点：楼盘类型各式各样：住宅别墅商住商铺写字楼，不同楼盘字段的名称不一样。然后同一种类型，比如住宅，又分为不同的情况，比如分为期房在售，现房在售，待售，尾盘。其他类型也有类似情况。所以字段不能设置固定住。解决方案阅读全文

posted @ 2016-12-12 18:18 coskaka 阅读(2056) 评论(0) 推荐(0)

scrapy入门实践1

摘要：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。这就是整个Scrapy的架构图了；各部件职能： Scrapy Engine: 这是引擎，负责Spiders、ItemPipeline、Downloader、Sch 阅读全文

posted @ 2016-12-08 22:20 coskaka 阅读(281) 评论(0) 推荐(0)

数据清洗记录2

摘要：爬虫爬下来的数据，有个字段含有大量脏数据，如图1所示，现在需要提取出“红色框”中的“作者机构名称”。一开始用的excel，替换、分类、按照模式的快速填充各种都用上了，但是，数据量太大了（有上万条，辛苦机器性能还行）而且你懂得，人工操作肯定有误操作而且分列啥的这些功能适应新不怎么强，结果，弄了小半天阅读全文

posted @ 2016-11-27 22:14 coskaka 阅读(438) 评论(0) 推荐(0)

pandas中Loc vs. iloc vs. ix vs. at vs. iat?

摘要：loc: only work on indexiloc: work on positionix: You can get data from dataframe without it being in the indexat: get scalar values. It's a very fast 阅读全文

posted @ 2016-11-27 21:12 coskaka 阅读(377) 评论(0) 推荐(0)

Linux下anaconda的安装

摘要：http://peteryuan.net/use-anaconda/ http://www.jianshu.com/p/03d757283339 阅读全文

posted @ 2016-11-27 19:53 coskaka 阅读(150) 评论(0) 推荐(0)

numpy、scipy、pandas

摘要：以下分别是numpy、Scipy、pandas的简介。虽然这些包提供的一些结构比python自身的“更高级、更高效”，更高级是因为它们能完成更高级的任务，但是，学习的时候尽量不要和python割裂开认识，最好是辩证的看问题，既要看到区别，又要看到联系，这样才能理解深刻、真正的运用自如。比如pytho 阅读全文

posted @ 2016-11-26 11:53 coskaka 阅读(2384) 评论(0) 推荐(0)

python与mongodb

摘要：一、mongodb的原理介绍：特点：为了理解以上特点，我们从一个真实的场景出发，介绍mongodb的原理：参考视频：https://www.youtube.com/watch?v=4SxHNmk5JHI 我们需要从华为的app商店里抓取一些app的详细信息的数据；如下图，这是我们爬到的一条数据，阅读全文

posted @ 2016-11-25 16:26 coskaka 阅读(278) 评论(0) 推荐(0)

客户细分那点事_实践1

摘要：因为最近的多元统计讲到了聚类分析，课上同学也分别同Ｒ、SPSS、python展示了简单的聚类。但是问题是，理论不够联系实际，具体说，就是我们没有结合具体的业务背景，甚至连数据清洗的环节也直接略过了，这样不够好。一是理论被证明是否可行还需要实践去检验，基于特定业务背景上的模型的选择、数据的抽取、探索、阅读全文

posted @ 2016-11-18 11:59 coskaka 阅读(1426) 评论(2) 推荐(0)

python实现 _ 图书馆书籍到期之前_自动邮件提醒

摘要：一共两个脚本：第一个是【借书完毕以及借书信息有变更（续借等）】的时候需要执行的脚本；实现模拟登陆，同时最新的借书信息的下载到本地文本；之所以没有这样做，是因为如果每次爬取一遍的话，需要每次输入一遍验证码，就没有意义了；现在输入一次就可以了；导出到文本上，以后直接读取就行了。第二个脚本，需要添加到阅读全文

posted @ 2016-11-07 18:11 coskaka 阅读(1055) 评论(0) 推荐(0)

【转载】10分钟学会理解和解决MySQL乱码问题

摘要：原文地址：http://cenalulu.github.io/mysql/mysql-mojibake/ 原文作者：Junyi Lu，卢钧轶 / cenalulu / Luke 查看原文。阅读全文

posted @ 2016-10-17 11:05 coskaka 阅读(128) 评论(0) 推荐(0)

【转载】十分钟搞清字符集和字符编码

摘要：原文地址：http://cenalulu.github.io/linux/character-encoding/ 原文作者：Junyi Lu，卢钧轶本文将简述字符集，字符编码的概念。以及在遭遇乱码时的一些常用诊断技巧背景：字符集和编码无疑是IT菜鸟甚至是各种大神的头痛问题。当遇到纷繁复杂的字符集阅读全文

posted @ 2016-10-17 11:03 coskaka 阅读(106) 评论(0) 推荐(0)

coskaka

随笔分类 - python

公告