摘要: 前言 从智联招聘爬取相关信息后,我们关心的是如何对内容进行分析,获取用用的信息。 本次以上篇文章“5分钟掌握智联招聘网站爬取并保存到MongoDB数据库”中爬取的数据为基础,分析关键词为“python”的爬取数据的情况,获取包括全国python招聘数量Top10的城市列表以及其他相关信息。 一、主要阅读全文
posted @ 2017-05-23 07:21 lemonbit 阅读(1033) 评论(0) 编辑
摘要: 本文主要是对之前发布的文章进行分类整理,方面大家查阅,以后会不定期对文章汇总进行更新与发布。阅读全文
posted @ 2016-12-30 13:47 lemonbit 阅读(51) 评论(0) 编辑
摘要: 1 概述 在可视化过程中,经常会对默认的制图效果不满意,希望能个性化进行各种设置。 本文通过一个简单的示例,来介绍seaborn可视化过程中的个性化设置。包括常用的设置,如: 设置图表显示颜色 设置图表标题,包括显示位置,字体大小,颜色等 设置x轴和y轴标题,包括颜色,字体大小 设置x轴和y轴刻度内阅读全文
posted @ 2017-08-23 19:49 lemonbit 阅读(40) 评论(0) 编辑
摘要: 在同一列中,本该分别填入多行中的数据,被填在一行里了,然而在分析的时候,需要拆分成为多行。 今天,我们来介绍将含有多值的内容分拆成多行的几种方法。阅读全文
posted @ 2017-08-01 18:27 lemonbit 阅读(61) 评论(0) 编辑
摘要: 本次福布斯系列数据分析项目实战,数据采集方面,主要数据来源于使用爬虫进行数据采集,同时也辅助其他数据进行对比。阅读全文
posted @ 2017-07-22 09:02 lemonbit 阅读(449) 评论(0) 编辑
摘要: 本文就Pandas的运行效率作一个对比的测试,来探讨用哪些方式,会使得运行效率较好。阅读全文
posted @ 2017-07-13 19:20 lemonbit 阅读(100) 评论(0) 编辑
摘要: 手头现在有一份福布斯2016年全球上市企业2000强排行榜的数据,但原始数据并不规范,需要处理后才能进一步使用。 本文通过实例操作来介绍用pandas进行数据整理。阅读全文
posted @ 2017-07-10 18:30 lemonbit 阅读(241) 评论(0) 编辑
摘要: 2017年6月,印度军队进入我国洞郎地区,与印度相关的新闻成为了近期的热点。由于笔者几年前去过印度,恰好最近又阅读了《印度通史》一书,下面结合笔者自己的见闻、感想、书籍中的记录以及查阅相关资料,对印度的大致情况做一个简单的描述,希望能使各位对当前的情况能有更多的一些背景了解。 描述内容大致分为几个部阅读全文
posted @ 2017-07-08 11:49 lemonbit 阅读(97) 评论(0) 编辑
摘要: 在“通过简单示例来理解什么是机器学习”这篇文章里提到了pickle库的使用,本文来做进一步的阐述。阅读全文
posted @ 2017-07-05 18:43 lemonbit 阅读(194) 评论(0) 编辑
摘要: 什么是机器学习? 机器学习通常可以分为三个大的步骤,即 输入、整合、输出,可以用下图来表示大致的意思:阅读全文
posted @ 2017-07-03 18:09 lemonbit 阅读(386) 评论(0) 编辑
摘要: 本期来讨论下,jupyter notebook中怎样同时安装python2.7 和python3.x。阅读全文
posted @ 2017-06-30 06:19 lemonbit 阅读(739) 评论(0) 编辑
摘要: 想知道怎么用python处理后缀为".sqlite"的文件,这里有你想要的答案。阅读全文
posted @ 2017-06-27 07:29 lemonbit 阅读(154) 评论(0) 编辑
摘要: 1 曾经的困扰 有段时间,想使用基于不同python版本的anaconda,就直接从官网下载了两个不同的anaconda版本进行安装。刚开始的时候,还觉得也没啥问题。用了一小段时间,在安装其他的第三方库时,经常发现安装失败,并且经常出现下面的问题:这个问题,我google、百度等查了好久,也没有解决阅读全文
posted @ 2017-06-23 06:37 lemonbit 阅读(888) 评论(0) 编辑
摘要: 作为coder,大家当然关心自己所使用语言的应用趋势。要是几年后所用语言变得默默无闻,那岂不是之前的知识储备与经验积累都会大打折扣。TIOBE排行榜是根据互联网上有经验的程序员、课程和第三方厂商的数量,并使用搜索引擎(如Google、Bing、Yahoo!)以及Wikipedia、Amazon、Yo阅读全文
posted @ 2017-06-21 07:22 lemonbit 阅读(1073) 评论(8) 编辑
摘要: 前言 Numpy是一个开源的Python科学计算库,它是python科学计算库的基础库,许多其他著名的科学计算库如Pandas,Scikit-learn等都要用到Numpy库的一些功能。 本文主要内容如下: Numpy数组对象 创建ndarray数组 Numpy的数值类型 ndarray数组的属性 阅读全文
posted @ 2017-06-18 11:59 lemonbit 阅读(304) 评论(2) 编辑
摘要: 本文首发于微信公众号“Python数据之道”(ID:PyDataRoad) 前言 写这篇文章的起由是有一天微信上一位朋友问到一个问题,问题大体意思概述如下: 现在有一个pandas的Series和一个python的list,想让Series按指定的list进行排序,如何实现? 这个问题的需求用流程图阅读全文
posted @ 2017-06-14 00:10 lemonbit 阅读(320) 评论(0) 编辑
摘要: 本文首发于微信公众号“Python数据之道” 前言 本文主要摘录自 pycon 2017大会的一个演讲,同时结合自己的一些理解。 pycon 2017的相关演讲主题是“The Python Visualization Landscape”。 先来一张全景图镇楼~~ 看完这张图是不是有点懵? 别着急,阅读全文
posted @ 2017-06-11 17:01 lemonbit 阅读(476) 评论(2) 编辑