摘要: 前言 从智联招聘爬取相关信息后,我们关心的是如何对内容进行分析,获取用用的信息。 本次以上篇文章“5分钟掌握智联招聘网站爬取并保存到MongoDB数据库”中爬取的数据为基础,分析关键词为“python”的爬取数据的情况,获取包括全国python招聘数量Top10的城市列表以及其他相关信息。 一、主要阅读全文
posted @ 2017-05-23 07:21 lemonbit 阅读(1211) 评论(0) 编辑
摘要: 本文主要是对之前发布的文章进行分类整理,方面大家查阅,以后会不定期对文章汇总进行更新与发布。阅读全文
posted @ 2016-12-30 13:47 lemonbit 阅读(140) 评论(0) 编辑
摘要: 2018年,世界杯小组赛已经在如火如荼的进行中。在上篇文章的基础上【2018世界杯:用Python分析热门夺冠球队】,我们继续分析世界杯32强的实力情况,以期能够更进一步分析本次世界杯的夺冠热门球队。 三十年河东三十年河西,对于世界杯而言,这个时间可能4年就足够。 前几场爆冷,使得天台上已经拥挤不堪阅读全文
posted @ 2018-06-25 21:35 lemonbit 阅读(121) 评论(4) 编辑
摘要: 2018年,火热的世界杯即将拉开序幕。在比赛开始之前,我们不妨用 Python 来对参赛队伍的实力情况进行分析,并大胆的预测下本届世界杯的夺冠热门球队。 通过数据分析,可以发现很多有趣的结果,比如: 找出哪些队伍是首次进入世界杯的黑马队伍 找出2018年32强中之前已经进入过世界杯,但在世界杯上没有阅读全文
posted @ 2018-06-12 20:39 lemonbit 阅读(1027) 评论(5) 编辑
摘要: 近期在好几个地方都看到meshgrid的使用,虽然之前也注意到meshgrid的用法。但总觉得印象不深刻,不是太了解meshgrid的应用场景。所以,本文将进一步介绍Numpy中meshgrid的用法。 Meshgrid函数的基本用法 在Numpy的官方文章里,meshgrid函数的英文描述也显得文阅读全文
posted @ 2017-09-25 20:49 lemonbit 阅读(1133) 评论(2) 编辑
摘要: 近期,DataCamp发布了jupyter notebook的 cheat sheet,【Python数据之道】第一时间与大家一起来分享下该cheat sheet的内容。 以下是该cheat sheet的部分内容: 各位小伙伴可以从DataCamp的网站获取该cheat sheet的pdf版,当然,阅读全文
posted @ 2017-09-23 08:39 lemonbit 阅读(81) 评论(0) 编辑
摘要: 编译:Lemon,原文作者:Ernst Haagsman 公众号:Python数据之道(ID:PyDataRoad) pycharm:2017.3版即将新增科学计算模式 在JetBrains将发布的新版本PyCharm中,考虑到越来越多的Python开发者进行数据科学相关开发,即将发布的PyChar阅读全文
posted @ 2017-09-15 18:52 lemonbit 阅读(2876) 评论(2) 编辑
摘要: 本文介绍的是我在机器学习方面的 实际经历,想以此给大家提供些建议与思路,供各位参考。希望通过一些途径,来提高机器学习的兴趣:(1)参与打卡活动:45天机器学习实战(2)加入专门的微信群(3)建立机器学习的Github项目仓库阅读全文
posted @ 2017-09-11 06:50 lemonbit 阅读(1451) 评论(0) 编辑
摘要: 1 概述 在可视化过程中,经常会对默认的制图效果不满意,希望能个性化进行各种设置。 本文通过一个简单的示例,来介绍seaborn可视化过程中的个性化设置。包括常用的设置,如: 设置图表显示颜色 设置图表标题,包括显示位置,字体大小,颜色等 设置x轴和y轴标题,包括颜色,字体大小 设置x轴和y轴刻度内阅读全文
posted @ 2017-08-23 19:49 lemonbit 阅读(4972) 评论(0) 编辑
摘要: 在同一列中,本该分别填入多行中的数据,被填在一行里了,然而在分析的时候,需要拆分成为多行。 今天,我们来介绍将含有多值的内容分拆成多行的几种方法。阅读全文
posted @ 2017-08-01 18:27 lemonbit 阅读(3686) 评论(0) 编辑
摘要: 本次福布斯系列数据分析项目实战,数据采集方面,主要数据来源于使用爬虫进行数据采集,同时也辅助其他数据进行对比。阅读全文
posted @ 2017-07-22 09:02 lemonbit 阅读(949) 评论(0) 编辑
摘要: 本文就Pandas的运行效率作一个对比的测试,来探讨用哪些方式,会使得运行效率较好。阅读全文
posted @ 2017-07-13 19:20 lemonbit 阅读(1861) 评论(0) 编辑
摘要: 手头现在有一份福布斯2016年全球上市企业2000强排行榜的数据,但原始数据并不规范,需要处理后才能进一步使用。 本文通过实例操作来介绍用pandas进行数据整理。阅读全文
posted @ 2017-07-10 18:30 lemonbit 阅读(464) 评论(0) 编辑
摘要: 2017年6月,印度军队进入我国洞郎地区,与印度相关的新闻成为了近期的热点。由于笔者几年前去过印度,恰好最近又阅读了《印度通史》一书,下面结合笔者自己的见闻、感想、书籍中的记录以及查阅相关资料,对印度的大致情况做一个简单的描述,希望能使各位对当前的情况能有更多的一些背景了解。 描述内容大致分为几个部阅读全文
posted @ 2017-07-08 11:49 lemonbit 阅读(135) 评论(0) 编辑
摘要: 在“通过简单示例来理解什么是机器学习”这篇文章里提到了pickle库的使用,本文来做进一步的阐述。阅读全文
posted @ 2017-07-05 18:43 lemonbit 阅读(1413) 评论(0) 编辑
摘要: 什么是机器学习? 机器学习通常可以分为三个大的步骤,即 输入、整合、输出,可以用下图来表示大致的意思:阅读全文
posted @ 2017-07-03 18:09 lemonbit 阅读(741) 评论(0) 编辑
摘要: 本期来讨论下,jupyter notebook中怎样同时安装python2.7 和python3.x。阅读全文
posted @ 2017-06-30 06:19 lemonbit 阅读(6801) 评论(0) 编辑