会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
费弗里
数据科学玩家
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
16
17
18
19
20
21
22
23
24
···
26
下一页
2019年6月17日
(数据科学学习手札61)xpath进阶用法
摘要: 一、简介 xpath作为对网页、对xml文件进行定位的工具,速度快,语法简洁明了,在网络爬虫解析内容的过程中起到很大的作用,除了xpath的基础用法之外(可参考我之前写的(数据科学学习手札50)基于Python的网络数据采集-selenium篇),xpath中还存在着非常之多的进阶用法,本文将对笔者
阅读全文
posted @ 2019-06-17 10:59 费弗里
阅读(1208)
评论(0)
推荐(0)
2019年6月14日
(数据科学学习手札60)用Python实现WGS84、火星坐标系、百度坐标系、web墨卡托四种坐标相互转换
摘要: 一、简介 主流被使用的地理坐标系并不统一,常用的有WGS84、GCJ02(火星坐标系)、BD09(百度坐标系)以及百度地图中保存矢量信息的web墨卡托,本文利用Python编写相关类以实现4种坐标系统之间的互相转换。 二、代码及说明 import math class LngLatTransfer(
阅读全文
posted @ 2019-06-14 17:05 费弗里
阅读(3264)
评论(2)
推荐(2)
2019年6月5日
(数据科学学习手札59)从抓取数据到生成shp文件并展示
摘要: 一、简介 shp格式的文件是地理信息领域最常见的文件格式之一,很好的结合了矢量数据与对应的标量数据,而在Python中我们可以使用pyshp来完成创建shp文件的过程,本文将从如何从高德地图获取矢量信息开始,最终构造出相应的shp文件,并利用R中的leaflet进行可视化; 二、数据获取及清洗 2.
阅读全文
posted @ 2019-06-05 21:21 费弗里
阅读(3958)
评论(1)
推荐(4)
2019年5月29日
(数据科学学习手札58)在R中处理有缺失值数据的高级方法
摘要: 一、简介 在实际工作中,遇到数据中带有缺失值是非常常见的现象,简单粗暴的做法如直接删除包含缺失值的记录、删除缺失值比例过大的变量、用0填充缺失值等,但这些做法会很大程度上影响原始数据的分布或者浪费来之不易的数据信息,因此怎样妥当地处理缺失值是一个持续活跃的领域,贡献出众多巧妙的方法,在不浪费信息和不
阅读全文
posted @ 2019-05-29 21:56 费弗里
阅读(2259)
评论(0)
推荐(0)
2019年5月15日
(数据科学学习手札57)用ggplotly()美化ggplot2图像
摘要: 一、简介 经常利用Python进行数据可视化的朋友一定用过或听说过plotly这样的神器,我在(数据科学学习手札43)Plotly基础内容介绍中也曾做过非常详细的介绍,其渲染出的图像以浏览器为载体,非常精美,且绘制图像的自由程度堪比ggplot2,其为R也提供了接口,在plotly包中,但对于已经习
阅读全文
posted @ 2019-05-15 20:41 费弗里
阅读(3245)
评论(0)
推荐(0)
2019年3月28日
(数据科学学习手札56)利用机器学习破解大众点评文字反爬
摘要: 一、引言 爬取过大众点评的朋友应该会遇到这样的问题,在网页中看起来正常的文字,在其源代码中变成了下面这样: 究其原因,是因为大众点评在内容上设置的特别的反爬机制,与某些网站替换底层字体文件不同,大众点评使用随机替换的SVG图片来替换对应位置的汉字内容,使得我们使用常规的手段无法获取其网页中完整的文字
阅读全文
posted @ 2019-03-28 22:08 费弗里
阅读(1739)
评论(0)
推荐(5)
2019年2月18日
(数据科学学习手札55)利用ggthemr来美化ggplot2图像
摘要: 一、简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原生ggplot2图像进行美化,掌握它之后你就可以创作出更具特色和美感的数据可视化作品。 二、基础内容
阅读全文
posted @ 2019-02-18 00:32 费弗里
阅读(2488)
评论(0)
推荐(2)
2019年2月1日
(数据科学学习手札54)Python中retry的简单用法
摘要: 一、简介 retry是一个用于错误处理的模块,功能类似try-except,但更加快捷方便,本文就将简单地介绍一下retry的基本用法。 二、基本用法 retry: 作为装饰器进行使用,不传入参数时功能如下例所示: 我们编写了每次运行都会通过raise报错的自定义函数demo(),利用默认参数的re
阅读全文
posted @ 2019-02-01 23:54 费弗里
阅读(5764)
评论(0)
推荐(1)
2019年1月31日
(数据科学学习手札53)Python中tqdm模块的用法
摘要: 一、简介 tqdm是Python中专门用于进度条美化的模块,通过在非while的循环体内嵌入tqdm,可以得到一个能更好展现程序运行过程的提示进度条,本文就将针对tqdm的基本用法进行介绍。 二、基本用法 tqdm: tqdm中的tqdm()是实现进度条美化的基本方法,在for循环体中用tqdm()
阅读全文
posted @ 2019-01-31 22:25 费弗里
阅读(20690)
评论(2)
推荐(7)
2018年11月22日
(数据科学学习手札52)pandas中的ExcelWriter和ExcelFile
摘要: 一、简介 pandas中的ExcelFile()和ExcelWriter(),是pandas中对excel表格文件进行读写相关操作非常方便快捷的类,尤其是在对含有多个sheet的excel文件进行操控时非常方便,本文就将针对这两个类的使用方法展开介绍; 二、ExcelFile() 在使用ExcelF
阅读全文
posted @ 2018-11-22 14:27 费弗里
阅读(27246)
评论(6)
推荐(6)
上一页
1
···
16
17
18
19
20
21
22
23
24
···
26
下一页
公告