摘要: 写在前面 所有片段摘录于陈嘉映老师的《何为良好生活》,我看这本书的时候是2015年,现在已经过去快5年了。翻开自己摘录的笔记,看了这几段话,也有新的感触。好久之前博客中就谈到自己要成为文艺的数据分析师,现在好像离文艺越来越远,当时想要“文艺”,其实是想要一种体味生活的心态而已,也不是通俗的文艺。 现 阅读全文
posted @ 2020-08-20 22:04 duohappy 阅读(509) 评论(0) 推荐(0)
摘要: 写在前面 为了不浪费大家时间,首先声明两点: 在第一篇文章:简单网站爬虫的所有技能(requests+bs4)涉及到的技能,不会重复讲解 这篇文章不会涉及任何正则表达式基础内容,只会有新鲜的实战部分,自学正则表达式基础内容,或者看看Python-正则表达式-re模块 比如\d表示数字 * 表示重复0 阅读全文
posted @ 2020-08-20 22:02 duohappy 阅读(1212) 评论(1) 推荐(1)
摘要: 写在前面 刚开始看爬虫文章的时候,走了不少弯路,我希望我的文章能给你带来一些启发 文章结尾有思考题,如果独立完成了,证明你掌握了简单网站爬虫的所有技能 本文涉及到的技能 查看网页源代码和检查元素 requests使用 BeautifulSoup使用 这三招就是爬取简单网站的全部招数,跟着思路往下看 阅读全文
posted @ 2020-08-20 21:57 duohappy 阅读(356) 评论(0) 推荐(0)
摘要: 写在前面 python自带了一个json库,解析json看起来是一件很容易的事情 但是实际遇到的情况往往超出了json库的处理范围,听到了这句话是不是感觉有点兴奋了? 本文包含了json字符串转python对象的常见姿势,准备,开始! json 愉快的开始 # -*- coding: utf-8 - 阅读全文
posted @ 2020-08-20 21:49 duohappy 阅读(418) 评论(0) 推荐(0)
摘要: 本文参考资料: 主:https://www.gitbook.com/book/wizardforcel/guide-to-data-mining/details 辅:《集体智慧编程》 写在前面 看了gitbook那本书的第二章和第三章,自己正在复习高等数学、线性代数、概率、统计的知识,所以想用num 阅读全文
posted @ 2020-08-20 21:39 duohappy 阅读(292) 评论(0) 推荐(0)
摘要: 起初我学习Python的时候,认认真真执行最常规的的写法,把函数调用都写入if __name__ == ''__main__''。学习导入模块和导入包的时候,知道了写if __name__ == ''__main__''很重要。一般的教程都会以导入模块或包来说明if __name__ == ''__ 阅读全文
posted @ 2020-08-20 21:36 duohappy 阅读(203) 评论(0) 推荐(0)
摘要: 以前学习过Python调用dll,所以就把动态链接库和静态链接库的知识学习了一遍。针对之前学习,加上自己的理解,写一篇能够实践的记叙文。 写在前面 阅读关于动态链接库和静态链接库的基础资料,实践后如果遇到了问题,可以看看本文。希望对你有所帮助,:) 系统:Windows 编程工具:Visual St 阅读全文
posted @ 2020-08-20 21:32 duohappy 阅读(208) 评论(0) 推荐(0)
摘要: 如果你和我一样是安全方面的菜鸟,那么这篇文章应该有点借鉴意义,本文也仅仅针对像我一样的安全菜鸟,且仅仅针对于windows系统。 写在前面 以前网上流传一种说法,大意是安装原装windows系统,关闭windows自动更新,不装杀毒软件,完完全全裸奔。这种说法受到了很多人追捧,其中就一句话说对了,安 阅读全文
posted @ 2020-08-20 20:54 duohappy 阅读(78) 评论(0) 推荐(0)
摘要: 这是一个系列,更多内容请阅读数据分析师SQL系列 分区的实践 分表分区这方面的实践经历不足,仅做过分区,所以这篇文章谈谈当时分区的思考。 面临的问题:经常查询的表,由于每日入表数据较多,虽然对这张表建立了索引,也对查询的sql进行了explain,确实用到了索引,但是依然查询较慢 总体思路:和业务沟 阅读全文
posted @ 2020-08-20 20:37 duohappy 阅读(100) 评论(0) 推荐(0)
摘要: 这是一个系列,更多内容请阅读数据分析师SQL系列 写在前面 学习并使用用户自定义变量,还没有多长时间,这篇文章,先开个头吧,有了更丰富的经验再更新。 为什么要学习用户自定义变量?起因是一个学习网站 练习SQL的网站 https://www.hackerrank.com/dashboard,参加SQL 阅读全文
posted @ 2020-08-20 20:36 duohappy 阅读(375) 评论(0) 推荐(1)
摘要: 这是一个系列,更多内容请阅读数据分析师SQL系列 本文权当闲聊,聊点“存储过程从入门到放弃”的经历。当然了,这不是开玩笑,是现实版的入门到放弃。学习起源于归档数据的需求,对不常用的数据进行定期归档,存储到一个归档表里,然后参考了一篇文章,MySQL数据归档的几种操作方法介绍,这篇文章写的很不错。 当 阅读全文
posted @ 2020-08-20 20:34 duohappy 阅读(199) 评论(0) 推荐(0)
摘要: 这是一个系列,更多内容请阅读数据分析师SQL系列 写在前面 当数据越来越多,查询越来越慢,也越来越担心部署的数据清晰和分析的脚本,可以搜一下如何改善查询速度,最常见的答案就是建立索引。很可能这不是你需要担心的问题,而是由DBA来操心,_,本文适用于需要操心这么方面事情的数据分析师。 本文不讨论索引背 阅读全文
posted @ 2020-08-20 20:32 duohappy 阅读(163) 评论(0) 推荐(0)
摘要: 这是一个系列,更多内容请阅读数据分析师SQL系列 SQL执行顺序 首先SQL执行是有顺序的,而且这个顺序和初学SQL时的认知很不一样,以下面的SQL为例 select month(date_time), count(user_id) as user_cnt from user_table where 阅读全文
posted @ 2020-08-20 20:31 duohappy 阅读(134) 评论(0) 推荐(0)
摘要: 文章未经允许,不可转载 数据分析师-SQL系列,仅仅是我作为数据分析师的SQL思考,>_> 本系列不涉及基础知识,需要的背景知识: SQL基本语法(聚合,子查询等) 最好了解一下索引、存储过程、自定义变量、分区分表 写在前面 先说说自己使用数据库的日常,经常使用MySQL,偶尔使用PostgreSQ 阅读全文
posted @ 2020-08-20 20:29 duohappy 阅读(86) 评论(0) 推荐(0)
摘要: Vim or Neovim syntax enable syntax on inoremap jj <ESC> autocmd InsertEnter * set timeoutlen=200 autocmd InsertLeave * set timeoutlen=1000 set belloff 阅读全文
posted @ 2020-08-20 20:22 duohappy 阅读(105) 评论(0) 推荐(0)
摘要: 系统类 Win10 主用 Virtualbox Ubuntu,渐渐换成了wsl TC Windows下的神器 不一定需要使用快捷键,它的双窗口本身就很有用,只用鼠标点击也可以达到效率提升的目的。不要给自己设限 Keepass 密码存储工具 ss 上网 everything 文件查找 安全类 eset 阅读全文
posted @ 2020-08-20 20:05 duohappy 阅读(65) 评论(0) 推荐(0)
摘要: 起初自己为了写博客,期间调研了好多文章,无逼格不成文章,最后技术沉淀下来了,文章还没有写。 过一阵子,还是想写文章,心思放在文章上,结果要操心的事情还是有,比如github国内访问太慢等。 现在想写文章了,找一个自己经常浏览且喜欢的博客平台,其实就够了,:) 阅读全文
posted @ 2020-08-20 19:47 duohappy 阅读(44) 评论(0) 推荐(0)