摘要: 数据分析流程 导入——清洗(70%时间)——处理——展现 导入数据避坑指南 1.表格导入:谨慎选择导入格式 2.非表格导入:多技巧综合灵活运用 快速复制方法,点击起始点,(拖动页面滚轮条),shift点击结束点,即可选中中间区域 清洗此数据 首先倒退思维 一套房源应该在EXCEL中为一行,那么我们需 阅读全文
posted @ 2023-08-20 19:52 墨柠C 阅读(124) 评论(0) 推荐(0)
摘要: python GIL锁 同步线程的一种机制,即使在多处理器也是仅有一个线程在执行 避免GIL 用multiprocessing替代Thread 用多进程代替多线程,每个进程有自己的独立的GIL,不会出现进程之间的GIL争抢。 多进程的创建和销毁开销也会更大,成本高 LOCK锁 原子操作 一步是计算, 阅读全文
posted @ 2023-08-20 17:59 墨柠C 阅读(29) 评论(0) 推荐(0)
摘要: Requests数据抓取 Requests简介与安装 Requests是python的一个HTTP客户端库,几乎可以解决我们遇到的任何爬虫问题,其强大简洁的API足以让人体会到python的优雅。 Windows下安装通过pip install requests 之后可以在CMD下运行python 阅读全文
posted @ 2023-08-20 14:42 墨柠C 阅读(34) 评论(0) 推荐(0)
摘要: Fiddler使用教程 Fiddler是一个很好用的用c#编写的HTTP网络抓包工具,使用它的话,我们就不必再浏览器的开发者工具里分析页面了,可以在更加专业和智能化的Fiddler里面对页面参数进行请求调试。 1.下载Fiddler 首先是它的下载地址,下载好之后直接安装就可以了。 https:// 阅读全文
posted @ 2023-08-20 14:32 墨柠C 阅读(33) 评论(0) 推荐(0)
摘要: 爬虫开发网络基本知识 1.HTTP与HTTPS 超文本传输协议HTTP协议被用于在Web浏览器和网站服务器之间传递信息,HTTP协议以明文方式发送内容,不提供任何方式的数据加密,如果攻击者截取了Web浏览器和网站服务器之间的传输报文,就可以直接读懂其中的信息,因此,HTTP协议不适合传输一些敏感信息 阅读全文
posted @ 2023-08-20 14:28 墨柠C 阅读(50) 评论(0) 推荐(0)