博客园 - 青南
uuid:6cbd1ba2-f883-4c34-aed1-30dde64a3a3e;id=695099
2020-01-03T04:58:34Z
青南
https://www.cnblogs.com/xieqiankun/
feed.cnblogs.com
https://www.cnblogs.com/xieqiankun/p/gne_release.html
GNE: 4行代码实现新闻类网站通用爬虫 - 青南
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。
2020-01-03T04:59:00Z
2020-01-03T04:59:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。 <a href="https://www.cnblogs.com/xieqiankun/p/gne_release.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/use_kafka_in_spider.html
为什么每一个爬虫工程师都应该学习 Kafka - 青南
这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色。
2019-12-14T00:46:00Z
2019-12-14T00:46:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色。 <a href="https://www.cnblogs.com/xieqiankun/p/use_kafka_in_spider.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/gne_v_0_0_4.html
新闻网页通用抽取器GNEv0.04版更新,支持提取正文图片与源代码 - 青南
GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。
2019-11-26T04:26:00Z
2019-11-26T04:26:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。 <a href="https://www.cnblogs.com/xieqiankun/p/gne_v_0_0_4.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/use_yield.html
写了那么久的Python,你应该学会使用yield关键字了 - 青南
没有什么算法比yield关键字更简单地同时提高时间利用率和空间利用率。
2019-10-31T04:31:00Z
2019-10-31T04:31:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】没有什么算法比yield关键字更简单地同时提高时间利用率和空间利用率。 <a href="https://www.cnblogs.com/xieqiankun/p/use_yield.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/generalnewsextractor.html
新闻类网页正文通用抽取器 - 青南
我写了一个新闻类网页的通用抽取器,目前使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试,发现提取效果非常出色,几乎能够达到100%的准确率,理论上可以自动抽取各种新闻网站。
2019-09-09T03:36:00Z
2019-09-09T03:36:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】我写了一个新闻类网页的通用抽取器,目前使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试,发现提取效果非常出色,几乎能够达到100%的准确率,理论上可以自动抽取各种新闻网站。 <a href="https://www.cnblogs.com/xieqiankun/p/generalnewsextractor.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/python_dict.html
为什么Python 3.6以后字典有序并且效率更高? - 青南
详细解释,Python是如何通过优化字典的底层数据结构,实现字典有序,并且大大提高遍历效率和降低内存占用。
2019-07-13T05:43:00Z
2019-07-13T05:43:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】详细解释,Python是如何通过优化字典的底层数据结构,实现字典有序,并且大大提高遍历效率和降低内存占用。 <a href="https://www.cnblogs.com/xieqiankun/p/python_dict.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/the_truth_of_round.html
为什么你需要少看垃圾博客以及如何在Python里精确地四舍五入 - 青南
这篇文章深入分析了Python的round函数输出结果可能不符合预期的真正原因,同时给出了如何实现数学意义上真正的四舍五入的办法,最后吐槽了垃圾文章误导新人的问题。
2019-03-31T05:13:00Z
2019-03-31T05:13:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】这篇文章深入分析了Python的round函数输出结果可能不符合预期的真正原因,同时给出了如何实现数学意义上真正的四舍五入的办法,最后吐槽了垃圾文章误导新人的问题。 <a href="https://www.cnblogs.com/xieqiankun/p/the_truth_of_round.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/mongoredis.html
数据工程师妹子养成手记——数据库篇 - 青南
<img src="https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/2019-02-23-13-22-45.png" class="desc_img">P酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么?来数据组?让我来带?
于是我和P酱工作在了一起。
2019-02-23T08:46:00Z
2019-02-23T08:46:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】<img src="https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/2019-02-23-13-22-45.png" class="desc_img">P酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么?来数据组?让我来带?
于是我和P酱工作在了一起。 <a href="https://www.cnblogs.com/xieqiankun/p/mongoredis.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/hide-webdriver.html
一行js代码识别Selenium+Webdriver及其应对方案 - 青南
写爬虫并不是使用Selenium + webdriver就万事大吉了。一行js代码就能识别Selenium+webdriver。本文给出了应对方案。
2019-02-12T12:55:00Z
2019-02-12T12:55:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】写爬虫并不是使用Selenium + webdriver就万事大吉了。一行js代码就能识别Selenium+webdriver。本文给出了应对方案。 <a href="https://www.cnblogs.com/xieqiankun/p/hide-webdriver.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/wireless-mode-of-poco.html
在Airtest中如何使用无线模式控制手机 - 青南
在[使用Airtest超快速开发App爬虫](https://www.kingname.info/2019/01/19/use-airtest/)文章的最后,我们留了一个尾巴:如何启动Airtest的无线模式,不用USB线就能控制手机?
本文将会讲到具体的做法。做法分为两种:第一种是在Airtest的IDE中控制手机。第二种是在Python代码里面控制远程手机。
2019-01-28T14:49:00Z
2019-01-28T14:49:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】在[使用Airtest超快速开发App爬虫](https://www.kingname.info/2019/01/19/use-airtest/)文章的最后,我们留了一个尾巴:如何启动Airtest的无线模式,不用USB线就能控制手机?
本文将会讲到具体的做法。做法分为两种:第一种是在Airtest的IDE中控制手机。第二种是在Python代码里面控制远程手机。 <a href="https://www.cnblogs.com/xieqiankun/p/wireless-mode-of-poco.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/use_airtest.html
全面超越Appium,使用Airtest超快速开发App爬虫 - 青南
想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。
2019-01-19T10:12:00Z
2019-01-19T10:12:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。 <a href="https://www.cnblogs.com/xieqiankun/p/use_airtest.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/use_burndown_chart.html
项目管理必备——使用燃尽图监控项目整体进度 - 青南
甘特图更多的关注每一个任务的进度上。那么如果我希望了解项目整体的进度,应该如何选择呢?此时就需要引入另一个简单又强大的工具:燃尽图(Burn down chart)。
2018-12-23T11:20:00Z
2018-12-23T11:20:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】甘特图更多的关注每一个任务的进度上。那么如果我希望了解项目整体的进度,应该如何选择呢?此时就需要引入另一个简单又强大的工具:燃尽图(Burn down chart)。 <a href="https://www.cnblogs.com/xieqiankun/p/use_burndown_chart.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_3.html
彻底搞懂Scrapy的中间件(三) - 青南
在前面两篇文章介绍了下载器中间件的使用,这篇文章将会介绍爬虫中间件(Spider Middleware)的使用。
2018-11-21T00:13:00Z
2018-11-21T00:13:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】在前面两篇文章介绍了下载器中间件的使用,这篇文章将会介绍爬虫中间件(Spider Middleware)的使用。 <a href="https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_3.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_2.html
彻底搞懂Scrapy的中间件(二) - 青南
在上一篇文章中介绍了下载器中间件的一些简单应用,现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。
2018-11-20T00:26:00Z
2018-11-20T00:26:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】在上一篇文章中介绍了下载器中间件的一些简单应用,现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。 <a href="https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_2.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_1.html
彻底搞懂Scrapy的中间件(一) - 青南
中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。
2018-11-19T01:29:00Z
2018-11-19T01:29:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。 <a href="https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_1.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/use_gantt_enhanced.html
跳出任务管理的泥沼,拥抱甘特图的怀抱(完整版) - 青南
写这篇文章,我不是要黑任何一个任务管理类的App或者方法论。相反,我是一个工具控,在试用各种任务管理类App上总是不遗余力。常见的Things 3,Todoist,Teambition,Trello,Any.do,Doit.im我都试用过。最后,我选择了 "Todoist" ,在Todoist上,我
2018-10-17T12:59:00Z
2018-10-17T12:59:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】写这篇文章,我不是要黑任何一个任务管理类的App或者方法论。相反,我是一个工具控,在试用各种任务管理类App上总是不遗余力。常见的Things 3,Todoist,Teambition,Trello,Any.do,Doit.im我都试用过。最后,我选择了 "Todoist" ,在Todoist上,我 <a href="https://www.cnblogs.com/xieqiankun/p/use_gantt_enhanced.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/learn_by_doc.html
英文文档帮查&翻译计划 - 青南
<img src="https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/photo-1512153472310-d72327c26cf0.jpeg" class="desc_img">
2018-10-15T23:56:00Z
2018-10-15T23:56:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】<img src="https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/photo-1512153472310-d72327c26cf0.jpeg" class="desc_img"> <a href="https://www.cnblogs.com/xieqiankun/p/learn_by_doc.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/use-docker-swarm.html
使用Docker Swarm搭建分布式爬虫集群 - 青南
使用Docker Swarm部署任何分布式程序,简单快速又方便。
2018-10-14T09:08:00Z
2018-10-14T09:08:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】使用Docker Swarm部署任何分布式程序,简单快速又方便。 <a href="https://www.cnblogs.com/xieqiankun/p/use-docker-swarm.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/learn_one_and_learn_more.html
如果你不知道做什么,那就学一门杂学吧 - 青南
通过学习一门技术,来学习更多的技术。
2018-10-13T01:23:00Z
2018-10-13T01:23:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】通过学习一门技术,来学习更多的技术。 <a href="https://www.cnblogs.com/xieqiankun/p/learn_one_and_learn_more.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/xieqiankun/p/re_S_in_the_fourth_position_of_sub.html
正则表达式re.sub替换不完整的问题现象及其根本原因 - 青南
在很多编程语言中,常量喜欢使用数字来表示,然后赋值给一个大写的变量。这种写法在某些时候会导致难以察觉的bug。
2018-08-27T23:42:00Z
2018-08-27T23:42:00Z
青南
https://www.cnblogs.com/xieqiankun/
【摘要】在很多编程语言中,常量喜欢使用数字来表示,然后赋值给一个大写的变量。这种写法在某些时候会导致难以察觉的bug。 <a href="https://www.cnblogs.com/xieqiankun/p/re_S_in_the_fourth_position_of_sub.html" target="_blank">阅读全文</a>