华天清 - 博客园

2018年3月7日

城市要素库时空分析项目启动

摘要：这个项目是智慧时空基础设施建设项目的产物，现在期望将部分核心成果开放给广大数据分析和城市治理和公共管理研究者。随着智慧城市建设的广泛和深入地推进，加上物联网技术和应用的长足发展，一副完整的数字化城市图景逐步展开阅读全文

posted @ 2018-03-07 15:31 华天清阅读(219) 评论(1) 推荐(0) 编辑

2016年10月28日

在Python3.5下安装和测试Scrapy爬网站

摘要： Scrapy框架结构清晰，基于twisted的异步架构可以充分利用计算机资源，是爬虫做大的必备基础。本文将讲解如何快速安装此框架并使用起来。阅读全文

posted @ 2016-10-28 11:06 华天清阅读(2979) 评论(0) 推荐(2) 编辑

快速制作规则及获取规则提取器API

摘要：前面文章的测试案例都用到了集搜客Gooseeker提供的规则提取器，在网页抓取工作中，调试正则表达式或者XPath都是特别繁琐的，耗时耗力，工作枯燥，如果有一个工具可以快速生成规则，而且可以可视化的即时验证，就能把程序员解放出来，投入到创造性工作中。阅读全文

posted @ 2016-10-28 10:59 华天清阅读(1377) 评论(0) 推荐(0) 编辑

2016年10月25日

为采集动态网页安装和测试Python Selenium库

摘要：上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序，而动态网页因为需要动态加载js获取数据，所以使用urllib直接openurl已经不能满足采集的需求了。这里我们使用selenium库，通过它我们可以很简单的使用浏览器来为我们加载动态内容，从而获取采集结果。阅读全文

posted @ 2016-10-25 11:58 华天清阅读(809) 评论(0) 推荐(0) 编辑

2016年10月20日

为编写网络爬虫程序安装Python3.5

摘要：为编写网络爬虫程序安装Python3.5。阅读全文

posted @ 2016-10-20 12:02 华天清阅读(1809) 评论(0) 推荐(0) 编辑

2016年9月13日

【04】基础：将采集结果转成Excel

摘要：前面的教程说了，数据抓取完毕之后，数据以xml格式的形式存储在本地文件夹中。下面简单地说一下如何将保存在本地的XML文件转成Excel格式。阅读全文

posted @ 2016-09-13 15:55 华天清阅读(578) 评论(0) 推荐(0) 编辑

【03】基础：同种网页结构套用采集规则

摘要：经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。回顾一下，上个教程主要了解了MS谋数台的工作职责-定义采集规则，测试规则无误之后点击MS谋数台右上角的“爬数据”后弹出DS打数机，然后看到打数机窗口正在马不停蹄地抓取数据。这两个部件的工作配合地很紧密。阅读全文

posted @ 2016-09-13 15:52 华天清阅读(308) 评论(0) 推荐(0) 编辑

2016年9月8日

【02】基础：单页采集（以微博博主主页采集为例）

摘要：今天讲讲微博博主主页的采集。目标是采集博主名称、微博内容、发博日期、微博内容、转发数、评论数和点赞数。阅读全文

posted @ 2016-09-08 10:39 华天清阅读(787) 评论(0) 推荐(0) 编辑

【01】基础：集搜客爬虫软件安装

摘要：漫漫网页数据大海洋，有一种数据搬运工的生物存在，他可能是数据分析师、也可能是爬虫工程师、也可能是业务员...等等。阅读全文

posted @ 2016-09-08 10:35 华天清阅读(716) 评论(0) 推荐(0) 编辑

【00】why集搜客网络爬虫？

摘要：与各种大企业相比，大数据对于没有数据资源的个体而言是奢侈品。然而在“互联网思维”、“互联网+”引领下，我们应当勇于实践和颠覆传统，将数据平民化。阅读全文

posted @ 2016-09-08 10:33 华天清阅读(246) 评论(0) 推荐(0) 编辑

导航

公告