随笔分类 -  数据挖掘

摘要:1、检查robots.txt 让爬虫了解爬取该网站时存在哪些限制。 最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索。 2、检查网站地图(robots.txt文件中发现的Sitemap文件) 帮助爬虫定位网站最新的内容,而无须爬取每一个网页。 网站地图提供了所有网页的链接,我们仍需对其谨慎处 阅读全文
posted @ 2018-04-13 12:48 叶建成 阅读(10295) 评论(0) 推荐(1)
摘要:Google 工程教育团队已经发布了多语种的 Google 机器学习术语表,该术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。语言版本包括西班牙语,法语,韩语和简体中文。 查阅中文版术语表: https://developers.google.com/machine-lea 阅读全文
posted @ 2018-03-25 22:59 叶建成 阅读(325) 评论(0) 推荐(0)
摘要:用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1、什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是“选择器”。“选择器”指明了{}中的“样式”的作用对象,也就是“样式”作用于 阅读全文
posted @ 2017-12-18 17:58 叶建成 阅读(4705) 评论(1) 推荐(1)
摘要:网易云音乐——代码时间 数据挖掘 - 龙星镖局(Justin) ### URLs:[我爱计算机网站](http://www.52cs.org/)[前辈之路](http://www.52cs.org/?cat=155)数据挖掘软件工具:[Xgboost](https://github.com/dmlc 阅读全文
posted @ 2017-12-15 10:40 叶建成 阅读(222) 评论(0) 推荐(1)