数据挖掘 - 随笔分类 - 叶建成

Python网络爬虫学习总结

摘要：1、检查robots.txt 让爬虫了解爬取该网站时存在哪些限制。最小化爬虫被封禁的可能，而且还能发现和网站结构相关的线索。 2、检查网站地图（robots.txt文件中发现的Sitemap文件）帮助爬虫定位网站最新的内容，而无须爬取每一个网页。网站地图提供了所有网页的链接，我们仍需对其谨慎处阅读全文

posted @ 2018-04-13 12:48 叶建成阅读(10300) 评论(0) 推荐(1)

Google发布机器学习术语表 (包括简体中文)

摘要：Google 工程教育团队已经发布了多语种的 Google 机器学习术语表，该术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。语言版本包括西班牙语，法语，韩语和简体中文。查阅中文版术语表： https://developers.google.com/machine-lea 阅读全文

posted @ 2018-03-25 22:59 叶建成阅读(333) 评论(0) 推荐(0)

用Python爬虫爬取广州大学教务系统的成绩（内网访问）

摘要：用Python爬虫爬取广州大学教务系统的成绩（内网访问）在进行爬取前，首先要了解： 1、什么是CSS选择器？每一条css样式定义由两部分组成，形式如下： [code] 选择器{样式} [/code] 在{}之前的部分就是“选择器”。“选择器”指明了{}中的“样式”的作用对象，也就是“样式”作用于阅读全文

posted @ 2017-12-18 17:58 叶建成阅读(4713) 评论(1) 推荐(1)

数据挖掘资料

摘要：网易云音乐——代码时间数据挖掘 - 龙星镖局(Justin) ### URLs:[我爱计算机网站](http://www.52cs.org/)[前辈之路](http://www.52cs.org/?cat=155)数据挖掘软件工具：[Xgboost](https://github.com/dmlc 阅读全文

posted @ 2017-12-15 10:40 叶建成阅读(224) 评论(0) 推荐(1)

Jacen's Blog

随笔分类 - 数据挖掘

公告