摘要: 一,主题式网络爬虫设计方案 1,主题式网络爬虫的名称 1.1去哪网攻略的爬取 2,主题式网络爬虫的内容与数据特征分析 2.1爬虫的内容 文章链接,标题,简要描述信息,发布者,发布者的个人标签,出发日期 天数,拍照数量,出行的类型,旅行的标签,途径,行程路线 人均消费,观看数,点赞数,评论数 2.2 阅读全文
posted @ 2019-11-12 11:06 林间有风(caoling) 阅读(631) 评论(0) 推荐(0)
摘要: 1.注册中国大学MOOC2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程3.学习完成第0周至第4周的课程内容,并完成各周作业4.提供图片或网站显示的学习进度,证明学习的过程。5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。 5.写一篇不少于1000字的学习笔 阅读全文
posted @ 2019-10-27 12:47 林间有风(caoling) 阅读(220) 评论(0) 推荐(0)
摘要: 一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。 titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活Pclass:乘客所持票类,有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的 阅读全文
posted @ 2019-10-14 17:51 林间有风(caoling) 阅读(248) 评论(0) 推荐(0)
摘要: # 1.创建一个边界值为1而内部都是0的数组,图例如下:# [提示:]解此题可以先把所有值都设置为1,这是大正方形;其次,把边界除外小正方形全部设置为0。# 本题用到numpy的切片原理。多维数组同样遵循x[start:stop:step]的原理。 import numpy as np arr = np.ones((10, 10)) arr[1:9, 1:9] = 0 # 对不同维度的操作... 阅读全文
posted @ 2019-09-20 14:06 林间有风(caoling) 阅读(399) 评论(0) 推荐(0)