摘要: 用Python实现一个面向主题的网络爬虫程序,并完成以下内容: (注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 名称:爬取电影天堂华语电视剧信息和下载链接 2.主题式网络爬虫爬取的内容与数据特征分析 本次爬虫主要爬 阅读全文
posted @ 2019-12-19 08:44 庄伟淞 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进度,证明学习的过程。 5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。 通过鄂大伟老师的推荐,这几 阅读全文
posted @ 2019-10-31 21:05 庄伟淞 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。 titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活Pclass:乘客所持票类,有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的 阅读全文
posted @ 2019-10-16 17:34 庄伟淞 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 2.在数组主对角线上创建一个值为1,2,3,4的5x5矩阵,图例如下:[1 0 0 0][0 2 0 0][0 0 3 0][0 0 0 4] 3.数组归一化操作生成一个随机的5*5矩阵,找出最大值和最小值,然后把最大值和最小值分别用1和0表示,其他值则介于在0和1中间。 阅读全文
posted @ 2019-09-26 17:40 庄伟淞 阅读(100) 评论(0) 推荐(0) 编辑