摘要: 一、作业要求 1、选一个自己感兴趣的主题。 2、网络上爬取相关的数据。 3、进行文本分析,生成词云。 4、对文本分析结果解释说明。 5、写一篇完整的博客,附上源代码、数据爬取及分析结果,形成一个可展示的成果。 二、游戏王卡片简介 《游戏王OCG》是由KONAMI研发、吉尼斯世界纪录认证的全世界销量最 阅读全文
posted @ 2017-11-02 16:28 27杨华星 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 1、结构化 单条新闻的详情字典:news 一个列表页所有单条新闻汇总列表:newsls.append(news) 所有列表页的所有新闻汇总列表:newstotal.extend(newsls) 2、转换成pandas的数据结构DataFrame 3、从DataFrame保存到excel 4、从Dat 阅读全文
posted @ 2017-10-19 10:48 27杨华星 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 1、完成所有校园新闻的爬虫 (1)获取单条新闻的#标题#链接#时间#来源#内容 #点击次数,并包装成一个函数。 (2)获取一个新闻列表页的所有新闻的上述详情,并包装成一个函数。 (3)获取所有新闻列表页的网址,调用上述函数。 (4)完成所有校园新闻的爬取工作。 (由于内容过多,只展示前两页的标题等内 阅读全文
posted @ 2017-10-12 17:42 27杨华星 阅读(631) 评论(0) 推荐(0) 编辑
摘要: 1、用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源、详细内容。 要求:(1)将其中的时间str转换成datetime类型。(2)将取得详细内容的代码包装成函数。 2、一个自己感兴趣的主题,做类似的操作,为后面“爬取网络数据并进行文本分析”做准备。 阅读全文
posted @ 2017-09-28 18:15 27杨华星 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 1、中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 答:希望可以演示一下大数据的应用,实实在在地演示,比如爬虫什么的。 2、中文分词 (1)下载一中文长篇小说,并转换成UTF-8编码。 (2)使用jieba库,进行中文词频统计,输出TOP20的词及出现次 阅读全文
posted @ 2017-09-25 18:02 27杨华星 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 1、列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作。例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等。 2、字典实例:建立学生学号成绩字典,做增删改查遍历操作。 3、分别做列表,元组,字典,集合的遍历,并总结列表,元组,字典,集合的联系与区别。 属性 列表l 阅读全文
posted @ 2017-09-21 15:36 27杨华星 阅读(220) 评论(0) 推荐(1) 编辑
摘要: 1、实例:输出12个星座符号,以反斜线分隔。 2、实例:恺撒密码的编码。 3、输入姓名,格式输出:占4位、居中、不足4字的以空格填充。 4、格式化输出:中华人民共和国国内生产总值(GDP)689,136.89亿元(2015年)(千分位、2位小数,浮点数)。 5、实例:打出99乘法表。 6、下载一首英 阅读全文
posted @ 2017-09-18 15:45 27杨华星 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 一、注意标准库的两种导入与使用方式,建议大家采用<库名>.<函数名>的方式。 二、对前面的代码进行优化,用for,while,if,def实现: 1、用循环画五角星 2、用循环画同心圆 3、用while循环画太阳花 4、用函数定义画五个五角星 5、用函数定义画钻石花瓣的太阳花 三、字符串操作 1、输 阅读全文
posted @ 2017-09-14 11:39 27杨华星 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 练习1、输出Hello World!程序。 输出结果: 练习2、用交互式和文件式分别练习简单的交互程序。 输出结果: 练习3、用户输入两个数字,计算并输出两个数字之和(尝试用一行代码实现)。 输出结果: 练习4、用户输入三角形三边长度,并计算三角形的面积(海伦公式)。 输出结果: 练习5、输入半径, 阅读全文
posted @ 2017-09-07 20:01 27杨华星 阅读(1900) 评论(0) 推荐(0) 编辑