摘要: 我选择的主题是小说网站的爬取 作业要求 选一个自己感兴趣的主题。 网络上爬取相关的数据。 进行文本分析,生成词云。 对文本分析结果解释说明。 写一篇完整的博客,附上源代码、数据爬取及分析结果,形成一个可展示的成果。 1、用2345加速浏览器打开"http://www.xs.la/46_46454/" 阅读全文
posted @ 2017-10-31 17:15 45hjq 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 1.结构化: 单条新闻的详情字典:news 一个列表页所有单条新闻汇总列表:newsls.append(news) 所有列表页的所有新闻汇总列表:newstotal.extend(newsls) 2.转换成pandas的数据结构DataFrame 3.从DataFrame保存到excel 4.从Da 阅读全文
posted @ 2017-10-18 21:40 45hjq 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 好文要顶 好文要顶 好文要顶 阅读全文
posted @ 2017-10-11 19:29 45hjq 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。 选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。 阅读全文
posted @ 2017-09-27 19:34 45hjq 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 2.中文分词(**两项选做,此次作业要求不能雷同。) 下载一中文长篇小说,并转换成UTF-8编码。使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 **排除一些无意义词、合并同一词。 阅读全文
posted @ 2017-09-25 21:15 45hjq 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 1、凯撒密码 2、星座符号 4、输入姓名,格式输出:占4位、居中、不足4字的以空格填充。 5、格式化输出:中华人民共和国国内生产总值(GDP)689,136.89亿元(2015年)(千分位、2位小数,浮点数) 6、实例:打出99乘法表 7、实例: 下载一首英文的歌词或文章,统计单词出现的次数,将所有 阅读全文
posted @ 2017-09-20 17:44 45hjq 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 1.实例:输出12个星座符号,以反斜线分隔。 2.实例:恺撒密码的编码 3.输入姓名,格式输出:占4位、居中、不足4字的以空格填充。 4.格式化输出:中华人民共和国国内生产总值(GDP)689,136.89亿元(2015年)(千分位、2位小数,浮点数) 5.打出99乘法表 6.下载一首英文的歌词或文 阅读全文
posted @ 2017-09-18 19:05 45hjq 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 1 Python 3.6.2 (v3.6.2:5fd33b5, Jul 8 2017, 04:57:36) [MSC v.1900 64 bit (AMD64)] on win32Type "copyright", "credits" or "license()" for more informat 阅读全文
posted @ 2017-09-06 11:41 45hjq 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 作为一个足球爱好者,当然是支持本地的广州恒大和广州富力两支球队,所以搜索2支球队的近况也是常有,利用百度指数显示: 恒大遥遥领先,整体搜索指数远高于富力。整体趋势来看: PC趋势是: 移动趋势是: 所有指数都显示恒大远高于富力。 阅读全文
posted @ 2017-09-04 18:16 45hjq 阅读(77) 评论(0) 推荐(0) 编辑