10 2017 档案

摘要:1.选一个自己感兴趣的主题。我选的是途牛网,并定位到自己家乡韶关。 2.网络上爬取相关的数据,截取网站的标题以及来源。 3.进行文本分析,生成词云。我将网站复制下来,使用字典的方法统计出出现次数最多的20个词,并去掉一些符号。 生成词云。生成词云中遇到很多问题,其中找字体就是一个最麻烦的事。用中文制 阅读全文
posted @ 2017-10-31 22:00 34-潘志文 阅读(207) 评论(0) 推荐(0)
摘要:1、结构化 单条新闻的详情字典:news 一个列表页所有单条新闻汇总列表:newsls.append(news) 所有列表页的所有新闻汇总列表:newstotal.extend(newsls) 2、转换成pandas的数据结构DataFrame 3、从DataFrame保存到excel 4、从Dat 阅读全文
posted @ 2017-10-18 22:49 34-潘志文 阅读(134) 评论(0) 推荐(0)
摘要:1.获取单条新闻的#标题#链接#时间#来源#内容 #点击次数,并包装成一个函数。 2.获取一个新闻列表页的所有新闻的上述详情,并包装成一个函数。 3.获取所有新闻列表页的网址,调用上述函数。 4.完成所有校园新闻的爬取工作。 5.完成自己所选其他主题相应数据的爬取工作。 阅读全文
posted @ 2017-10-12 21:54 34-潘志文 阅读(130) 评论(0) 推荐(0)