04 2018 档案

爬虫大作业(2017年科技界发生了哪些变化——爬取17年腾讯新闻科技板块下的所有新闻)
摘要:一、主题 本次作业是通过爬取腾讯新闻科技板块下2017年所有的新闻数据来分析17年科技界都发生了哪些热门事件,通过词云分析得出17年度科技界最热的词语。 二、实现过程 1、首先打开腾讯新闻网,进入科技频道。然后通过浏览器检查工具查看网页源代码,查找规律。 可以看出腾讯新闻科技频道下的新闻列表网址的规 阅读全文

posted @ 2018-04-30 21:59 242韦兴纳 阅读(1362) 评论(3) 推荐(0)

数据结构化与保存
摘要:1. 将新闻的正文内容保存到文本文件。 def writeNewsDetail(content): f = open('gzccnews.txt', 'a', encoding='utf-8') f.write(content) f.close() 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.... 阅读全文

posted @ 2018-04-18 20:14 242韦兴纳 阅读(129) 评论(0) 推荐(0)

爬取校园新闻首页的新闻
摘要:'''使用开发者工具观察,每则新闻所在的分枝<li>遍历每个li排除一些非新闻列表的<li> 获取每条新闻的时间,标题,描述,链接。通过链接获取新闻页,取得新闻正文,作者,发布时间等数据项对info字符串进行分解,取得时间,作者,审核等数据项。'''import requestsimport ref 阅读全文

posted @ 2018-04-03 17:51 242韦兴纳 阅读(146) 评论(0) 推荐(0)

导航