摘要: 老师意见: 这周进度: 清洗数据,筛选出企业名称,将公告界面与后台交互 清洗记录如下: 以10429条数据为依据,初步分析 1.首先分为两大类是公告原文是一二三格式//9767,和1、2、格式的//662 2.其次中标供应商表现形式有直接冒号给出,或者是表格形式 (1)一二三格式的,中标供应商包含在 阅读全文
posted @ 2018-11-29 14:17 发酸的丶米饭 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 老师提出的问题: 对自己系统流程的侧重点还不是很明确 左侧功能菜单太过单一,流程只能大体体现,一看就没有认真思考 数据分析太单一,要从最原始的数据做到智能分析 数据分析结果展示太单一,不能只局限与柱形图,饼状图等二维图形 自己的思考: 服务人群:本系统旨在为两个角色提供有价值的参考,一是为投标的公司 阅读全文
posted @ 2018-11-19 14:46 发酸的丶米饭 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 一、老师提出的问题: 1.业务流程还是不清晰 2.左侧栏不行, 3.应该有数据爬取结果的展示 二、本周做的事: 1.重新爬取新数据源的数据 2.重新规划左侧栏 3.做了中标信息展示界面 阅读全文
posted @ 2018-11-12 11:45 发酸的丶米饭 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 实现分页有两个基本思想: 我采用的是第一个,加载完成所有的数据,利用pagehelper插件显示 配置 pom.xml添加依赖 程序入口Application //配置mybatis的分页插件pageHelper @Bean public PageHelper pageHelper() { Page 阅读全文
posted @ 2018-10-27 20:04 发酸的丶米饭 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 1.获取标题建立文件TXT 创建以标题命名的TXT 写入网址和内容 写入TXT的内容为乱码 HttpURLConnection urlConn = (HttpURLConnection) url.openConnection(); urlConn.connect(); DataOutputStrea 阅读全文
posted @ 2018-10-17 11:19 发酸的丶米饭 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 连接HDFS 添加以下的依赖 连接代码 注意import的包一定要对!!! 开发时遇到下错误以下错误: 原因是:common-io 2.2下面是没有这个Charsets的,commons-io-2.5 下面就有了这个类,所以要升级commons版本 将爬去到的数据以TXT写入hdfs文件中 封装连接 阅读全文
posted @ 2018-10-17 11:16 发酸的丶米饭 阅读(895) 评论(0) 推荐(0) 编辑
摘要: 1.列表页分页的链接获取不到 原因是:整个HTML页面响应中没有分页链接 利用System.out.println(page.getHtml().toString());将整个爬取的列表页整个显示出来 发现爬取到的整个页面是就没有分页链接,网页的分页使用js生成的,所以爬不到 解决办法:根据规律自己 阅读全文
posted @ 2018-10-17 11:08 发酸的丶米饭 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 1.第一个小爬虫只能爬取指定的列表页的文章,接下来要自动爬取每一列表页的文章 2.循环爬取process是会循环运行的。其中的循环并不是for循环,而是利用if public void process(Page page) { //列表页 if (page.getUrl().regex(URL_LI 阅读全文
posted @ 2018-10-17 11:06 发酸的丶米饭 阅读(1523) 评论(0) 推荐(0) 编辑
摘要: 其中,div[@id=\"tablediv\"]对应爬取的网页中的包含文章列表链接的标签,如图: 3.正常获取到后在通过xpath提取指定标签的内容: page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()" 阅读全文
posted @ 2018-10-17 10:55 发酸的丶米饭 阅读(3070) 评论(0) 推荐(0) 编辑
摘要: 1.配置,添加依赖 在IDEA中添加两个jar包:webmagic-core-{version}.jar和webmagic-extension-{version}.jar。 <dependency> <groupId>us.codecraft</groupId> <artifactId>webmag 阅读全文
posted @ 2018-10-17 10:47 发酸的丶米饭 阅读(712) 评论(0) 推荐(0) 编辑