软工实践第五次作业-结对作业(2)

一、结对信息

结对成员
031602209 陈志炜
 031602206 陈文垚
本次作业博客链接
Github项目地址
作业代码的GitHub地址
具体分工
陈志炜爬取论文信息、完成编码要求2、3、4、6的代码编写、完成附加题
陈文垚完成编码要求5的代码编写、单元测试、性能分析

二、PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	30	30
· Estimate	· 估计这个任务需要多少时间	30	30
Development	开发	940	1420
· Analysis	· 需求分析 (包括学习新技术)	120	180
· Design Spec	· 生成设计文档	30	30
· Design Review	· 设计复审	60	180
· Coding Standard	· 代码规范 (为目前的开发制定合适的规范)	10	10
· Design	· 具体设计	240	240
· Coding	· 具体编码	360	540
· Code Review	· 代码复审	60	60
· Test	· 测试（自我测试，修改代码，提交修改）	60	180
Reporting	报告	100	160
· Test Repor	· 测试报告	60	120
· Size Measurement	· 计算工作量	10	10
· Postmortem & Process Improvement Plan	· 事后总结, 并提出过程改进计划	30	30

|       | 	合计  |1040 |1580

三、解题思路及设计说明

爬虫（自己完成）

运行环境：Python 3.6.6
使用的库：requests, lxml, bs4
通过分析页面源码可以看出每篇论文的主页都是由

<dt class="ptitle"><br><a href="content_cvpr_2018/html/Das_Embodied_Question_Answering_CVPR_2018_paper.html">Embodied Question Answering</a></dt>

@href 属性和 http://openaccess.thecvf.com/ 拼接而成的。
所以就先获取所有论文的主页，然后再依次爬取所有的论文的信息,利用 lxml, bs4, 正则提取出
相应位置的信息。一开始是做单进程的，完整爬一遍要9分钟多，就改了一个多进程的版本。
全部爬完之后再输出到文件。

def scrape(lock, data, url):
    try:
        text = get_page(url)

        pdf_links, abstracts, authors, titles, booktitles, months, years = data
        # print(text)
        html = etree.HTML(text)
        pdf_link = html.xpath('//a[contains(text(), "pdf")]/@href')[0]
        pdf_link = 'http://openaccess.thecvf.com/' + pdf_link[6:]

        abstract = html.xpath('//div[@id="abstract"]/text()')[0]
        abstract = abstract[1:]

        soup = BeautifulSoup(text, 'lxml')
        detail = soup.find(class_="bibref")

        regex = '(\w+) = {([\S\xa0 ]+)}'
        results = re.findall(regex, detail.getText())
        author = results[0][1]
        title = results[1][1]
        booktitle = results[2][1]
        month = results[3][1]
        year = results[4][1]
        lock.acquire()

        pdf_links.append(pdf_link)
        abstracts.append(abstract)
        authors.append(author)
        titles.append(title)
        booktitles.append(booktitle)
        months.append(month)
        years.append(year)

        lock.release()
    except ConnectionError:
        print('Error Occured ', url)
    finally:
        print('URL ', url, ' Scraped')

代码组织与内部实现设计（类图）

根据需求实现了单词/词组的词频统计、加入权重的词频统计、行数统计、单词/词组数统计、字符数
统计、自定义输入输出文件等功能

说明算法的关键与关键实现部分流程图

主要就是提取词组这部分, 要求有不能跨title和abstract，
两个部分的统计方式是相同的，所以就先将title和abstract分别存进List，然后再相同方式处理。
词组处理，就使用分隔符将title或者abstract进行分割，因为词组统计的时候要保留分割符，所以
将所有的分隔符匹配出来备用，词组统计的时候需要分隔符的时候再连接上去。当词组数为m时，需要
连续m个为单词才满足条件。

四、附加题设计与展示

附件

爬虫

爬虫爬取完毕后会将结果输出到两个文件
一个是只包含Title, abstract
另一个是包含所有能爬取到的信息

with open('result.txt', 'w', encoding='utf-8') as file:
    for i in range(len(titles)):
        file.write(str(i)+'\n')
        file.write('Title: ' + titles[i] + '\n')
        file.write('Abstract: ' + abstracts[i] + '\n')
        file.write('\n\n')

with open('all_data.txt', 'w', encoding='utf-8') as file:
    for i in range(len(titles)):
        file.write(str(i)+'\n')
        file.write('Title: ' + titles[i] + '\n')
        file.write('Authors: ' + authors[i] + '\n')
        file.write('Abstract: ' + abstracts[i] + '\n')
        file.write('Booktitle: ' + booktitles[i] + '\n')
        file.write('PDF Link: ' + pdf_links[i] + '\n')
        file.write('Time: ' + years[i] + ' ' + months[i])
        file.write('\n\n')

数据分析

render.html下载后可直接打开
以下截图是在Jypyter Notebook中截取

通过python的pyecharts库调用echarts，实现关系图，......，数据太多了...,所以

放大看看..., 论文数发表越多的人的点越大

移动鼠标到要了解的人上面，与他共同发表过论文的人会亮起

五、关键代码解释

主要部分就是实现词组统计这一块

private HashMap<String, Integer> countContent(List<String> contents, int m) {
    HashMap<String, Integer> map = new HashMap<>();
    String splitRegex = "[\\s+\\p{Punct}]+";
    String splitStartRegex = "^[\\s+\\p{Punct}]+";
    String wordRegex = "^[a-zA-Z]{4,}.*";
    Pattern pattern = Pattern.compile(splitRegex);

    for (String content : contents) {
        String[] temp = content.split(splitRegex);

        List<String> splits = new ArrayList<>();
        Matcher matcher = pattern.matcher(content);
        while (matcher.find()) {
            splits.add(matcher.group());
        }

        boolean isSplitStart = content.matches(splitStartRegex);

        for (int i = 0; i < temp.length - m + 1; i++) {
            StringBuilder stringBuilder = new StringBuilder();

            if (temp[i].matches(wordRegex)) {
                stringBuilder.append(temp[i]);
            } else {
                continue;
            }
            boolean isContinue = true;
            for (int j = 1; j < m; j++) {
                if (!temp[i + j].matches(wordRegex)) {
                    isContinue = false;
                    break;
                } else {
                    if (isSplitStart) {
                        stringBuilder.append(splits.get(i + j));
                    } else {
                        stringBuilder.append(splits.get(i + j - 1));
                    }
                    stringBuilder.append(temp[i + j]);
                }
            }

            if (isContinue) {
                String words = stringBuilder.toString().toLowerCase();
                if (!map.containsKey(words)) {
                    map.put(words, 1);
                } else {
                    int num = map.get(words);
                    map.put(words, num + 1);
                }
            }

        }

    }
    return map;
}

一开始有想过通过写正则，直接匹配出符合条件的，emmmm....还是有点难处理。
所以先将句子通过分割符分割，分割出每个词。匹配出所有的分割符（词组统计时候，要求带分隔符连接起来）。
然后直接暴力求解...，判断出符合条件的词组。将结果存入map中，并记录出现的次数。

六、性能分析与改进

测试时使用爬取CVPR的979篇论文作为输入，命令行参数为-i test.txt -n 15 -m 3 -o output.txt，
使用权重统计词组词频，每三个单词为一个词组，输出词频前15的词组存放到output.txt
循环运行100次，性能分析结果如下

iamge

代码覆盖率如下
iamge

使用VisualVM进行性能分析发现，Main中统计输入文件词组词频的WordsCount.countContent和统
计输入文件单词总数的WordsCount.getWordsSum占用时间最多,占用了90%左右的时间

七、单元测试

在这列出三个单元测试并给出中文注释，所有的单元测试代码可以在github中的test项目中看到。

1.对CalMost的单元测试
测试统计前十个单词及频数的函数和统计前n个单词及频数的函数

import org.junit.Test;

import java.util.HashMap;
import java.util.List;
import java.util.Map;

import static org.junit.Assert.*;

public class CalMostTest {
    String path = "input.txt";
    HandleContent handleContent = new HandleContent(path);
    // -m 词组单词数设为1
    // -w 权重设为0
    WordsCount wordsCount = new WordsCount(handleContent, 1, 0);
    HashMap<String, Integer> map = wordsCount.getMap();

    CalMost calMost = new CalMost();

    @Test
    //无 -n 参数输入时
    //单词数超过十个则输出前十个单词及词频
    //不足则输出所有单词及词频
    public void mostWords() {

        List<Map.Entry<String, Integer>> list = calMost.mostWords(map);
        list.forEach(System.out::println);
    }

    @Test
    //有 -n 参数输入时
    //单词数超过n个则输出前n个单词及词频
    //不足则输出所有单词及词频
    public void mostWords1() {

        List<Map.Entry<String, Integer>> list = calMost.mostWords(map,9);
        list.forEach(System.out::println);
    }
}

2.对WordsCount的单元测试
测试获取单词数和单词、词频的函数

import org.junit.Test;

import java.util.HashMap;
import java.util.Map;

import static org.junit.Assert.*;

public class WordsCountTest {

    String path = "input.txt";
    HandleContent handleContent = new HandleContent(path);
    // -m 词组单词数设为1
    // -w 权重设为0
    WordsCount wordsCount = new WordsCount(handleContent, 1, 0);

    @Test
    //获取单词总数
    public void getSum() {
        System.out.println(wordsCount.getSum());
    }

    @Test
    //获取map内容，单词及其词频数
    public void getMap() {
        System.out.println(wordsCount.getMap().toString());
    }
}

3.对HandleContent的单元测试
测试获取论文title、论文abstract和所有论文内容的函数

import org.junit.Test;

public class HandleContentTest {
    String path = "test.txt";
    //声明一个handleContent对输入内容进行分类
    //将所有的title和所有的abstract各自分到一起
    HandleContent handleContent = new HandleContent(path);

    @Test
    //输出应为所有的title内容
    public void getTitles() {

        System.out.println(handleContent.getTitles().toString());
    }

    @Test
    //输出应为所有的abstract内容
    public void getAbstracts() {

        System.out.println(handleContent.getAbstracts().toString());
    }

    @Test
    //输出应为title + abstract 内容
    public void getHandledContent() {

        System.out.println(handleContent.getHandledContent());
    }
}

八、GitHub代码签入记录

iamge
iamge
iamge

九、遇到的困难及解决方法

对于题意的理解存在问题，题目要求标点符号也要算成分隔符，例如question（“orange就可以
分割成question和orange两个单词。但是我们对连字符"-"产生了误解，认为像Super-Resolution
这样的从语义上来看，只能算一个单词，所以产生了错误。经过和助教还有其他同学的沟通后，才明
白了自己的错误。
粗心导致的问题，在测试时发现统计单词数时经常会漏掉许多单词，我们一开始认为是正则出现了
问题，但是实际上导致这个bug的是循环语句的错误，在循环体中本应该使用continue结束本次循环
但是错误地使用了break结束了整个循环，所以导致结果的错误。

for (int j = 1; j < m; j++) {
    if (!temp[i + j].matches(wordRegex)) {
    isContinue = false;
        break;
    } else {
        if (isSplitStart) {
            stringBuilder.append(splits.get(i + j));
        } else {
            stringBuilder.append(splits.get(i + j - 1));
        }
        stringBuilder.append(temp[i + j]);
    }
}

玄学bug, 出现了一次玄学bug，在测试时，读取文件中的序号后，正则匹配不出来，按行读取查
看输出时没问题，单独测试正则也是没问题的，？？？，就完全找不到问题，删除了这个txt文件，重
新建了一个txt文件，内容完全一样，再次测试就没问题了，？？？。

十、评价队友

队友很给力，测出了很多我没注意到的细节导致的错误，一起debug，emmmm...，商业互吹能力极强，
之前自己写的代码一般就自己在看，体验了一次别人查看自己的代码。~~code review?~~

十一、学习进度条

第N周	新增代码行	累计代码行	本周学习耗时(小时)	累计学习耗时(小时)	重要成长
1	600	600	20	20	1. dl4j库的使用 keras模型导入java 2. k-means java实现 3.水平投影图像分割
2	1400	2000	30	50	1. dl4j nd4j 踩坑 ~~还没爬出来~~ 2.flask最基本的使用方法。
3	800	2800	25	75	1.dl4j库存在问题(GitHub上有相同的issue) 2.准备使用dl4j训练模型 3.复习了一些Android知识

posted @ 2018-10-10 21:29 Dark-Existed 阅读(268) 评论(1) 收藏举报

刷新页面返回顶部

Dark-Existed

软工实践第五次作业-结对作业(2)

软工实践第五次作业-结对作业(2)

一、结对信息

二、PSP表格

三、解题思路及设计说明

爬虫（自己完成）

代码组织与内部实现设计（类图）

说明算法的关键与关键实现部分流程图

四、附加题设计与展示

附件

爬虫

数据分析

五、关键代码解释

六、性能分析与改进

七、单元测试

八、GitHub代码签入记录

九、遇到的困难及解决方法

十、评价队友

十一、学习进度条

公告