卡其脱离太 实验五 团队作业2:新闻文本分类算法
项目 | 内容 |
---|---|
周学铭——PM(算法工程师) 何飞——测试工程师 谢林江——UI设计 常雅伦——文档编辑 |
|
1.确定靠谱的团队研发项目,提出靠谱的项目建议 2.进行团队项目可行性评审 3.编制团队项目选题申请报告。 |
|
1.通过成立项目团队,增强合作意识 2.通过合作对项目的分析确定团队方向 |
|
一、实验目的
(1)确定靠谱的团队研发项目;如何提出靠谱的项目建议,参见邹欣老师博文:
(2)团队项目可行性评审;
(3)编制团队项目选题申请报告。
二、实验内容与步骤
任务1:团队组长主持(企业微信)会议,确定团队项目选题;
任务2:采用NABCD法,从五个视角对初选项目可行性进行团队合议;
(1) N (Need 需求)
-
背景:
新闻发展越来越快,每天各种各样的新闻令人目不暇接,对新闻进行科学的分类既能够方便不同的阅读群体根据需求快速选取自身感兴趣的新闻,也能够有效满足对海量的新闻素材提供科学的检索需求。
-
功能需求:
-
提供简单的可视化界面。能够输入单条新闻,输出新闻的分类,或者支持本地上传csv/xlsx文件,批量输入新闻,并输出新闻分类。
-
输出分类的准确率不低于80%。
-
执行效率:单条新闻,程序从输入到输出的执行时间不超过5s。
-
(2) A (Approach 做法)
-
基本的招式:选用Java和Python作为开发语言。根据题目给定的十类新闻的测试数据样本以及通过互联网收集数据集进行训练。
-
独特的招式:可以熟练利用Java开发较为完善的可视化界面;能够利用Python爬取相关的测试数据;利用神经网络等机器学习算法进行开发。
-
招式的可行性:Java目前已存在相当成熟的前后端框架,开发可视化界面较为方便。Python爬取数据的能力卓越。目前市面上主流的分类算法还是较为传统的数据挖掘算法。
-
法律法规可行性:Java的框架大多是开源的,没有知识产权相关条件的约束。
(3) B (Benefit 好处)
- 社会意愿:根据调查报告的显示,人们对于该类产品的社会意愿表现强烈。
- 成本:用户使用成本基本为无。
- 为团队带来的效益:具有强烈社会效益,社会意愿强烈,能够为团队带来经济效益。
(4) C (Competitors 竞争)
- 目前社会上该类产品较少,竞争不太激烈。主要运用的技术都是传统的数据挖掘算法,例如:朴素贝叶斯等。对于神经网络在文本分类算法上的开发较为少见。
(5) D (Delivery 交付, Data 数据)
-
交付:该项目主要作为一个算法,可以作为知识产权卖给其他人,收取费用。
-
问卷调研:(收集了有效问卷50份)
-
平时是否经常通过网络等各种手段查阅新闻?
-
平时需要用到的新闻种类多吗?
-
对于种类繁多的新闻消息会进行分类查看吗?
-
你觉得对于大量各种类型的糅合在一起的新闻信息阅读查看方便吗?
-
有使用过对新闻进行分类提取的软件吗?
-
你希望出现一款对新闻进行科学的分类既能够方便不同的阅读群体根据需求快速选取自身感兴趣的新闻,也能够有效满足对海量的新闻素材提供科学的检索需求的软件吗?
-
若现在出现一款对新闻进行科学的分类能够根据需求快速选取自身感兴趣的新闻的软件,你会使用它吗?
-
任务3:点击此链接,填报选题信息;
任务4:任课教师确认团队选题或指导调整;
- 已在项目初审时通过审核
任务5:各团队确定选题后,尝试对项目进行初步的需求调研,并依据调研结果填写《2021年学生“创新能力提升计划”项目申请表》;
-
已根据调研结果完成填写。
-
初步需求调研方式
- 问卷调查
- 文献阅读:
- 核心论文:[1] Kim Y . Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
- 补充论文:
- 段丹丹. 文本分类中特征降维方法的研究与应用[D].南京邮电大学,2020.
- 唐习哲. 新闻文本分类系统的深度学习对比实验研究与系统实现[D].北方民族大学,2020.
- 潘袁湘. 基于深度学习的新闻文本分类与自动文摘系统设计与实现[D].电子科技大学,2020.
- 李心雨. 细粒度的新闻文本分类方法[D].哈尔滨工业大学,2020.
- 朱梦. 基于机器学习的中文文本分类算法的研究与实现[D].北京邮电大学,2019.
- 陶文静. 基于卷积神经网络的新闻文本分类研究[D].北京交通大学,2019.
- 张迪. 基于深度学习的中文文本分类算法研究[D].西安科技大学,2019.
-
初步调研成果:
(1)背景:
随着互联网技术和移动通信技术的飞速发展,网络新媒体已经成为信息交互的有效平台。其中非结构化的新闻文本作为信息的一种重要承载形式呈爆炸式增长。相比于其他传统媒体,网络新闻具有内容丰富、形式多样,可以实现实时更新,用户获取与阅览网络新闻不受时间和空间的限制,能够实现随时获取,用户可以根据自己的需求从互联网中获取满足自身需求的新闻等优点。网络新闻能够给用户带来更好的立体、全方位的信息接收体验。但同时如何能高效准确地对海量新闻文本进行分类,从而提取能够满足自身需求的信息成为用户所面临的难题。并且由于其内容简短,表达方式多样化和语法结构不规范,增加了分类的难度。因此,为满足网络新闻用户在大数据时代背景下的多样化和个性化需求,迫切需要一种有效的文本分类算法对文本语义进行更好地提取,从海量的新闻文本中挖掘出有价值的信息。
(2)现状分析:
二十世纪九十年代以后,随着互联网上文本信息资源的飞速增长,文本分类方法得到了空前的关注。而基于知识工程的文本分类技术已经完全不能满足需求,自从深度学习思想被提出以来,已经在图像识别、机器翻译和语音识别等领域中取得了出色的表现。和传统机器学习算法相比,深度学习模型通过多层非线性空间的变换,能够刻画出数据的本质特征,为提高新闻文本分类模型的准确性提供了良好的基础。深度学习模型中的卷积神经网络(Convolutional Neural Network,CNN)已成为一种主流的文本分类模型。
(3)创新点与项目特色:
本项目基于卷积神经网络的新闻文本分类框架,对文本分类中的特征表示、特征提取和分类器构造等关键环节进行了不同程度地改进。以便于高效准确地对海量新闻文本进行分类,提取所需信息,用于解决目前在信息时代之下用户最关心的问题,从而满足用户大数据时代背景下的多样化和个性化需求。
- 本项目的创新点有:
(1)与基于知识工程的方法相比较,这种方法中分类器的构造不需要人工的参与,大大减少了人力物力,可以处理大量的文本信息,并且由于这类分类器的训练是基于某些算法而非特定领域的专业知识,因此具有更好的通用性和很好的适应力,在文本的分类效率和准确率上都有非常显著的提升。
(2)利用Python爬取相关的测试数据;利用神经网络等机器学习算法进行开发;同时熟练利用Java开发较为完善的可视化界面。
(3)用户的使用成本基本为零。
(4)目前社会上该类产品较少,竞争不太激烈。主要运用的技术都是传统的数据挖掘算法,例如:朴素贝叶斯等。对于神经网络在文本分类算法上的开发较为少见。
任务6:将任务5编制的申请表上传到Github团队项目仓库;
- 已成功上传到Github团队项目仓库,点击查看
三、实验总结
1.记录完成《实验五 团队作业2:团队项目选题》各项任务实际花费的时间。
任务 | 花费时间 |
---|---|
任务一 | 90min |
任务二 | 120min |
任务三 | 30min |
任务四 | 15min |
任务五 | 300min |
任务六 | 30min |
2.学习《现代软件工程—构建之法》第9章内容,从团队分工和沟通手段角度,谈谈完成本次作业的感受和体会。
我们组是在企业微信里面以会议的方式探讨本次项目的选题,探讨过程是从选择题目——探讨选题意义——调查数据——确立题目——分析主打功能——确立开展方向等一系列步骤下进行,成员利用自己的学习环境先分别提出自己想要做的项目类型,说明各自的想法,有无可研发的价值,经过讨论确立主题以“新闻文本分类”这一方面进行开展,并且通过可视化界面展示。本次作业的分工是成员各自搜集网络上主流的新闻文本分类算法,分析对方的主打功能、优缺点以及用户。