上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 22 下一页
摘要: 提取主题词,优化自动分类模块,准备进行全网关联 阅读全文
posted @ 2019-11-04 17:22 小程大序的猿 阅读(80) 评论(0) 推荐(0)
摘要: 运行结果: 两个进程同时运行,输出的结果并不是按照某个固定的顺序进行的,是随机产生的,无规律可言。 参考博客:https://blog.csdn.net/zyj0813/article/details/78345617 阅读全文
posted @ 2019-11-04 16:03 小程大序的猿 阅读(5473) 评论(0) 推荐(0)
摘要: 第八周打算对正规新闻进行提取时间、地点、人物、话题、动作,之后进行关联图可视化展示。 话题的提取打算采用精确提取关键字接近话题的方法,主要参考神策杯2018的赛题流程进行提取。 其他内容的提取继续进行优化,争取精准一点。 关联图初步打算采用较为简单的关联图。 如果时间合适,打算继续接着整体流程:并行 阅读全文
posted @ 2019-10-26 23:05 小程大序的猿 阅读(107) 评论(0) 推荐(0)
摘要: 一开始按照网上的方法在配置文件加入自定义的词典不行,不知道是什么问题,这里给出链接,有兴趣的自己尝试:https://my.oschina.net/u/3793864/blog/3073171 说一下我的方法:在hanlp.java中添加路径即可,数组里直接加入 可以看到我是谁三个字被当成名词输出 阅读全文
posted @ 2019-10-22 23:23 小程大序的猿 阅读(1477) 评论(0) 推荐(0)
摘要: 这是距离上一次关于毕设博客很久之后的第二篇博客。 这么长时间尝试了本次项目所需的各种NLP处理方法。说说最近的成果吧还是。要对之后爬取的数据进行分类操作,但是分类的类别和一般的不太一样,下面是我定义的类别: 那么就开始了训练: 找到了一个全是科技类的新闻数据集,大约16万吧,里面全是科技类新闻(训练 阅读全文
posted @ 2019-10-06 22:09 小程大序的猿 阅读(131) 评论(0) 推荐(0)
摘要: 这是一个心酸的历程。 py文件如下: 这里调用出现的问题主要是第三方包的问题,因为你的py文件里可能含有很多三方库文件,jython的jar包里可能不含有这个,所以这时需要你找到你已有三方库文件的exe,怎么找呢,去你的pycharm里找,不然java会调用计算机默认的python去做,而你可能只是 阅读全文
posted @ 2019-09-26 21:49 小程大序的猿 阅读(2632) 评论(0) 推荐(0)
摘要: 原数据: 去掉括号内容(包括括号,或者替换为指定内容) 即可。 世界之大,这个东西,准确的说正则表达式,我搞了小半天!!! 阅读全文
posted @ 2019-09-07 20:19 小程大序的猿 阅读(8800) 评论(0) 推荐(0)
摘要: 源码: 结果: 参加百度云具体事例。 阅读全文
posted @ 2019-08-15 11:02 小程大序的猿 阅读(1395) 评论(0) 推荐(1)
摘要: 怎么说呢,静态的页面,但我也写了动态的接口支持,方便后续爬取别的新闻网站使用。 之后就是爬虫; 结果: 当然还没有清洗内容,后续会清洗以及爬取动态网站啥的。 参考博客:https://blog.csdn.net/gx304419380/article/details/80619043#comment 阅读全文
posted @ 2019-08-09 18:15 小程大序的猿 阅读(524) 评论(0) 推荐(0)
摘要: 毕设内容:舆情监测。 浪浪荡荡了一个月,也该开始毕设了。最近一直在看论文,研究怎么开始,万事开头难,就是不知道从哪下手开始,一直不开始,一直不会做。 首先还是分析了一下题目本身明显的需求,第一步肯定是先进行爬虫。因为做这个系统在量级上肯定使用原来的一些数据库存储,读写速度肯定跟不上,但是目前打算先用 阅读全文
posted @ 2019-08-05 21:01 小程大序的猿 阅读(251) 评论(2) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 22 下一页