小程大序的猿

2019年11月4日

第九周周二计划

摘要：提取主题词，优化自动分类模块，准备进行全网关联阅读全文

posted @ 2019-11-04 17:22 小程大序的猿阅读(80) 评论(0) 推荐(0)

JAVA多线程间隔时间段执行方法

摘要：运行结果：两个进程同时运行，输出的结果并不是按照某个固定的顺序进行的，是随机产生的，无规律可言。参考博客：https://blog.csdn.net/zyj0813/article/details/78345617 阅读全文

posted @ 2019-11-04 16:03 小程大序的猿阅读(5478) 评论(0) 推荐(0)

2019年10月26日

第八周毕设计划

摘要：第八周打算对正规新闻进行提取时间、地点、人物、话题、动作，之后进行关联图可视化展示。话题的提取打算采用精确提取关键字接近话题的方法，主要参考神策杯2018的赛题流程进行提取。其他内容的提取继续进行优化，争取精准一点。关联图初步打算采用较为简单的关联图。如果时间合适，打算继续接着整体流程：并行阅读全文

posted @ 2019-10-26 23:05 小程大序的猿阅读(108) 评论(0) 推荐(0)

2019年10月22日

java自定义词典使用Hanlp

摘要：一开始按照网上的方法在配置文件加入自定义的词典不行，不知道是什么问题，这里给出链接，有兴趣的自己尝试：https://my.oschina.net/u/3793864/blog/3073171 说一下我的方法：在hanlp.java中添加路径即可，数组里直接加入可以看到我是谁三个字被当成名词输出阅读全文

posted @ 2019-10-22 23:23 小程大序的猿阅读(1481) 评论(0) 推荐(0)

2019年10月6日

毕设之路01

摘要：这是距离上一次关于毕设博客很久之后的第二篇博客。这么长时间尝试了本次项目所需的各种NLP处理方法。说说最近的成果吧还是。要对之后爬取的数据进行分类操作，但是分类的类别和一般的不太一样，下面是我定义的类别：那么就开始了训练：找到了一个全是科技类的新闻数据集，大约16万吧，里面全是科技类新闻（训练阅读全文

posted @ 2019-10-06 22:09 小程大序的猿阅读(133) 评论(0) 推荐(0)

2019年9月26日

java调用含第三方库的py文件

摘要：这是一个心酸的历程。 py文件如下：这里调用出现的问题主要是第三方包的问题，因为你的py文件里可能含有很多三方库文件，jython的jar包里可能不含有这个，所以这时需要你找到你已有三方库文件的exe，怎么找呢，去你的pycharm里找，不然java会调用计算机默认的python去做，而你可能只是阅读全文

posted @ 2019-09-26 21:49 小程大序的猿阅读(2633) 评论(0) 推荐(0)

2019年9月7日

kettle工具字符串替换

摘要：原数据：去掉括号内容（包括括号，或者替换为指定内容）即可。世界之大，这个东西，准确的说正则表达式，我搞了小半天！！！阅读全文

posted @ 2019-09-07 20:19 小程大序的猿阅读(8807) 评论(0) 推荐(0)

2019年8月15日

java程序：调用百度api进行情感分析

摘要：源码：结果：参加百度云具体事例。阅读全文

posted @ 2019-08-15 11:02 小程大序的猿阅读(1397) 评论(0) 推荐(1)

2019年8月9日

Jsoup+HttpUnit爬取搜狐新闻

摘要：怎么说呢，静态的页面，但我也写了动态的接口支持，方便后续爬取别的新闻网站使用。之后就是爬虫; 结果：当然还没有清洗内容，后续会清洗以及爬取动态网站啥的。参考博客：https://blog.csdn.net/gx304419380/article/details/80619043#comment 阅读全文

posted @ 2019-08-09 18:15 小程大序的猿阅读(526) 评论(0) 推荐(0)

2019年8月5日

毕设之路00

摘要：毕设内容：舆情监测。浪浪荡荡了一个月，也该开始毕设了。最近一直在看论文，研究怎么开始，万事开头难，就是不知道从哪下手开始，一直不开始，一直不会做。首先还是分析了一下题目本身明显的需求，第一步肯定是先进行爬虫。因为做这个系统在量级上肯定使用原来的一些数据库存储，读写速度肯定跟不上，但是目前打算先用阅读全文

posted @ 2019-08-05 21:01 小程大序的猿阅读(252) 评论(2) 推荐(0)

程序猿养成中

公告