文本聚类
文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。灵玖中科软件(LING-JOIN)基于核心特征发现技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。
LJCluster的三大特点:
1.综合性能最优
聚类系统能否达到实用性要求主要取决于两个因素:聚类精度与聚类速度,这两者相互制约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。我们研制出了核心语义特征发现技术,在高速度与高精度之间取得了重大突破,该技术可以在保证高精度的前提下,处理时间随着处理数据量保持亚线性增长,而不是传统方法的指数级增长。基于该技术,在百万级文档数量下,LJCluster速度单机1000篇/秒,处理精度85%以上,是当前最好的汉语自动聚类系统。
2.接口简单易用
作为典型的服务器应用程序,大多数聚类系统跟业务系统过于紧耦合,造成系统优化升级困难。LJCluster接口独立,模块化强,简单易用,可以很轻松地在业务系统中加入聚类功能。
3.全方位支持各种环境下的应用开发
LJCluster全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#等多种开发语言。
文件包介绍
LJCluster_SDK
│
├───Linux32位下C接口:
│ │ Example.cpp Linux下示例程序
│ │ LJCluster.h Linux下调用的头文件
│ │ cluster.user 使用许可文件
│ │ libLJCluster.a Linux32下调用的库文件
│ │ Makefile Linux32下示例程序编译使用的Makefile
│ │ LinuxCExample Linux32下示例程序生成的可执行文件
│ │ Dict.pdat 字典文件
│ │ Dict.wordlist 字典文件
│ │ stop.ung 字典文件
│ │ userfilterword.txt 用户自定义的干扰词配置文件
│ │
│ └───so库 Linux32下调用的动态库文件
│ libLJCluster.so
│ 调用方法.txt
│
├───Linux64下C接口
│ │ Example.cpp
│ │ LJCluster.h
│ │ cluster.user
│ │ libLJCluster.a Linux64下调用的库文件
│ │ Makefile Linux64下示例程序编译使用的Makefile
│ │ LinuxCExample Linux64下示例程序生成的可执行文件
│ │ Dict.pdat
│ │ Dict.wordlist
│ │ stop.ung
│ │ userfilterword.txt
│ │
│ └───so库 Linux64下调用的动态库文件
│ libLJCluster.so
│ 调用方法.txt│
│
├───Win7下C#接口
│ Example.cs Win7下示例程序
│ LJCluster.h
│ cluster.user
│ LJCluster.dll Win7下动态链接库
│ License.dll Win7下动态链接库
│ Win7CSharpExample.exe Win7下示例程序生成的可执行文件
│ Dict.pdat
│ Dict.wordlist
│ stop.ung
│ userfilterword.txt
│ ClusterResult.xml 运行结果文件
│
├───Win7下C接口
│ Example.cpp Win7下示例程序
│ LJCluster.h
│ cluster.user
│ LJCluster.dll
│ LJCluster.lib Win7下Lib库
│ License.dll
│ Win7CExample.exe Win7下示例程序生成的可执行文件
│ Dict.pdat
│ Dict.wordlist
│ stop.ung
│ userfilterword.txt
│ ClusterResult.xml
│
├───Windows下C#接口
│ Example.cs Windows下示例程序
│ LJCluster.h
│ cluster.user
│ LJCluster.dll Windows下动态链接库
│ License.dll Windows下动态链接库
│ WinCSharpExample.exe Windows下示例程序生成的可执行文件
│ Dict.pdat
│ Dict.wordlist
│ stop.ung
│ userfilterword.txt
│ ClusterResult.xml
│
├───Windows下C接口
│ Example.cpp Windows下示例程序
│ LJCluster.h
│ cluster.user
│ LJCluster.dll
│ LJCluster.lib Windows下Lib库
│ License.dll
│ WinCExample.exe Windows下示例程序生成的可执行文件
│ Dict.pdat
│ Dict.wordlist
│ stop.ung
│ userfilterword.txt
│ ClusterResult.xml
│
├───Java接口
│ LJCluster为大数据量运算,建议不直接用Java语言进行调用.txt
│
├───商用授权程序
│ ├───Linux
│ │ lingjoin.user
│ │ License
│ │ license32
│ │ Readme.txt
│ │
│ └───Win
│ lingjoin.user
│ License.dll
│ License09Soft.exe
│
├───TestCorpus
│ txt类型的测试数据,可自行换成自己的测试数据
│
└───文档
LJParser接口文档.doc
两步操作就可以使用LJCluster
1.选择您需要的API形式,主要由您的开发环境和操作系统来定,比如你选择了Windows下的C调用,则您需要选择Windows下的C接口;
2.将相应文件夹内容编译执行即可。
LJCluster SDK 下载:http://www.lingjoin.com/download/LJCluster_SDK_20111001.rar
LJParser下载地址:http://www.lingjoin.com/download/LJParser.rar
灵玖中科软件官方微博:http://weibo.com/lingjoin

浙公网安备 33010602011771号