lingjoin

导航

文本聚类

         文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。灵玖中科软件(LING-JOIN)基于核心特征发现技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。

LJCluster的三大特点:

1.综合性能最优
  聚类系统能否达到实用性要求主要取决于两个因素:聚类精度与聚类速度,这两者相互制约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。我们研制出了核心语义特征发现技术,在高速度与高精度之间取得了重大突破,该技术可以在保证高精度的前提下,处理时间随着处理数据量保持亚线性增长,而不是传统方法的指数级增长。基于该技术,在百万级文档数量下,LJCluster速度单机1000篇/秒,处理精度85%以上,是当前最好的汉语自动聚类系统。
2.接口简单易用
  作为典型的服务器应用程序,大多数聚类系统跟业务系统过于紧耦合,造成系统优化升级困难。LJCluster接口独立,模块化强,简单易用,可以很轻松地在业务系统中加入聚类功能。
3.全方位支持各种环境下的应用开发
  LJCluster全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#等多种开发语言。 

文件包介绍
LJCluster_SDK

├───Linux32位下C接口:
│   │   Example.cpp                    Linux下示例程序
│   │   LJCluster.h                       Linux下调用的头文件
│   │   cluster.user                      使用许可文件
│   │   libLJCluster.a                   Linux32下调用的库文件
│   │   Makefile                            Linux32下示例程序编译使用的Makefile
│   │   LinuxCExample               Linux32下示例程序生成的可执行文件
│   │   Dict.pdat                          字典文件
│   │   Dict.wordlist                    字典文件
│   │   stop.ung                           字典文件
│   │   userfilterword.txt               用户自定义的干扰词配置文件
│   │
│   └───so库                             Linux32下调用的动态库文件
│           libLJCluster.so
│           调用方法.txt

├───Linux64下C接口
│   │   Example.cpp  
│   │   LJCluster.h  
│   │   cluster.user  
│   │   libLJCluster.a                    Linux64下调用的库文件
│   │   Makefile                             Linux64下示例程序编译使用的Makefile
│   │   LinuxCExample                 Linux64下示例程序生成的可执行文件
│   │   Dict.pdat  
│   │   Dict.wordlist  
│   │   stop.ung  
│   │   userfilterword.txt 
│   │
│   └───so库                             Linux64下调用的动态库文件
│           libLJCluster.so
│           调用方法.txt│

├───Win7下C#接口
│       Example.cs                        Win7下示例程序
│       LJCluster.h  
│       cluster.user  
│       LJCluster.dll                      Win7下动态链接库
│       License.dll                         Win7下动态链接库
│       Win7CSharpExample.exe    Win7下示例程序生成的可执行文件
│       Dict.pdat  
│       Dict.wordlist  
│       stop.ung  
│       userfilterword.txt
│       ClusterResult.xml             运行结果文件 

├───Win7下C接口
│       Example.cpp                    Win7下示例程序
│       LJCluster.h  
│       cluster.user  
│       LJCluster.dll  
│       LJCluster.lib                    Win7下Lib库
│       License.dll  
│       Win7CExample.exe        Win7下示例程序生成的可执行文件
│       Dict.pdat  
│       Dict.wordlist  
│       stop.ung  
│       userfilterword.txt
│       ClusterResult.xml 

├───Windows下C#接口
│       Example.cs                     Windows下示例程序
│       LJCluster.h  
│       cluster.user  
│       LJCluster.dll                   Windows下动态链接库
│       License.dll                     Windows下动态链接库
│       WinCSharpExample.exe    Windows下示例程序生成的可执行文件
│       Dict.pdat  
│       Dict.wordlist  
│       stop.ung  
│       userfilterword.txt
│       ClusterResult.xml 

├───Windows下C接口
│       Example.cpp                      Windows下示例程序
│       LJCluster.h  
│       cluster.user  
│       LJCluster.dll  
│       LJCluster.lib                       Windows下Lib库
│       License.dll  
│       WinCExample.exe            Windows下示例程序生成的可执行文件
│       Dict.pdat  
│       Dict.wordlist  
│       stop.ung  
│       userfilterword.txt
│       ClusterResult.xml

├───Java接口
│       LJCluster为大数据量运算,建议不直接用Java语言进行调用.txt

├───商用授权程序
│   ├───Linux
│   │       lingjoin.user
│   │       License
│   │       license32
│   │       Readme.txt
│   │
│   └───Win
│           lingjoin.user
│           License.dll
│           License09Soft.exe

├───TestCorpus
│      txt类型的测试数据,可自行换成自己的测试数据

└───文档
        LJParser接口文档.doc       

两步操作就可以使用LJCluster

1.选择您需要的API形式,主要由您的开发环境和操作系统来定,比如你选择了Windows下的C调用,则您需要选择Windows下的C接口;
2.将相应文件夹内容编译执行即可。

LJCluster SDK 下载:http://www.lingjoin.com/download/LJCluster_SDK_20111001.rar

LJParser下载地址:http://www.lingjoin.com/download/LJParser.rar

灵玖中科软件官方微博:http://weibo.com/lingjoin

posted on 2011-09-27 14:31  lingjoin  阅读(430)  评论(0)    收藏  举报