浙江省高等学校教师教育理论培训

微信搜索“毛凌志岗前心得”小程序

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2012年5月16日

摘要: Text Mining Projects Introduction - WisdomBaseText Mining Projects IntroductionCurrent projects of Leon lee:PageRank Algorithm research and development; Phrase Recognizer , BodyText Extractor ===> Wik... 阅读全文
posted @ 2012-05-16 23:28 lexus 阅读(307) 评论(0) 推荐(0)

摘要: Text Mining Projects Introduction - WisdomBaseText Mining Projects IntroductionCurrent projects of Leon lee:PageRank Algorithm research and development; Phrase Recognizer , BodyText Extractor ===> Wik... 阅读全文
posted @ 2012-05-16 23:28 lexus 阅读(277) 评论(0) 推荐(0)

摘要: http://code.google.com/p/cx-extractor/对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将... 阅读全文
posted @ 2012-05-16 23:26 lexus 阅读(791) 评论(0) 推荐(0)

摘要: http://cnborn.net/blog/另一个话题是ThoughtWorks徐昊带来的《8小时用HTML5打造VNCViewer》。这个分享非常精彩,其实现过程中的思考方式、使用的新技术都让人有醍醐灌顶的感觉。以下的记录由现场的笔记总结而来,比较粗略,难免有失误,还望大家指正。http://cnborn.net/blog/由于HTML5具备Canvas, WebSocket,所以萌生了使用H... 阅读全文
posted @ 2012-05-16 23:17 lexus 阅读(4447) 评论(1) 推荐(1)

摘要: 爬虫点滴http://www.beijing-open-party.org/topic/49tin于“2010年12月19日”创建了这个话题,计划在“2010年11月27日”的“琴瑟和鸣”活动中演讲分享到总结这“不务正业”的半年。爬虫是很多搜索引擎的一部分,它的名声并不好。比起搜索引擎的分词技术、索引技术来说它很基础,似乎没有那么多花样,被认为是没啥意思的脏活累活。我在这里就分享一下爬虫这个不起眼... 阅读全文
posted @ 2012-05-16 23:11 lexus 阅读(537) 评论(0) 推荐(0)

摘要: MyProject / FuzzyPages | Elias的个人主页Fuzzy Pages我使用本脚本处理httrack程序下载的phpbb2论坛页面,对下载页面中的冗余部分进行去除和合并,以达到减小文件大小,以供存储的目的。原理是:如果两个html页面十分相似(用diff检查的差别小于定义的最大差别),那么删除其中的一个,将其余文件中指向被删除文件的链接改为指向与之相似的文件。具体实现看代码好... 阅读全文
posted @ 2012-05-16 23:05 lexus 阅读(234) 评论(0) 推荐(0)

摘要: sporritt/jsPlumbjsPlumb jsPlumb provides a means for a developer to visually connect elements on their web pages. It uses SVG or Canvas in modern browsers, and VML on IE 8 and below. The latest versio... 阅读全文
posted @ 2012-05-16 22:43 lexus 阅读(364) 评论(0) 推荐(0)

摘要: 让你的博客支持MetaWeblog离线发布_维护记录 - 站点功能_DangJian's Blog让你的博客支持MetaWeblog离线发布日期:2011/4/5 23:31:09字体大小:小中大分享到:现在流行的博客网站都支持Metaweblog API,容许用户使用各种客户端直接发布博客到网站。几个月前,下载了Windows Live Writer,并尝试了使用这个软件编写和发布我的技术博客到... 阅读全文
posted @ 2012-05-16 22:42 lexus 阅读(186) 评论(0) 推荐(0)

摘要: 基于Web开发模式的信息抽取分类:4.产品研究/点评/创意1.自然语言处理/机器学习2010-12-27 17:32571人阅读评论(0)收藏举报基于Web开发模式的信息抽取李海波2010-12-27说明:转载请注明作者和出处;未经许可,不得在平面媒体上发表。这是本人在信息抽取方面的一些心得和总结,希望对于有志于互联网Web信息抽取的朋友一点启发,有任何问题可以发邮件给我或者加我msn一起讨论。信... 阅读全文
posted @ 2012-05-16 22:41 lexus 阅读(308) 评论(0) 推荐(1)

摘要: The Easy Way to Extract Useful Text from Arbitrary HTMLBy alexjc| April 5, 2007You’ve finally got your hands on the diverse collection of HTML documents you needed. But the content you’re interested i... 阅读全文
posted @ 2012-05-16 22:40 lexus 阅读(261) 评论(0) 推荐(0)

摘要: http://guangfeng.blogspot.com/2010/05/eventlet.html并发编程利器EventletEventlet是由第二人生(Secondlife)开源的高度伸缩性的Python网络编程库.根据官方介绍大致特性如下:非阻塞I/O模型协程(Coroutines)使得开发者可以采用阻塞式的开发风格,却能够实现非阻塞I/O的效果隐式事件调度,使得可以在Python解释器... 阅读全文
posted @ 2012-05-16 22:26 lexus 阅读(954) 评论(0) 推荐(0)

摘要: http://guangfeng.blogspot.com/2010/01/awk.html使用awk处理网站访问日志[上]对于一个程序来说,Loging是一件非常有利的武器,其可以帮助程序员快速的找到BUG,分析性能瓶颈等等...甚至还可以在技术社区彰显一番代码的华丽,实乃死coder居家旅行必备之宝.而网站访问日志除了对开发者有修改缺陷,提升功力之良效以外,对待运营人员,也是分析用户行为的第一... 阅读全文
posted @ 2012-05-16 22:24 lexus 阅读(446) 评论(0) 推荐(0)

摘要: http://guangfeng.blogspot.com/2009/11/blog-post_28.html也谈网页正文提取[上]看到这里,如果有看官不知道啥叫正文提取,那我只能说,大哥我真的没有忽悠您,我既没说"网页去噪",也没说互联网的"自动摘要",更没说海量互联网数据的"文本挖掘"。由此可见本博是个很厚道的人,会手把手教你如何完成这个看起来牛逼实则很简单的一件事情,绝对让你感到物超所值(阅... 阅读全文
posted @ 2012-05-16 22:21 lexus 阅读(433) 评论(0) 推荐(0)

摘要: 如果是做正文抽取的话,想要做到很精准的效果是难的(尤其是准确剔除掉正文周边内容),尤其是来自一些不正规的站点网页。我能找到的相关开源产品有:boilerpipe、goose、jReadability、roadrunner(这个是抽模版的),还有一个忘记名字了,他们的效果都算不上太好(对正规的新闻站点会好些)。我自己实现了一个正文抽取的程序(也是很复杂的说,就别要代码了,暂时没有开源计划),可供测试... 阅读全文
posted @ 2012-05-16 22:20 lexus 阅读(352) 评论(0) 推荐(0)

摘要: 如果是做正文抽取的话,想要做到很精准的效果是难的(尤其是准确剔除掉正文周边内容),尤其是来自一些不正规的站点网页。我能找到的相关开源产品有:boilerpipe、goose、jReadability、roadrunner(这个是抽模版的),还有一个忘记名字了,他们的效果都算不上太好(对正规的新闻站点会好些)。我自己实现了一个正文抽取的程序(也是很复杂的说,就别要代码了,暂时没有开源计划),可供测试... 阅读全文
posted @ 2012-05-16 22:12 lexus 阅读(256) 评论(0) 推荐(0)

摘要: 携梦远行 » curl 抓取跳转内容curl 抓取跳转内容December 7th, 2011陈毓端Leave a commentGo to comments同事在用curl抓取图片时遇到nginx rewrite redirect 跳转,这时 curl -o a/xx.png http://xxx.xxx.com/190/180/ 无法抓取跳转后的内容。正确的做法, 添加-L:curl -o a... 阅读全文
posted @ 2012-05-16 21:10 lexus 阅读(310) 评论(0) 推荐(0)

摘要: http://www.basesnet.com/seo/53从HTML文件中提取正文的简单方案2012-03-07/SEO/HTML文件,提取正文,简单方案/1多种基于html正文提取的思想一、基于统计的中文网页正文抽取的研究摘要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,... 阅读全文
posted @ 2012-05-16 21:09 lexus 阅读(4573) 评论(0) 推荐(0)

摘要: 这是Joysearch的网页解析基础部件。JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。我们的第二个发布版本,0.20系列这个版本中,我们添加了关键词提取的功能,并且最终实现了一个文档分析模型,便于实现不同的文档分析算法。为接下来的信息检索,信息抽取工作打好基础。我们接下来的工作将集中于更加具体的信息抽取工作。如果您对HT... 阅读全文
posted @ 2012-05-16 18:08 lexus 阅读(402) 评论(0) 推荐(0)

摘要: 本工具包将一些常用的网页分类不同语言的相关开源软件,如ictclas,BeautifulSoup,libsvm等进行封装组合,以方便用python进行网页分类相关程序的开发。# uitl:一些常用的开源软件包 ## ictclas:中文分词,包含词频统计,关键词提取,指纹提取等功能。不同的机器上使用,需要重新编译。## ictclas.py:我对ictclas的python封装(其实就是简单的用p... 阅读全文
posted @ 2012-05-16 18:06 lexus 阅读(569) 评论(0) 推荐(0)

摘要: ANSI colored Python logging — Gistimport loggingfrom termcolor import coloredclass ColorLog(object):colormap = dict(debug=dict(color='grey', attrs=['bold']),info=dict(color='white'),warn=dict(color='y... 阅读全文
posted @ 2012-05-16 17:41 lexus 阅读(488) 评论(0) 推荐(0)

摘要: Plumber Jack: Colourising logging output in terminalsWednesday, 29 December 2010Colourising logging output in terminalsA nice-to-have feature when logging to terminals is to have the output colourised... 阅读全文
posted @ 2012-05-16 16:17 lexus 阅读(353) 评论(0) 推荐(0)

摘要: Setting Django/MySQL site to use UTF-8 - Stack OverflowAll I had to do was put this insettings.py:'OPTIONS': { 'init_command': 'SET storage_engine=INNODB' }Then I created the database myself in MySQL ... 阅读全文
posted @ 2012-05-16 16:14 lexus 阅读(304) 评论(0) 推荐(0)

摘要: CharField cannot have a "max_length" greater than 255 when using "unique=True" - Google Groupsfor my needs i will patch django/db/backends/mysql/validation.py producing my own locally used django rpm ... 阅读全文
posted @ 2012-05-16 15:54 lexus 阅读(311) 评论(0) 推荐(0)

摘要: aino/django-stringfielddjango-stringfieldA field intended for strings that typically has a length less than 500 characters. django-stringfield tries to not to enforce length on database level if poss... 阅读全文
posted @ 2012-05-16 15:51 lexus 阅读(376) 评论(0) 推荐(0)

摘要: Fabulous — fabulous v0.1.5 documentationFabulous¶ Version:0.2Copyright:Copyright (c) 2010 J.A. Roberts TunneyInstallation¶Run the following commands:sudo apt-get install gcc python-imaging python-s... 阅读全文
posted @ 2012-05-16 15:25 lexus 阅读(283) 评论(0) 推荐(0)

摘要: PLEASE REMEMBER TO SET A PASSWORD FOR THE MySQL root USER !To do so, start the server, then issue the following commands:/usr/bin/mysqladmin -u root password 'new-password'/usr/bin/mysqladmin -u root ... 阅读全文
posted @ 2012-05-16 14:16 lexus 阅读(235) 评论(0) 推荐(0)

摘要: Python自然语言处理学习笔记(41):5.2 标注语料库5.2Tagged Corpora 标注语料库Representing Tagged Tokens 表示标注的语言符号By convention in NLTK, a tagged token is represented using a tuple consisting of the token and the tag. We can ... 阅读全文
posted @ 2012-05-16 13:24 lexus 阅读(803) 评论(0) 推荐(0)

摘要: Python自然语言处理学习笔记(64): 7.5 命名实体识别7.5Named Entity Recognition命名实体识别At the start of this chapter, we briefly introduced named entities (NEs). Named entities are definite(确定的)noun phrases that refer to sp... 阅读全文
posted @ 2012-05-16 13:22 lexus 阅读(649) 评论(0) 推荐(0)

摘要: 让tar解压到指定文件夹 » Xeno Joshua | Xeno Joshua让tar解压到指定文件夹 Linux 2011-04-27 by Jonathan Dai tar命令默认会将压缩包的内容解压到当前文件夹,不过如果压缩包里面没有包一个文件夹的话,后果可能是毁灭性的。所以,我们有必要在某些时候给tar解压命令添加一个目标地点。tar zxf compress.tar.gz -C /ta... 阅读全文
posted @ 2012-05-16 13:13 lexus 阅读(331) 评论(0) 推荐(0)

摘要: Linux下java线程分析?修改在生产环境(Linux)有什么办法知道当前某个线程的运行情况,比如是不是挂住了,是不是吃了好多cpu和内存。谢谢修改添加评论·修改记录·举报问题按投票排序|按时间排序|只显示我关注的人3 个答案+-李力,JAVA开发个人觉得:在不添加代码的情况下,一个简单的做法就是打开JVM的堆存储快照,看看应用创建有哪些线程,那些地方占用了内存等等信息...2012-05-15... 阅读全文
posted @ 2012-05-16 11:24 lexus 阅读(627) 评论(0) 推荐(0)

摘要: God - A Process Monitoring Framework in RubyA Better Way to MonitorGod is an easy to configure, easy to extend monitoring framework written in Ruby.Keeping your server processes and tasks running shou... 阅读全文
posted @ 2012-05-16 10:48 lexus 阅读(258) 评论(0) 推荐(0)

摘要: Python library for Linux process management - Stack Overflow7 down vote acceptedTo start/stop python sub processes you can use the subprocess module. To check whether they are running you might use ps... 阅读全文
posted @ 2012-05-16 10:46 lexus 阅读(302) 评论(0) 推荐(0)

摘要: Beanstalkd 一个高性能分布式内存队列系统之前在微博上调查过大家正在使用的分布式内存队列系统,反馈有Memcacheq,Fqueue,RabbitMQ,Beanstalkd以及linkedin的kafka。RabbitMQ使用比较广泛,Beanstalkd是后起之秀。Beanstalkd之于RabbitMQ,就好比Nginx之于Apache,Varnish之于Squid。后面在项目中使用B... 阅读全文
posted @ 2012-05-16 09:38 lexus 阅读(335) 评论(0) 推荐(0)

摘要: 轻松搞定CentOS+Nginx+PHP+MySQL标准生产环境 - 厚燃涂想 - ITeye技术网站轻松搞定CentOS+Nginx+PHP+MySQL标准生产环境 PHP 5.3.1 MySQL 5.0.89 Nginx 0.8.33 或 0.7.65 (可选) 这个可比网上流传的什么一键安装包要好得多,强烈推荐此法安装,适合所有菜鸟和高手。我服务器上全用的源代码编译安装,也好不到哪 ..... 阅读全文
posted @ 2012-05-16 08:19 lexus 阅读(208) 评论(0) 推荐(0)

摘要: Lempelf一键包 | C1G军火库Lempelf一键包 Lempelf一键安装包 for rhel/centos 32/64bit Lempelf一键安装包是什么? ——————————————————————————– Lempelf一键安装包是用Shell编写的在Linux平台快速安装常用服务的Shell程序。 我们为什么需要它? ——————————————————————————–... 阅读全文
posted @ 2012-05-16 08:17 lexus 阅读(206) 评论(0) 推荐(0)

摘要: Cacti:网络流量监测工具 2008-08-26 MDZ Posted in Apps, Network, ToolsRSSTrackback Cacti 是一款基于 PHP 的网络流量监测工具,与 ntop 相比功能更强大。它通过 snmpget 获取数据,用 RRDtool 绘制图形。 使用 Cacti 需要 PHP、MySQL、snmp、rrdtool 等环境和工具。在安装... 阅读全文
posted @ 2012-05-16 08:09 lexus 阅读(222) 评论(0) 推荐(0)

摘要: 利用Gearman来实现远程监控与管理 – Tim[后端技术]balancer不知道好不好用 Robin says: Jan 8th 2010 at 12:03 Hi Tim,我正在尝试这种方案,不过发现向Job Server发送的指令只会在某一台Worker上去执行?并不会到所有的Worker上执行? Robin says: Jan 8th 2010 at 12:30 呃。看明白你的意思了,... 阅读全文
posted @ 2012-05-16 08:02 lexus 阅读(307) 评论(0) 推荐(0)

摘要: django-celery-email 1.0.3 : Python Package Indexdjango-celery-email 1.0.3 Django email backend for celery. Downloads ↓ A Django 1.2+ email backend that uses a Celery queue for out-of-band sending o... 阅读全文
posted @ 2012-05-16 07:57 lexus 阅读(247) 评论(0) 推荐(0)

摘要: Message Queues, Django and Celery Quick Start | mathematismMessage Queues, Django and Celery Quick Start Learning about, setting up and making use of a message queue can be an overwhelming experience.... 阅读全文
posted @ 2012-05-16 07:55 lexus 阅读(340) 评论(0) 推荐(0)

摘要: Check to see if python script is running - Stack OverflowCheck to see if python script is running up vote 8 down vote favorite 7 share [g+] share [fb] share [tw] I have a python daemon running as a pa... 阅读全文
posted @ 2012-05-16 07:34 lexus 阅读(473) 评论(0) 推荐(0)

摘要: 第五章:模型在这个例子里我们可以看到Django的save()方法更新了不仅仅是name列的值,还有更新了所有的列。 若name以外的列有可能会被其他的进程所改动的情况下,只更改name列显然是更加明智的。 更改某一指定的列,我们可以调用结果集(QuerySet)对象的update()方法: 示例如下: >>> Publisher.objects.filter(id=52).update(nam... 阅读全文
posted @ 2012-05-16 07:27 lexus 阅读(197) 评论(0) 推荐(0)

摘要: [nodejs]保证你的程序死了还能复活:forever and forever webuiforever A simple CLI tool for ensuring that a given script runs continuously (i.e. forever). 一个非常简单的CLI工具,让你的程序持续运行。 安装forever: https://github.com/nodej... 阅读全文
posted @ 2012-05-16 07:24 lexus 阅读(209) 评论(0) 推荐(0)

摘要: Linux监控命令 - forever - ITeye技术网站Linux监控命令 博客分类: Linux 查看CPU运行: mpstat -P ALL 2 5 查看内存情况: vmstat 查看CPU耗费进程情况:top 查看空闲的内存: free -m 开机时间: uptime 打印CPU信息: cat /proc/cpuinfo 打印内存信息: cat /proc/meminfo... 阅读全文
posted @ 2012-05-16 07:17 lexus 阅读(347) 评论(0) 推荐(0)

摘要: Django | Model field reference | Django documentationdb_index Field.db_index¶ If True, djadmin:django-admin.py sqlindexes will output a CREATE INDEX statement for this field. 阅读全文
posted @ 2012-05-16 07:10 lexus 阅读(245) 评论(0) 推荐(0)

摘要: 深入Django(2):自定义ORM - 心内求法 - 博客频道 - CSDN.NET2. 自定义索引 除了ID字段,其他字段默认不建立索引,可以通过字段的db_index属性自定义,如 publish_date= models.DateField(db_index=True) 阅读全文
posted @ 2012-05-16 07:09 lexus 阅读(240) 评论(0) 推荐(0)