浙江省高等学校教师教育理论培训

微信搜索“毛凌志岗前心得”小程序

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 358 359 360 361 362 363 364 365 366 ··· 630 下一页

2012年5月16日

摘要: sporritt/jsPlumbjsPlumb jsPlumb provides a means for a developer to visually connect elements on their web pages. It uses SVG or Canvas in modern browsers, and VML on IE 8 and below. The latest versio... 阅读全文
posted @ 2012-05-16 22:43 lexus 阅读(361) 评论(0) 推荐(0)

摘要: 让你的博客支持MetaWeblog离线发布_维护记录 - 站点功能_DangJian's Blog让你的博客支持MetaWeblog离线发布日期:2011/4/5 23:31:09字体大小:小中大分享到:现在流行的博客网站都支持Metaweblog API,容许用户使用各种客户端直接发布博客到网站。几个月前,下载了Windows Live Writer,并尝试了使用这个软件编写和发布我的技术博客到... 阅读全文
posted @ 2012-05-16 22:42 lexus 阅读(186) 评论(0) 推荐(0)

摘要: 基于Web开发模式的信息抽取分类:4.产品研究/点评/创意1.自然语言处理/机器学习2010-12-27 17:32571人阅读评论(0)收藏举报基于Web开发模式的信息抽取李海波2010-12-27说明:转载请注明作者和出处;未经许可,不得在平面媒体上发表。这是本人在信息抽取方面的一些心得和总结,希望对于有志于互联网Web信息抽取的朋友一点启发,有任何问题可以发邮件给我或者加我msn一起讨论。信... 阅读全文
posted @ 2012-05-16 22:41 lexus 阅读(306) 评论(0) 推荐(1)

摘要: The Easy Way to Extract Useful Text from Arbitrary HTMLBy alexjc| April 5, 2007You’ve finally got your hands on the diverse collection of HTML documents you needed. But the content you’re interested i... 阅读全文
posted @ 2012-05-16 22:40 lexus 阅读(258) 评论(0) 推荐(0)

摘要: http://guangfeng.blogspot.com/2010/05/eventlet.html并发编程利器EventletEventlet是由第二人生(Secondlife)开源的高度伸缩性的Python网络编程库.根据官方介绍大致特性如下:非阻塞I/O模型协程(Coroutines)使得开发者可以采用阻塞式的开发风格,却能够实现非阻塞I/O的效果隐式事件调度,使得可以在Python解释器... 阅读全文
posted @ 2012-05-16 22:26 lexus 阅读(944) 评论(0) 推荐(0)

摘要: http://guangfeng.blogspot.com/2010/01/awk.html使用awk处理网站访问日志[上]对于一个程序来说,Loging是一件非常有利的武器,其可以帮助程序员快速的找到BUG,分析性能瓶颈等等...甚至还可以在技术社区彰显一番代码的华丽,实乃死coder居家旅行必备之宝.而网站访问日志除了对开发者有修改缺陷,提升功力之良效以外,对待运营人员,也是分析用户行为的第一... 阅读全文
posted @ 2012-05-16 22:24 lexus 阅读(446) 评论(0) 推荐(0)

摘要: http://guangfeng.blogspot.com/2009/11/blog-post_28.html也谈网页正文提取[上]看到这里,如果有看官不知道啥叫正文提取,那我只能说,大哥我真的没有忽悠您,我既没说"网页去噪",也没说互联网的"自动摘要",更没说海量互联网数据的"文本挖掘"。由此可见本博是个很厚道的人,会手把手教你如何完成这个看起来牛逼实则很简单的一件事情,绝对让你感到物超所值(阅... 阅读全文
posted @ 2012-05-16 22:21 lexus 阅读(427) 评论(0) 推荐(0)

摘要: 如果是做正文抽取的话,想要做到很精准的效果是难的(尤其是准确剔除掉正文周边内容),尤其是来自一些不正规的站点网页。我能找到的相关开源产品有:boilerpipe、goose、jReadability、roadrunner(这个是抽模版的),还有一个忘记名字了,他们的效果都算不上太好(对正规的新闻站点会好些)。我自己实现了一个正文抽取的程序(也是很复杂的说,就别要代码了,暂时没有开源计划),可供测试... 阅读全文
posted @ 2012-05-16 22:20 lexus 阅读(350) 评论(0) 推荐(0)

摘要: 如果是做正文抽取的话,想要做到很精准的效果是难的(尤其是准确剔除掉正文周边内容),尤其是来自一些不正规的站点网页。我能找到的相关开源产品有:boilerpipe、goose、jReadability、roadrunner(这个是抽模版的),还有一个忘记名字了,他们的效果都算不上太好(对正规的新闻站点会好些)。我自己实现了一个正文抽取的程序(也是很复杂的说,就别要代码了,暂时没有开源计划),可供测试... 阅读全文
posted @ 2012-05-16 22:12 lexus 阅读(245) 评论(0) 推荐(0)

摘要: 携梦远行 » curl 抓取跳转内容curl 抓取跳转内容December 7th, 2011陈毓端Leave a commentGo to comments同事在用curl抓取图片时遇到nginx rewrite redirect 跳转,这时 curl -o a/xx.png http://xxx.xxx.com/190/180/ 无法抓取跳转后的内容。正确的做法, 添加-L:curl -o a... 阅读全文
posted @ 2012-05-16 21:10 lexus 阅读(308) 评论(0) 推荐(0)

摘要: http://www.basesnet.com/seo/53从HTML文件中提取正文的简单方案2012-03-07/SEO/HTML文件,提取正文,简单方案/1多种基于html正文提取的思想一、基于统计的中文网页正文抽取的研究摘要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,... 阅读全文
posted @ 2012-05-16 21:09 lexus 阅读(4562) 评论(0) 推荐(0)

摘要: 这是Joysearch的网页解析基础部件。JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。我们的第二个发布版本,0.20系列这个版本中,我们添加了关键词提取的功能,并且最终实现了一个文档分析模型,便于实现不同的文档分析算法。为接下来的信息检索,信息抽取工作打好基础。我们接下来的工作将集中于更加具体的信息抽取工作。如果您对HT... 阅读全文
posted @ 2012-05-16 18:08 lexus 阅读(401) 评论(0) 推荐(0)

摘要: 本工具包将一些常用的网页分类不同语言的相关开源软件,如ictclas,BeautifulSoup,libsvm等进行封装组合,以方便用python进行网页分类相关程序的开发。# uitl:一些常用的开源软件包 ## ictclas:中文分词,包含词频统计,关键词提取,指纹提取等功能。不同的机器上使用,需要重新编译。## ictclas.py:我对ictclas的python封装(其实就是简单的用p... 阅读全文
posted @ 2012-05-16 18:06 lexus 阅读(568) 评论(0) 推荐(0)

摘要: ANSI colored Python logging — Gistimport loggingfrom termcolor import coloredclass ColorLog(object):colormap = dict(debug=dict(color='grey', attrs=['bold']),info=dict(color='white'),warn=dict(color='y... 阅读全文
posted @ 2012-05-16 17:41 lexus 阅读(485) 评论(0) 推荐(0)

摘要: Plumber Jack: Colourising logging output in terminalsWednesday, 29 December 2010Colourising logging output in terminalsA nice-to-have feature when logging to terminals is to have the output colourised... 阅读全文
posted @ 2012-05-16 16:17 lexus 阅读(349) 评论(0) 推荐(0)

摘要: Setting Django/MySQL site to use UTF-8 - Stack OverflowAll I had to do was put this insettings.py:'OPTIONS': { 'init_command': 'SET storage_engine=INNODB' }Then I created the database myself in MySQL ... 阅读全文
posted @ 2012-05-16 16:14 lexus 阅读(303) 评论(0) 推荐(0)

摘要: CharField cannot have a "max_length" greater than 255 when using "unique=True" - Google Groupsfor my needs i will patch django/db/backends/mysql/validation.py producing my own locally used django rpm ... 阅读全文
posted @ 2012-05-16 15:54 lexus 阅读(310) 评论(0) 推荐(0)

摘要: aino/django-stringfielddjango-stringfieldA field intended for strings that typically has a length less than 500 characters. django-stringfield tries to not to enforce length on database level if poss... 阅读全文
posted @ 2012-05-16 15:51 lexus 阅读(371) 评论(0) 推荐(0)

摘要: Fabulous — fabulous v0.1.5 documentationFabulous¶ Version:0.2Copyright:Copyright (c) 2010 J.A. Roberts TunneyInstallation¶Run the following commands:sudo apt-get install gcc python-imaging python-s... 阅读全文
posted @ 2012-05-16 15:25 lexus 阅读(283) 评论(0) 推荐(0)

摘要: PLEASE REMEMBER TO SET A PASSWORD FOR THE MySQL root USER !To do so, start the server, then issue the following commands:/usr/bin/mysqladmin -u root password 'new-password'/usr/bin/mysqladmin -u root ... 阅读全文
posted @ 2012-05-16 14:16 lexus 阅读(231) 评论(0) 推荐(0)

上一页 1 ··· 358 359 360 361 362 363 364 365 366 ··· 630 下一页