阿C++ 2012-02-15 10:22
@liuwei0514
好东西!
阿C++ 2012-02-15 10:22
@alxc
我在做这些东西的过程中也遇到这个问题了,后来我用正则先处理了一遍,弄成没问题的XML格式,再用XML DOM作节点操作。
事实上,正则还是要配合起来用,呵呵。
liuwei0514 2012-02-14 21:13
HtmlAgilityPack
alxc 2012-02-14 12:15
如果网页不符合xml规定,怎么办?
使用正则表达式这种低级方式的人飘过。
阿C++ 2012-02-14 10:10
@Mobwiz
哇,真的呢,看到了。
写博客真是好啊,可能得到那么多人的指点,哈哈。
谢谢各位!
Mobwiz 2012-02-14 09:52
用 HtmlAgilityPack 吧,用XPath匹配,异常简单,做过一个新闻抓取,很方便
阿C++ 2012-02-14 09:49
@不戒大师
正则完全可以,可能只是我自己很害怕正则
阿C++ 2012-02-14 09:48
@pulihe
感谢,我去找来看看
阿C++ 2012-02-14 09:47
@小宇.net
这是一个好问题,我要去研究一下html,html是可以不写结束标记的
不戒大师 2012-02-13 22:03
简单正则就搞定了
pulihe 2012-02-13 21:03
用火车采集器搞,它可以自定义采集下来的内容如何POST到服务器。
这样搞几步就完成了,自己只需要做很少一点事情。
NetSQL 2012-02-13 20:41
以前做过类似的,不过我就是用的正则表达式匹配
小宇.net 2012-02-13 20:25
为什么正则会是灾难呢?
正则是处理字符最好的选择.
更何况是采集....
用xml?如果他们的html并不是xhtml呢?
Mainz 2011-10-02 10:20
这个实时提示需要分词相似度匹配算法,加带宽,加服务器才能这么流畅,博客园这三点都做不到,这个不是用户体验的问题,是技术问题, money问题了。
诺贝尔 2011-10-01 23:47
是的。
博客园要认真学习。
现在博客园完全是90年代的网页设计思想。
凌雪 2011-10-01 11:37
这个应该早就改了吧,我注册百度的时候就这样了,用了半年了,其中的漏洞还是蛮多的,刷分作弊的严重!
c#小菜菜xx10 2011-10-01 10:39
我没记错的话··新浪爱问``比``百度知道``早
大石头 2011-10-01 10:01
这是搜索智能呀!
zsea 2011-10-01 08:59
这事,我记得CSDN早就有了。
milotene 2011-09-30 16:56
@相随心
google香港服务器不稳定嘛,常事儿