02 2011 档案

css parsing中词法的RegEx(python)
摘要: W3C网站上的有点小bug,而且他们写的正则是FLEX一类的,和自己手写时不太一样。瞎改了一下,贴这,谁用得着谁拿去,有问题请通知作者更新。虽然是python的,其实现在这些RegEx都是perl风格的,应该能通用。除了做词法,这些定义也可以这么用:如果是找找特定字串,从这里选取一部分改吧改吧就好了;或者在这堆天书里看看有啥用法是咱不知道的?(?:..)的意思是不建立capturing group,不知道别的运行时是不是这么定义的;字串前面的r意思是不用转义字符,.NET里好像是@?已然忘了。另外,W3C的词法分析配置是忽略大小写,不忽略空白:别忘了后代选择器是基于空白的。另外,w3c的没有.阅读全文

posted @ 2011-02-23 20:49 怪怪 阅读(370) | 评论 (1) 编辑

终于合一起了...
摘要: 一直打算找个时间把Earley算法的框架整合到我的parse算法上,感觉能够得到一个更好的思路。这两天水到渠成的把这件事做了。说的挺轻松呵呵,当初折腾自己的算法的时候,和第一次接触Earley算法把它做对的时候,都下了些功夫;尤其是前者。而且一直没有融合,也不完全是没有时间,而是思路没理顺。跟Earley Parser比,有更小的空间占用和更简单的步骤,因为Earley的从根本上可以说是一种Chart Parser,所以难免有些多余的格子和操作。好像它上面的研究者都没想着应该换个思路。跟我自己最初的算法比,那个基本上是从NFA Simulation上硬生生长出来的,过小的起点基础根本承受不住我阅读全文

posted @ 2011-02-08 16:19 怪怪 阅读(384) | 评论 (10) 编辑

关于Earley第二篇论文给的建立parse tree的算法的bug
摘要: 今天检查自己的算法,发现有个以前写的注释问是不是有错,印象里这个问题已经解决了啊,原来Tomita的论文还不知道放哪儿去了,妈的。查了一下,看见这个:> I pulled the following message from the website text search. I find it> hard to follow the example in the message though, and wonder if anyone> can further explain why Earley's parsing extension to his recognizer> algorithm阅读全文

posted @ 2011-02-06 01:54 怪怪 阅读(457) | 评论 (16) 编辑