将短信与数千个正则表达式进行高效匹配

2018-06-26 17:54:27

我正在解决一个问题，那就是我的文本消息与成千上万的表单正则表达式匹配

<some string> {0 or 300 chars} <some string> {0 or 300 chars}

例如

"on"[ tr]*(.){0,300}"."[ tr]*(.){0,300}"from"

或者一个真实的例子可以

"Dear"[ tr]*"Customer,"[ tr]*"Your"[ tr]*"package"[ tr]*(.){0,80}[ tr]*"is"[ tr]*"out"[ tr]*"for"[ tr]*"delivery"[ tr]*"via"(.){0,80}[ tr]*"Courier,"[ tr]*(.){0,80}[ tr]*"on"(.){0,80}"."[ tr]*"Delivery"[ tr]*"will"[ tr]*"be"[ tr]*"attempted"[ tr]*"in"[ tr]*"5"[ tr]*"wkg"[ tr]*"days."

首先我使用Java的正则表达式引擎。我一次将输入字符串与一个正则表达式匹配。这个过程太慢了。我发现Java的正则表达式引擎将正则表达式编译成NFA（非确定性有限自动机），由于灾难性的回溯，它可能变慢。因此，我想使用flex-lexer将正则表达式转换为DFA（确定性有限自动机），以便将数百个正则表达式编译成一个DFA，从而得到O（n）中的匹配结果，n是输入字符串的长度。但由于正则表达式中的固定重复计数，flex将永久编译，请参阅此处。

可能是我做的一切都错了。有没有更好的方法来做到这一点？我能想到的一种方法是将固定重复次数转换为无限次重复（星形算符），如下所示

"on"[ tr]*(.)*"."[ tr]*(.)*"from"

这个正则表达式编译没有问题，只需要几毫秒。如果输入字符串与此规则匹配，我知道输入字符串中存在来自规则("on", "." and "from")常量字符串。现在iff flex支持正则表达式的命名组，我可以简单地计算这些组中的字符数并验证，但flex不是为此目的而设计的。

问题 - 有什么办法可以有效解决这个问题吗？

问题是正则表达式的其他部分是(.){0,80} ：

"Dear"[ tr]*"Customer,"[ tr]*"Your"[ tr]*"package"[ tr]*
(.){0,80}
[ tr]*"is"[ tr]*"out"[ tr]*"for"[ tr]*"delivery"[ tr]*"via"
(.){0,80}
[ tr]*"Courier,"[ tr]*
(.){0,80}
[ tr]*"on"
(.){0,80}"."
[ tr]*"Delivery"[ tr]*"will"[ tr]*"be"[ tr]*"attempted"[ tr]*"in"[ tr]*"5"[ tr]*"wkg"[ tr]*"days."

正则表达式很慢，当下一个单词在最后一个单词后没有正好出现80个字符时。它需要回头看看79是否可行。或78.或77 ...这不是全部或没有，（你似乎相信它是; 80或0个字符将是.{80}? ）。

引擎只是更加优化来处理.*因为它更常见

根据字符串中的内容，您可能可以通过懒惰获得更好的效果.{0,80}? 。但这不是一个好的解决方案。

我认为这里的答案是使用多个正则表达式。

您可以找到匹配发生的索引，然后比较比较它以查看它是在第一次匹配前的短语之前还是之后。

它可以在多个区域中匹配更复杂的事物，而且每场比赛所需的距离不超过x个字符。在这种情况下，你只需要收集多个匹配并稍微改变数学。

链接地址: http://www.djcxy.com/p/74801.html

上一篇: Efficient matching of text messages against thousands of regular expressions

下一篇: Regex ranges and groups to DFA implemented as table