找到最大的重复子字符串

这是我写的一个函数,它将需要一个非常长的文本文件。 如包含整个教科书的文本文件。 它会查找任何重复的子字符串并输出最大的字符串。 现在它不起作用,它只是输出我放入的字符串

例如,如果有整个句子重复的错字。 它会输出这个句子; 因为它是整个文件中最大的。 如果在输入整个段落两次时出现错字,则会输出该段落。

该算法采用第一个字符,查找任何匹配项,如果匹配并且长度最大,则存储子字符串。 然后它需要前2个字符并重复。 然后是前3个字符。 等等。然后它会重新开始,除了从第二个字符开始而不是第一个。 然后从第三个角色开始一直往回走。

def largest_substring(string):

  length = 0
  x,y=0,0

  for y in range(len(string)):        #start at string[0, ]
    for x in range(len(string)):      #start at string[ ,0]
     substring = string[y:x]          #substring is [0,0] first, then [0,1], then [0.2]... then [1,1] then [1,2] then [1,3]... then [2,2] then [2,3]... etc.
     if substring in string:          #if substring found and length is longest so far, save the substring and proceed.
      if len(substring) > length:
       match = substring
       length = len(substring)

我认为你的逻辑在这里是有缺陷的,因为它总是会返回整个字符串,因为它检查一个子字符串是否在整个字符串中总是为真,所以if substring in string将始终为真。 相反,您需要查找子字符串是否在整个字符串中多次出现,然后更新计数。

这是解决它的蛮力算法的例子: -

import re

def largest_substring(string):

    length = 0
    x=0
    y=0

    for y in range(len(string)):       
        for x in range(len(string)):     
            substring = string[y:x]                   
            if len(list(re.finditer(substring,string))) > 1  and len(substring) > length:
                match = substring
                length = len(substring)
    return match


print largest_substring("this is repeated is repeated is repeated")
链接地址: http://www.djcxy.com/p/70661.html

上一篇: Finding the largest repeating substring

下一篇: Find the dominant cyclic substring of a given string