华为机试52-计算字符串的距离(难)

题目描述
Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。
许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

输入描述:
输入两个字符串

输出描述:
得到计算结果

示例1
输入
abcdefg
abcdef
输出
1

 

参考:

动态规划(https://www.jianshu.com/p/9a53f32cf62b)

将字符串batyu变为beauty,编辑距离是多少呢?这需要经过如下步骤:

1、batyu变为beatyu(插入字符e)

2、beatyu变为beaty(删除字符u)

3、beaty变为beauty(插入字符u)

所以编辑距离为3。

那么,如何用Python计算编辑距离呢?我们可以从较为简单的情况进行分析。

  • 当两个字符串都为空串,那么编辑距离为0;
  • 当其中一个字符串为空串时,那么编辑距离为另一个非空字符串的长度;
  • 当两个字符串均为非空时(长度分别为 i 和 j ),取以下三种情况最小值即可:
  • 1、长度分别为 i-1 和 j 的字符串的编辑距离已知,那么加1即可;
  • 2、长度分别为 i 和 j-1 的字符串的编辑距离已知,那么加1即可;
  • 3、长度分别为 i-1 和 j-1 的字符串的编辑距离已知,此时考虑两种情况,若第i个字符和第j个字符不同,那么加1即可;如果不同,那么不需要加1。

很明显,上述算法的思想即为动态规划

求长度为m和n的字符串的编辑距离,首先定义函数——edit(i, j),它表示第一个长度为i的字符串与第二个长度为j的字符串之间的编辑距离。动态规划表达式可以写为:

  • if i == 0 且 j == 0,edit(i, j) = 0
  • if (i == 0 且 j > 0 )或者 (i > 0 且j == 0),edit(i, j) = i + j
  • if i ≥ 1 且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + d(i, j) },当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,d(i, j) = 1;否则,d(i, j) = 0。

最终的编辑距离即为edit(m,n)。上述示例的edit矩阵可以表示如下:

 

def editDistance(str1, str2):
    len1, len2 = len(str1) + 1, len(str2) + 1
    dp = [[0 for i in range(len2)] for j in range(len1)]
    for i in range(len1):
        dp[i][0] = i
    for j in range(len2):
        dp[0][j] = j
    for i in range(1, len1):
        for j in range(1, len2):
            dp[i][j] = min(dp[i - 1][j] + 1, dp[i][j - 1] + 1, dp[i - 1][j - 1] + (str1[i - 1] != str2[j - 1]))
    return dp[-1][-1]

while True:
    try:
        print(editDistance(input(), input()))
    except:
        break

执行结果: 答案正确:恭喜!您提交的程序通过了所有的测试用例 用例通过率: 100.00% 运行时间: 59ms 占用内存: 4084KB

https://www.jianshu.com/p/9a53f32cf62b

posted @ 2020-09-02 11:00  Andy_George  阅读(268)  评论(0编辑  收藏  举报