Python 比较文本相似性的方法(difflib,Levenshtein)

时间：2021-05-22

最近工作需要用到序列匹配，检测相似性，不过有点复杂的是输入长度是不固定的，举例为：

input_and_output = [1, 2, '你好', 世界', 12.34, 45.6, -21, '中国', '美丽']

其中，需要从input_and_output 中选取不固定长度的一段作为输入，且顺序不定，然后去与总体进行比较，找出最符合的，开始是对汉字进行数值化编码，不过后来由于出现汉字越来越多，遂放弃该方法，转向别的方式，查找资料发现了两个python包广被推荐，从下面来看各有优缺点，记录之~

1、difflib

import difflib #python 自带库，不需额外安装In [49]: test1Out[49]: ['你好', '我是谁']In [50]: test2Out[50]: ['你好啊', '我谁']In [51]: test3Out[51]: [12, 'nihao']In [52]: test4Out[52]: ['你好', 'woshi']In [53]: difflib.SequenceMatcher(a=test1, b=test2).quick_ratio()Out[53]: 0.0In [54]: difflib.SequenceMatcher(a=test1, b=test4).ratio()Out[54]: 0.5

2、Levenshtein

#pip install python-Levenshteinimport LevenshteinIn [56]: Levenshtein.distance(','.join(test1), ','.join(test2))Out[56]: 2In [57]: Levenshtein.distance(','.join(test1), ','.join(test4))Out[57]: 5

简单来说，difflib使用时不一定为字符串，但匹配时只有单个元素完全匹配才计入，

而Levenshtein则需要输入为字符串，匹配时是整体匹配（也可能跟把所有元素集中成一个字符串有关，具体待继续使用再摸索）

以上这篇Python 比较文本相似性的方法(difflib,Levenshtein)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Python 比较文本相似性的方法(difflib,Levenshtein)

相关文章

详解Python 字符串相似性的几种度量方法

Python自动化运维_文件内容差异对比分析

Java基于余弦方法实现的计算相似度算法示例

提升优化效果从个性化建站做起

php比较相似字符串的方法