注意:此处介绍的只是计算原理,并非实际发生的计算过程。
信息的「身份证」,一种更常见的称呼是「信息指纹」,是计算机应用领域里经常用以判断信息重复性的方法。「信息指纹」的计算方法有很多种,但原理是相似的:
你可能知道,不管是中文、外文还是数字,在计算机系统里,实际上都是以0或1的代码形式存储的,例如大写字母A的ASCII编码就是01000001,而小写字母z的ASCII编码是01111010(实际上也存在很多种编码标准,ASCII是一种常见的英语编码标准,采用8位二进制数字编码)。这实际上就相当于,每个字符都有一个自己专属的信息指纹。
简单来说,计算会对文本中出现的不...