Unicode等价性 Unicode equivalence
为了和许多现存的标准能够兼容,Unicode(统一码)包含了许多特殊字符。在这些字符中,有些在功能上会和其它字符或字符串行等价。因此,Unicode将一些码位串行定义成相等的。Unicode提供了两种等价概念:标准等价和兼容等价。前者是后者的一个子集。例如,字符n后接着组合字符~会(标准和兼容)等价于Unicode字符ñ。而合字ff则只有兼容等价于两个f字符。
Unicode范式是文本范式的一种形式,是指将彼此等价的串行转成同一列序。此串行在Unicode标准中称作正规形式。对于每种等价概念,Unicode又定义两种形式,一种是完全合成的,一种是完全分解的。因此,最后会有四种形式,其缩写分别为:NFC、NFD、NFKC、NFKD。对于Unicode的文本处理程序而言,范式是很重要的。因为它影响了比较、搜索和排序的意义。