1.适用于算法计算:独热编码使得特征之间的距离计算更加合理,这是因为独热编码将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。
2.扩充特征属性:独热编码为处理离散型特征提供了方法,在一定程度上扩充了特征属性。
独热编码的缺点1.维度问题:当特征的类别很多时,特征空间会变得非常大,这种情况下,一般可以用PCA来减少维度。
2.数据稀疏性:独热编码会导致数据变得稀疏,这可能会对某些算法的效率产生影响。
标签编码的优点1.简单易用:标签编码简单易用,可以直接将类别转换为数值,方便算法计算。
标签编码的缺点1.丢失顺序信息:如果原本的标签编码是有序的,就不必独热编码了,因为会丢失顺序信息。
2.可能导致偏序关系:如果不对数值大小进行特殊处理,模型可能会错误地认为数字大比数字小更重要,这在实际问题中可能是不成立的。