当前位置：首页 > 机器学习 > 正文

机器学习之特征编码总结

xiaofei
机器学习
2024-09-15 20:18:31
61

简述信息一览：

1、[转]独热编码存在的问题
2、如何使用one-hot编码处理类别特征?
3、机器学习中的encoder,decoder和embedding都有什么区别?
4、特征工程(百面机器学习)
5、人工智能常用数据预处理方法
6、如何在机器学习模型中有效地利用有序分类变量?

[转]独热编码存在的问题

离散特征编码主要存在的问题是，类别特征难以量化和比较。那么就可以***用目标编码的方式。将原本是类别的离散量变为预测目标在该离散量上的均值。这种定义方式人为的展示了分类变量和目标变量之间的关系。缺点也很明显：这种编码方法对目标变量 y非常敏感，这会影响模型提取编码信息的能力。

热编码的弊端如下：one-hot 编码却增加了大量的维度，且这些特征维度是稀疏的，有用的信息零散地分布在大量数据中。比如一个20类的离散特征，通过独热编码之后，产生20列特征，但是这些特征中95%都是0；这种稀疏的特征对于神经网络来说很难优化。

在探讨softmax回归技术时，我们常常遇到一种编码方式，即独热编码（one-hot encoding）。对于那些类别间并无自然顺序关联的问题，常见的整数编码（如1， 2， ..）就足够使用。然而，当问题的类别与顺序紧密相关时，独热编码就显得尤为重要，它能更精确地反映出类别之间的关系。

在探索softmax回归技术时，我们遇到了one-hot编码这一概念。通常情况下，类别之间的关系并不依赖自然顺序，这时，传统的整数编码（如1， 2， 3等）就足够使用。然而，当问题的类别与自然顺序紧密相关时，独热编码就显得尤为重要，它能确保编码方式的精确性。

维度增加：类别越多，特征空间扩展，可能导致过拟合。信息潜在丢失：可能无法捕捉类别间的复杂关系或顺序信息。独热编码的分类与应用场景独热编码分为两类：基于分类值的独热编码：如性别（男、女）、颜色（红、绿、蓝），每个独立类别变为二进制向量。

如何使用one-hot编码处理类别特征?

当我们构建分类模型时，直接使用数据集前，必须先进行数据预处理，如特征转换和清理。对于类别特征，需要将其转换为数值表示，以计算机可理解的形式。这时，one-hot编码就登场了，它通过构建一个二元特征向量，将每个类别映射为一个维度，值为1，其他为0，解决了类别特征的数值表示问题。

独热编码的原理与步骤首先，让我们看下如何将分类变量数字化。独热编码是将每个可能值映射到一个二进制特征，比如：确定动物类别，如猫、狗、乌龟和鱼。为每个类别创建一个长度等于类别数的二进制向量，如猫对应[1， 0， 0， 0]。

独热编码（One-Hot Encoding）：独热编码是一种将类别变量转化为机器学习算法易于利用的格式的方法。这种方法在处理具有多个类别的定类变量时非常有用。在独热编码中，每一个类别都被转化为一个新的二进制列，这个列只有一个1，其余都是0。

因此，one hot编码的使用是为了避免这种误解。它将每个类别转换为一系列独立的二进制特征，消除了类别间的等级关系，使得模型能更准确地学习每个类别的特性。此外，one hot编码还能保持类别之间的互斥性，即一个数据点只能属于一个类别，不会出现同时属于多个类别的混淆。

**独热编码（One-Hot Encoding）**：将有序分类变量转换成一系列互斥的 binary 特征。这种方法可以保留变量的顺序信息，防止模型误将顺序视为线性关系。例如，将学历水平转换为四个二进制特征：`is_primary` = 0， `is_junior` = 0， `is_senior` = 0， `is_university` = 1。

首先，最常见的是使用one-hot编码，将每个类别转换为独立的二进制特征，但可能导致高维稀疏性，增加过拟合风险，尤其当类别数较多时。

机器学习中的encoder,decoder和embedding都有什么区别?

预训练数据集不同与ALBEF，由CC变为CC3M，并增加了LAION。BLIP通过以图像为基础的文本编码器融合多模态信息，可以执行多模态理解类任务，同时训练了一个以图像为基础的文本解码器用于多模态生成类任务。ALBEF和BLIP在预训练目标上类似，都包括图像-文本对比学习和图像-文本匹配。

机器翻译（Machine Translation，MT）Encoder-Decoder的最经典应用，事实上这一结构就是在机器翻译领域最先提出的。（2）文本摘要、总结（Text summarization/Simplication）输入是一段文本序列，输出是这段文本序列的摘要序列。

具体来说，核心组件包括基于U-Net架构的噪音预测模型，如residual block和attention block，这些设计结合了encoder-decoder结构，并通过时间嵌入（time embedding）编码时间步。代码实现中，时间步嵌入***用sinusoidal position embedding，以及GroupNorm归一化来提高模型性能。

这篇工作将MAE应用到小样本图像生成，以缓解数据受限问题。将support set中的样本输入encoder获得feature embedding，然后通过decoder获得增强的feature embeddings，最后计算每个类别的prototype。

给定查询item i和候选item j，我们有他们之间的类型对{ }，还有标签，文章***用encoder-decoder模型建模：首先先把item i的类别的w映射成，然后用度量学习的方式来学习。

特征工程(百面机器学习)

1、在数据驱动的机器学习世界里，数据的质量和特征的工程化处理至关重要。模型的表现不仅取决于选择的算法，更在于特征的精心设计与转换。首先，特征归一化是关键一环，通过线性归一化（0-1）和零均值归一化，消除量纲影响，确保梯度下降模型在不同特征间稳定收敛，让数值特征间的更新步幅一致。

2、特征工程是指在机器学习任务中，对原始数据进行预处理和特征提取的过程。其主要目的是从原始数据中提取出有用的特征，并将其转化为机器学习算法能够理解的形式。以下是特征工程中常见的内容：数据清洗：删除或填充缺失值、处理异常值、去除重复数据等。

3、特征工程是指利用数据领域的经验知识和专业技术，从原始数据中提取出能够更好地表示问题的特征，以达到提升模型性能和准确度的目的。在机器学习和深度学习等场景中，特征工程是非常重要的一环，因为数据的质量和表示方式的准确性直接影响到模型的预测效果。

4、链接：https：//pan.baidu.com/s/1_Zh5vQ45aGe8tY_NOFMwhw 提取码：0gga 书名：百面机器学习作者：诸葛越豆瓣评分：6 出版社：人民邮电出版社出版年份：2018-8-1 内容简介：人工智能领域正在以超乎人们想象的速度发展，本书赶在人工智能彻底占领世界之前完成编写，实属万幸。

5、集成学习一般包括以下3个步骤：找到误差独立的基分类器、训练基分类器、合并基分类器结果。合并方法包括投票或堆叠，投票方式取最多票结果，堆叠是将所有基分类器输出作为新特征，用复杂模型融合。以Adaboost为例，基本步骤为：确定基分类器（如ID3决策树），训练基分类器，合并基分类器结果。

人工智能常用数据预处理方法

1、数据预处理的重要性在于提升分析效率和模型准确性。常见的预处理方法包括：数据清洗：处理缺失值、重复值和异常值，如发现一个年龄字段的异常值1000000岁，会直接影响平均值计算。数据转换：例如标准化（如Z-score）或归一化（如Min-Max），将数值特征调整到统一尺度，便于模型处理。

2、数据***集：人工智能机器人的训练始于大量数据的收集，这些数据可能来源于机器人实际操作、传感器等。这些数据对机器人模型的训练至关重要，有助于机器人更好地理解周围环境并执行任务。数据预处理：***集到的数据需要经过预处理以降低噪声并提升数据质量。

3、数据预处理是模式识别的重要步骤，其目的是减少数据中的噪声和冗余，增强数据的有效性和表示能力。典型的数据预处理方法包括数据清洗、归一化、降维等。特征提取特征提取是从输入数据中提取关键特征或属性，以供下一步的分类和判别。

如何在机器学习模型中有效地利用有序分类变量?

1、独热编码（One-HotEncoding）：将有序分类变量转换为一组二进制变量，每个类别对应一个二进制变量。这样可以避免模型将有序关系误认为是线性关系。例如，将学历从“小学”到“大学”转换为四个二进制变量：is_primary=0，is_middle=0，is_high=0，is_university=1。

2、**独热编码（One-Hot Encoding）**：将有序分类变量转换成一系列互斥的 binary 特征。这种方法可以保留变量的顺序信息，防止模型误将顺序视为线性关系。例如，将学历水平转换为四个二进制特征：`is_primary` = 0， `is_junior` = 0， `is_senior` = 0， `is_university` = 1。

3、分类的集成算法集成算法将多个分类模型组合以提高预测性能。随机森林和梯度提升分类器是常用的集成方法，它们通过构建多个决策树并结合它们的预测结果来提高准确性。评估与指标为了评估分类算法的性能，常用混淆矩阵、准确率、精度、召回率和F-1值等指标。混淆矩阵提供了实际分类与预测分类之间的对比。

4、二元变量（Binary Variable）：只有两种取值，比如“是/否”、“男/女”等。名义变量（Nominal Variable）：有两种或两种以上的取值，但没有可度量的顺序关系，比如“颜色”“国籍”等。

5、数据压缩：对于包含大量不同值数量的数据列，使用类别变量和分类变量可以进行数据压缩，减少数据的维度，从而降低数据的复杂性，提高数据处理效率。模型训练：在机器学习和数据挖掘中，类别变量和分类变量可以作为输入变量，用于训练各种模型，例如决策树、支持向量机、朴素贝叶斯等。

6、将这个模型记作：以此类推。最后，我们得到一系列的模型，简记为：其中 i = 1，2，3，...，k 步骤可以记作下图：最后，在我们需要做预测时，我们将所有的分类机都运行一遍，然后对于每一个输入变量，都选择最高可能性的输出变量。这便是解决多类分类问题的一对多方法。

关于机器学习之特征编码总结，以及特征编码怎么用的相关信息分享结束，感谢你的耐心阅读，希望对你有所帮助。

机器学习之特征编码总结