大样本轮换存在的问题(如何解决数据分析中样本不平衡分类的问题？

如何解决数据分析中样本不平衡分类的问题？

近年来，随着智能应用概念在各行业的普及和智能应用项目的实施，作为智能应用的基础技术-，它也得到了广泛的应用，并取得了良好的效果。同时，在实际的项目应用中也经历了数据分散难以统一、输出结果滞后、数据不准确等问题，样本不平衡是典型的数据问题。

样本不平衡是指在模式分类中，样本中的某一类数据远远超过其他类数据，导致对少数类数据的不准确判断，而实际应用中较少的样本往往包含关键信息。例如，设备故障预测中的故障样本、产品质量分析中的不合格样本、用户流失预警中的用户流失、医疗诊断中的病例样本等都是智能应用分析过程中需要关注的对象。

为了解决样本不平衡分类问题，我们尝试了五个方向：大样本轮换存在的问题

1、包括采样方法(过采样算法、欠采样算法)和数据合成方法，改变数据分布，减少不平衡；

2、面对不平衡数据的缺陷，优化算法，分析现有算法，提高算法或提出新算法，提高少数类别的分类准确性，主要包括成本敏感性和集成学习；

3、在样本生成、模型设计、模型训练阶段引入先验知识，提高模型准确性；

4、迁移学习，利用其他领域相似的数据和知识优化该领域的模型；

5、调整业务目标，尝试改变看问题的角度，调整业务的目标或将业务问题进行转换。

01、改变数据分布

?采样

采样方法是处理训练集，使其从不平衡的数据集变成平衡的数据集，在大多数情况下会改善最终结果。采样分为过采样和欠采样，其中过采样复制多个小众类，而欠采样则从大众类中删除部分样本，或者只从大众类中选择部分样本。

?数据合成方式

数据合成是通过少量可用样本生成更多样本，即从原始数据分布的角度生成类似于真实数据分布的数据，以达到样本增强的目的。主要的样本增强方法包括：大样本轮换的问题

SMOTE平滑、GAN生成对抗网络模型等。

SMOTE平滑主要用于小数据集获取新样本。实现的方法是随机选择样本，计算其与其他样本的距离并获得K近邻，从K近邻中随机选择多个样本构建新样本。

GAN对抗网络模型的生成主要包括生成器两部分generator与判别器discriminator。生成器主要用于学习真实的数据分布，从而使自己生成的数据更真实，从而欺骗判断器。判断器需要判断接收到的数据的真实性。在整个过程中，生成器试图使生成的数据更真实，而判断器试图识别数据的真实性，这个过程相当于两个游戏，随着时间的推移，生成器和判断器不断对抗，最终两个网络达到动态平衡：样本轮换问题

生成器生成的数据图像接近真实数据分布，而判别器无法识别真假数据，从而构建更多新样本。

例如，在中间，数据库中验证的窃电用户数量较少。如果直接构建模型，模型泛化性能低，易于拟合，模型无法更准确地学习窃电用户的特性。因此，为了保证模型的准确性，我们可以根据验证的窃电用户数据采用不同的窃电手段数据SMOTE平滑方法增强数据样本，获得更多符合原始数据分布的样本，使智能模型能够充分学习窃电用户的特点，有效提高模型的泛化性能和抗干扰性。该模型采用数据样本增强后，窃电用户识别模型的准确性从70%提高到86%，给项目带来了实质性的提高。

需要注意的是，通过采样增加样用于样本量有一定基础的情况。对于样本数据本身较小或样本极度不平衡的情况，如异常样本只有个位数，使用意义不大。数据合成方法广泛应用于电信行业流失预测、电网用户肖像、图像识别等一些领域。但在产品加工工程、设备故障等工业领域，数据之间存在着强烈的相关性，数据之间存在着内在的物理关系，而数据合成方法只关注数据的分布特征，而忽略了数据之间的强相关性，往往导致生成数据脱离现实。

02、优化算法

在算法层面，在模型设计和培训中采用倾向性策略来缓解样本的不平衡，主要包括成本敏感性和集成学习。通过修改损失函数，模型更加关注少数类别，集成学习通过集成多个分类器的结果来提高整体分类的准确性。

?从评价指标的角度来看

当数据极度不平衡时，此时无法观察模型的准确性。我们可以观察训练结果的准确性和召回率，这有两个个优点：一是了解算法对数据的敏感性；二是明确哪些评价指标更合适。建议更多地使用机器学习中的样本不平衡PR(Precision-Recall曲线)，而不是ROC若采用曲线ROC曲线很容易作为评价指标AUC忽略少量样本的实际效果并不理想。

当然，在实际应用中，评价指标的选择也应根据业务需要确定。例如，在丢失预警场景中，召回率作为主要评价指标或精度率作为主要指标应根据现场维护人员的数据量确定。此外，在工业应用中，如果模型作为质量预警的辅助手段，主要考虑模型的准确性，以确保每次给出的结果都是准确的，在判断设备故障时，确保召回率，不能错过任何故障。

?代价敏感法

成本敏感法的核心思想是在算法实现过程中，对不同样本数量的类别给予不同的权重（一般思维分类中小样本数量的权重较高，大样本数量的权重较低），使模型更加关注小样本类别，然后进行计算和建模。

?集成学习

集成方法是指在每次生成训练集时，使用所有分类中的小样本量，并从分类中的大样本量中随机抽取数据，与小样本量合并形成训练集，从而获得大量的训练集和训练模型。最后，在应用程序中，使用组合方法（如投票、加权投票等）来产生分类预测结果。如果计算资源充足，且对模型的及时性要求较低，则该方法更合适。

03、介绍先验知识

样本生成、模型设计、模型培训等阶段也是利用先验知识解决样本不平衡问题的一是解决样本不平衡问题的思路。先验知识可以快速推广到只包含少量监督信息样本的新任务。充分利用先验知识的相关规则，在数据挖掘模型构建过程中，可以提高模型效果，先验知识主要从两个方面发挥价值：

数据：利用先验知识来增强监督经验如利用先验知识判断传感器采集数据的范围，消除超出范围的异常数据，避免数据采集错误干扰模型培训。

模型:利用先验知识减少假设空间的大小，如齿轮点蚀、剥落断齿等局部故障。当故障部分进入啮合时，系统受到冲击和激励。每次故障齿轮转动，系统都会受到冲击。这种现象是周期性的，模型可以根据这个特点设计。

如在配变重过载预测模型构建过程中，模型阶段通过先验知识缩小了预测空间，充分考虑配变负载率近2年Pearson相关系数判断近两年的变化趋势，筛选相关系数高的变化，利用先验知识预测未来周期的负载率，消除负载率明显过低的设备，减少样品的不平衡，提高模型的泛化能力。

值得注意的是，在使用先验知识的同时，必须保证先验知识的准确性。如果先验知识存在误差，必然会增加模型误差，影响模型准确性。

04、迁移学习

既然目前领域的样本数据难以获取，那么类似领域的数据和知识能否被替现实生活中有很多这样的例子，比如学习吹笛子，更容易学习吹笛子、葫芦丝等管弦乐器C学习其他编程语言要简单得多，这实际上是迁移学习的想法。从相关领域迁移标记数据或知识结构，完成或改进目标领域的学习效果。

一般有三种常见的迁移方式：

一是根据实例迁移，有效分配现有其他领域的大样本，使其他领域的样本接近目标领域的样本分布特征；

二是基于特征的迁移，分为基于特征选择的迁移和基于特征映射的迁移。基于特征选择的迁移学习算法侧重于如何找出来源和目标之间的共同特征，然后利用这些特征进行知识迁移；基于特征映射的迁移学习算法将来源和目标领域的数据从原始特征空间映射到新的特征空间，与目标领域的数据分布相同；

三是基于共享参数的迁移，主要研究如何在源数据和目标数据的空间模型之间找到共同参数或先验分布。

在齿轮和轴承机械的过程中，在实际工作条件下，由于设备长期处于正常服务状态，正常样本丰富，故障样本很少，往往面临严重的数据不平衡问题。对于简单的机械，如齿轮和轴承，相同类型的部件在故障时往往具有很强的相似性。此时，迁移学习方法可用于具体实现方法。一方面，通过数据分布转换，将要迁移的数据分布转换为目标数据分布。

另一方面，空间转换两个领域的数据特征，使其具有相同的特征分布。如果采集振动信号，公共振动信号将根据目标数据时域下的振幅分布转换为类似于目标分布的信号，然后利用时频转换将时域空间下的特征映射到频域下（注意尽可能使用相对指标，而不是绝对指标），然后构建零件故障预测模型。

此外，迁移学习在着陆应用程序中往往受到几个方面的影响。一是不同的应用场景，数据之间的影响关系非常不同，数据之间的相互关系经常发生变化，导致无法完全迁移。第二，当目标的表征变量较大时，特征映射本身就是一个大项目，不容易实现，适用于特征较少的场景。

05、调整业务目标

如果上述方法不适用，我们该怎么办？此时，我们需要扩大招聘-调整业务目标。一般来说，我们可以将样本极不平衡的分类预测转化为回归问题或异常检测问题。

?分类变回归

在实际项目中，实现预测目标的另一种方法是将分类预测问题转化为回归预测问题。预测的目的是通过结合回归预测业务规则来实现。例如，在产品质量预测项目中，最初的目标是构建产品是否合格的预测模型，但在模型构建过程中，发现不合格产品的比例很小，只有少数样本不足以构建不合格模型的基本条件。

此时，它可以转化为预测产品检测指标的方法，即在不合格产品数量相对较少的情况下，转向预测产品检测过程中的判断指标。相对而言，产品检测过程中检测指标样本的积累将比不合格产品的样本更容易。显然，产品检测指标的预测属于回归预测的范畴，可以通过机器学习中的回归预测方法来实现。对于回归模型预测的结果，可以结合现有的业务规则来判断，以达到预测产品是否合格的目的。

?分类异常检测

第二种方法是使用非监督学习方法，将此类问题视为单分类或异常检测。这种方法的重点不是找出类别之间的差异，而是建模其中一种。例如，在设备故障诊断项目中，如果没有异常数据，我们将为正常情况设定一个范围。在判断新数据时，我们认为这是正常数据。如果我们不在这个范围内，我们认为这是异常数据，需要关注。当然，在实际应用中，模型会不断迭代更新，判断效果会越来越准确。

本文介绍了我们在实际项目中尝试的几种样本不平衡问题的解决方案。我希望上述方法能帮助您解决当前的问题或给您带来一些解决问题的想法。

这些方法只是许多样本不平衡问题的冰山一角。在这里，我建议你阅读更多关于这方面的文章，你可能会得到更有趣、更有效的
的方法。当然样本不平衡问题的解决更多的还要结合现场的环境和遇到的问题，灵活的选择应对方法，没有一种方案可以

毕业证样本网创作《大样本轮换存在的问题(如何解决数据分析中样本不平衡分类的问题？》发布不易，请尊重! 转转请注明出处：https://www.czyyhgd.com/179955.html