信贷风险半监督学习

tamoadmin 热门赛事 2024-04-25 24 0

信贷风险半监督学习应用分析

半监督学习在信贷风险评估中的应用主要体现在以下几个方面:

1.半监督式机器学习在团伙欺诈交易行为的风控能力提升

半监督式机器学习能够融合有监督式低歧义的优势和无监督式对数据结构性特征的捕捉能力,适用于银行的交易风控场景,尤其是识别日渐兴起的团伙欺诈交易。在银行风控系统中,训练交易反欺诈模型的机器学习算法按照输入数据的特征主要可以分为有监督、半监督和无监督。三种类型的机器学习算法在特征数据要求和适用场景的区别如下:无监督式机器学习则是自动识别一组未标记数据,即通过自动提取数据集群的特征,将不在任何集群中的样本标记为异常值,然后用已知异常值训练交易反欺诈模型,由此,系统可以识别交易数据与正常模式的任何偏差。但是,无监督式机器学习相对基于专家规则的风控技术而言可解释性较弱,有一定的误报率,导致银行在拦截用户后较难辨别是欺诈团伙还是行为良好的团队,而银行拦截一个优质用户的正常交易将直接影响客户体验。半监督式机器学习则是将未标记数据与少量标记数据结合使用,并将事件进行关联分析,能更加有效地识别以下场景中的交易欺诈行为:营销反欺诈、团伙开卡盗刷、虚假信贷申请等。

2.半监督学习在金融文本分类上的探索和实践

在金融领域,自然语言处理任务属于典型的垂直领域问题,往往面临少样本的问题。这主要体现在可收集到数据总量少,数据收集的时间成本很高,尤其在从0到1的立项初期。数据的人工标注成本很高。因此,对于人工标注成本高的问题,我们希望能够找到这样的解决方案:这一目标正是半监督学习核心想要达成的目标。UDA算法是由Google团队在2019年提出的半监督技术,超越了包括同年提出的MixMatch在内的一众半监督算法,达到了当时的SOTA水平。上图即是UDA算法的基本框架,该框架对于模型网络本身并没有特别的要求,核心是对目标函数进行了改造。从图中可以看出,UDA的目标函数共包括两个部分,分别是有监督损失项和无监督损失项:。有监督损失项(SupervisedCrossentropyLoss):用来计算有标签数据的误差,采用了常用的交叉熵作为目标。具体的方式是,对于任何一个无标签数据,首先运用数据增强技术对于该数据进行一次变换操作。接下来,利用模型对于增强前后的数据分别进行预测,从而获取到模型对于同一条数据在增强前后的不同结果。最后,利用KL散度来度量这两个预测结果的距离。

信贷风险半监督学习

3.半监督学习在P2P网贷平台风险识别研究

由于投资者个人而言,获取大量P2P网贷平台的详细信息较为困难,这不仅需要投资者掌握一定的网络数据采集技术,而且要求其能够对采集到的数据进行预处理,这就导致投资者个体对平台信用风险的识别能力十分有限。因此,基于能够获取到的信息,研究采用哪种模型能够更好地揭示出与平台风险相关的属性X和平台信用状态Y之间的潜在关联规律,从而对当前运营平台的信用状态做出预测,辅助投资者进行理性投资,尽可能规避高危平台,减少亏损。通过分析平台的运营状态与信用状态之间的关系,笔者将各类运营状态的平台分别标记为“可信”平台、“不可信”平台、“未知”平台。之后,笔者使用随机森林进行特征选择,并统一对所有特征进行最大最小归一化处理。由于数据集的不平衡现象较为严重,同时含有大量未标记数据,笔者根据研究问题的特点将可信平台查全率、不可信平台查全率、代价敏感错误率作为评估指标,通过设计对比实验,一方面解决样本不平衡现象带来的困扰,另一方面在有标记部分相同的数据集上分别训练有监督学习模型和半监督学习模型,并计算各类模型的评估指标,最终选择表现最佳的模型对运营平台的信用状态做出预测。

综上所述,半监督学习在信贷风险评估中具有很大的潜力和优势,可以通过结合有监督和无监督学习的方法,有效识别和评估信贷风险,为金融机构提供更为精准和有效的风险管理工具。