北京师范大学地表过程与资源生态国家重点实验室
  中文|English  
 
您的位置: 首页» 实验室新闻» 学科动态» 地表过程
Natural Hazards Research:基于深度学习的典型黄土区滑坡易发性评价与可解释性分析
发布时间: 2024-04-09  


【简介】

黄土在世界上广泛分布,中国是世界上黄土面积分布最广、黄土厚度最高、黄土沉积时间最长的国家,研究黄土地区滑坡灾害的风险评估与防护具有重要意义。一般来说,滑坡易发性评价(LSE)方法根据驱动模式分为两类:知识驱动的实证模型和数据驱动的统计模型。实践模式依赖于知识积累和对地质环境条件的认知,这会造成更大的主观性。而数据驱动的统计模型利用历史滑坡数据建立滑坡与滑坡相关指标之间的映射关系,在一定程度上避免了人为误差。在标准统计分析方法中,与机器学习和外部神经网络相比,深度学习可以学习更复杂、更高级的隐藏特征,这为LSE的研究提供了新的思路和方法。在深度学习方法中,TabNet具有树模型的可解释性和稀疏特征选择的优势,可以提高预测效果。本研究的主要目的是提出一种可解释的LSE方法来识别滑坡易发区及其影响因素,并为灾后应急响应和灾后重建提供参考意义。

【研究区域和使用数据】

研究区域描述

吕梁市位于山西省西部黄土高原上是山西省地质灾害多发区。研究区位于地形高差较大的中低山区,主要为黄土滑坡。近年来,由于人类工程活动频繁,形成许多不稳定斜坡,外力极容易引发山体滑坡。

(1) 灾害形成因素

吕梁市位于吕梁山脉中部,地形具有中高边低的特点。山两侧丘陵起伏,冲沟纵横,水土流失严重。根据中国地震参数区划图,吕梁山地震烈度在6度以下,地震活动不频繁。

(2) 致灾因素

吕梁市与地质灾害有关的人为工程活动包括道路建设和土地利用重建。

(3)吕梁市滑坡的发展与分布特征

研究区滑坡分布于各县,其中柳林县滑坡数量最多经调查,黄土滑坡主要分布在黄河东岸丘陵黄土区、吕梁山西麓丘陵黄土区和吕梁山褶皱断块中部山区。

使用的数据

(1) 滑坡历史记录

滑坡数据库是LSE研究的基础,滑坡数据库的建立也有助于滑坡类型、规模、空间分布和发展规律的统计分析。本文用于构建滑坡目录的历史灾害点来源于中国地质环境监测院和自然资源部中国地质调查局开发的地质云平台。数据包括滑坡诱发因素、类型、大小和模式。

(2) 滑坡影响因素

研究滑坡发生的背景对于评估滑坡的敏感性至关重要。通过对吕梁市总体情况的调查,选取12个因素构建吕梁市滑坡易发性评价指标体系:DEM、坡度、坡向、地貌类型、地层岩性、土壤类型、地形含水率(TWI)、植被覆盖率(FVC)、水距、降雨量、道路距离和土地利用。

(3) 数据集设置

提取滑坡正样本点和负样本点的因子数据值,其中标签1属于滑坡正样本,标签0属于滑坡负样本。随后,从滑坡样本数据库中筛选出山西省3476个历史滑坡灾害点。非滑坡点在滑坡点外按1:1随机选取。此外,80%用于滑坡易感性模型训练,20%用于模型性能评估。最后,将最优模型应用于吕梁地区的野外预测,得到了吕梁滑坡易感程度的专题图。

【方法】

基于FR-TabNet的滑坡易感性建模方法

(1) 频率比

FR-TabNe频率比(FR)用于改进模型,更好地学习样本数据的规律。

(2) TabNet LSE模型

本文采用TabNet深度学习网络构建滑坡易发性模型。TabNet使用顺序多步骤框架构建了一个加性模型神经网络,该网络可以提供更多的多级数据特征,并提高模型的准确性。

(3) 改进:TabNet的自我监督

FR-TabNe考虑到自动编码器过于关注像素级信息,忽略了语义特征,降低了模型数据相关性的能力和无监督学习的复杂性,本文用TabNet对自我监督学习进行预训练。自我监督学习从未标记的数据中挖掘监督表示信息,并通过学习的特征数据预测未标记的目标数据,以实现标签泛化。首先,从许多未标记的因子数据中通过预文本任务训练网络来获得预训练模型。然后,通过迁移对标记数据集进行微调,微调权重和模型架构,以提高模型精度。

准确性评价指标

在二元分类中,实例通常分为正类和负类。分类结果有四种情况。如果一个实例状态是同时预测的滑坡,则表示为真正(TP)。如果实例为非滑坡,并且指示为滑坡,则指示为假阳性(FP)。因此,如果一个实例状态是非滑坡,并且同时被预测为非滑坡,则将其表示为真负(TN)。此外,如果实例的状态是滑坡,并且指示为非滑坡,则表示为假阴性(FN)。本文基于TP、FP、TN和FN计算了反映预测误差的均方误差(MSE)以及准确性、敏感性和特异性。本文使用了四种分类方法来共同评估模型,公式如下所示。此外,由于ROC曲线的优越性,它经常被应用于二元分类模型的评估。基于敏感性和特异性指标,选择ROC曲线和曲线下面积(AUC)作为评价指标。



不确定性分析

不确定性分析是滑坡预测过程中的重要内容之一,对提高预测结果的可用性起着至关重要的作用。滑坡易感指数的分布主要通过平均值和标准差来反映。平均值反映了区域滑坡易感指数的平均分布,即滑坡发生的一般概率。标准差反映了滑坡易感指数的离散程度,标准差越大,判别滑坡易感指标的能力越强。本文利用均值和标准差分析了脆弱性指标值的总体分布规律,揭示了不同模型的脆弱性评价性能。当平均值较小且标准差显著时,脆弱性评估模型的不确定性通常相对较低。

深度学习预测结果的可解释性分析

在本研究中,SHAP模型获得的值解释了因素对预测值的贡献。为了获得更好的可解释结论,基于SHAP模型,重点分析了每个因素对预测结果的贡献以及与预测结果的相关性。

【结论】

滑坡易发性评价是滑坡灾害治理的必要条件。由于滑坡发展的复杂性,本研究成为一项具有挑战性的任务。经综合分析,本文选取了与吕梁市滑坡发展密切相关的12个影响因素。同时,为了最大限度地提高模型的效率并减少不确定性,采用FR和自监督学习对原始模型进行了改进以最大限度地提高模型的效率,并比较了不同模型的性能和易发性结果的分布规律。结果表明,对于滑坡易感数据集,降雨、海拔、坡度、道路距离和水系距离等滑坡因素控制了滑坡的发生。该方法提高了滑坡易发性的预测能力。作为未来的工作,这可以扩展到不同的滑坡易发地区,以帮助管理人员制定适当的缓解策略。


浏览次数: