Prediction Method of Spatial Distribution of Heavy Metals in Agricultural Soil around a Metal Smelter in Inner Mongolia
-
摘要:目的
为准确预测农田土壤重金属含量的空间分布特征,探讨不同预测方法的适用性及不确定性,建立适用于农田土壤重金属空间预测的最优模型。
方法以内蒙古西部河套地区某金属冶炼厂周边农田0 ~ 20 cm土壤为研究对象,采用普通克里格(OK)、随机森林(RF)和普通克里格 + 随机森林(RFRK)等预测方法,选取土壤理化性质、地形、气候、人为活动等环境变量为建模协变量,构建农田土壤重金属空间预测的适宜模型,揭示砷(As)、铅(Pb)、铬(Cr)、镉(Cd)等重金属含量的空间分布特征,并探讨不同建模方法的空间预测精度差异。
结果①土壤Cr、Pb和Cd平均值分别为河套地区土壤背景值的3.5、0.66和0.23倍,该地区农田土壤重金属具有一定程度的富集现象,但并未达到国家农用地土壤风险筛选值,研究区北部、中部以及冶炼厂厂区土壤重金属含量高于区内其它部位。②OK、RF和RFRK三模型的土壤As、Pb、Cr、Cd含量预测精度依次为RFRK > RF > OK,即RFRK模型的预测值平均绝对误差(MAE)、均方根误差(RMSE)最小,交叉验证R2值均在0.8以上,实测值和预测值之间相关性最强。
结论普通克里格 + 随机森林模型可作为土壤重金属含量空间预测的有效方法,优先应用于区域农田土壤污染调查、评估和防治方面的相关工作中。
-
关键词:
- 土壤重金属 /
- 普通克里格 /
- 随机森林 /
- 普通克里格 + 随机森林 /
- 空间预测
Abstract:ObjectiveIn order to accurately predict the spatial distribution characteristics of heavy metal content in agricultural soils, the applicability and uncertainty of different prediction methods were explored, so that an optimal model applicable to the spatial prediction of heavy metals in agricultural soils could be established.
MethodTaking 0 ~ 20 cm of soil around a metal smelting plant in the Hetao area of western Inner Mongolia as the research object, the prediction methods, such as ordinary kriging (OK), random forest (RF) and ordinary kriging + random forest (RFRK) were adopted, and the environmental variables, such as soil physicochemical properties, topography, climate, anthropogenic activities and so on were selected as modelling covariates to construct a suitable model for the spatial prediction of heavy metals in agricultural soils, to reveal the characteristics of the spatial distribution of the heavy metal contents of As, Pb, Cr and Cd, and to explore the differences in the spatial prediction accuracy of the different modelling methods.
Result① The average values of soil Cr, Pb and Cd are 3.5, 0.66 and 0.23 times higher than the background values of the soils in the Loop, and there is a certain degree of enrichment of heavy metals in the agricultural soils in the area, but it does not reach the screening value of soil risk in the agricultural land, and the content of heavy metals in soils in the northern and central parts of the study area, as well as in the area of the smelter, is higher than that of the other parts of the area. ② The prediction accuracies of soil As, Pb, Cr and Cd contents of OK, RF and RFRK models were in the order of RFRK > RF > OK, i.e. the RFRK model had the smallest mean absolute error (MAE) and root mean square error (RMSE) in the predicted values, and the cross-validated R2 values were all over 0.8, which showed the strongest correlation between the measured and predicted values.
ConclusionThe Ordinary Kriging + Random Forest model could be used as an effective method for spatial prediction of heavy metal content in soil, and is priority for application in the investigation, assessment and prevention of soil pollution in regional farmland.
-
【研究意义】土壤是人类赖以生存和发展的最重要的生态系统之一,也是人们进行农业生产活动的重要资源。农田土壤安全是粮食安全和人类健康的根本保障[1]。随着城市化和工业化快速发展,重金属通过大气和水体流动的途径进入土壤,从而导致土壤重金属富集[2]。由于重金属在土壤中具有持久性和不可逆性的特点,导致农作物的生长发育中受到直接影响,最终通过食物链对人体健康造成危害,农田土壤重金属污染已成为社会各界广泛关注的问题[3-5]。2014年,铅(Pb)、汞(Hg)、铬(Cr)、镉(Cd)和砷(As)五种重金属元素在“十二五”规划中被列为污染场地重点防护元素[6-7]。同年,我国生态环境部和自然资源部联合发布的《全国土壤污染状况调查公报》中显示,19.4%的点位超标率,仅4年就增长了2个百分点,重金属污染形势严峻[8-10]。由于土壤重金属污染在空间上具有分布复杂性、高度可变性以及局部偶然性特征,使得土壤重金属空间分布预测具有一定的难度[11]。传统统计方法通过计算区域土壤重金属的均值、标准差、方差、变异系数等在一定程度上反映样本的总体特征,但无法定量刻画土壤空间变异的随机性和结构性[12-13]。因此,为了解决这样的问题,当前引入了随机森林模型,随机森林是预测分析中经常使用的一种方法,因为与线性回归相比,随机森林具有更高的准确性和抗多重共线性和复杂交互问题的能力[14]。从而准确预测农田土壤重金属含量的空间分布对实现区域土壤资源的优化利用以及土壤环境的保护和污染防治具有重要意义。【前人研究进展】我国从20世纪80年代开始空间预测方面研究,目前土壤重金属空间分布预测研究已取得较大进展[15-16]。陈秀瑞等[17]使用传统统计学方法探究了全国25个城市土壤中8种重金属(包括铅、锌、镉和铜)的空间分布情况;Xie[18]以北京通州地区为研究区域,采用了多种空间插值方法,来比较了土壤中Cd、Cu(铜)和Pb值的插值精度。张素梅等[19]提出地理统计学方法偏重于考虑土壤性质的结构和空间相关性,缺乏对空间分布过程因素的刻画,从而导致预测结果的不准确性。Brokaw[20]、方匡南等[21]研究发现随机森林的一个关键优势是能够捕捉复杂的非线性关系,而这些关系是通过对数据转换或其他方法无法获得污染物浓度和特征变量之间的线性关系,对于随机森林来说,模型预测的良好性能随着预测变量的数量而增加[22-23]。【本研究切入点】随着人工智能技术的不断发展,许多学者开始采用机器学习方法进行土壤属性空间分布预测,其中随机森林以其强大的非线性拟合能力被广泛运用于土壤属性空间预测[24]。但土壤重金属不仅与环境因子存在关系,其自身也存在一定空间相关性,片面的对土壤重金属进行空间预测,缺乏对环境因子、空间结构及空间相关性的认识,会导致空间预测结果存在不确定性。因此,综合考虑土壤重金属的空间结构特征及其与环境因子间的关系,了解不同预测模型在农田土壤重金属的适用性和不确定性,对选择适当方法进行预测至关重要。【拟解决的问题】本研究通过对金属冶炼厂周边农田土壤样品中As、Pb、Cr、Cd含量进行分析,结合土壤理化性质、地形、气候、人为活动等环境变量为辅助变量,构建了普通克里格(OK)、随机森林(RF)和普通克里格 + 随机森林(RFRK)模型,开展农田土壤重金属含量空间预测,探讨各预测模型的不确定性和适用性,以探索能够建立农田土壤重金属空间预测的最优模型。
1. 材料与方法
1.1 研究区概况
研究区位于内蒙古巴彦淖尔市乌拉特后旗境内,地理坐标:106°98′ ~ 107°07′ E,41°01′ ~ 41°06′ N。当地土壤类型主要为栗钙土、棕钙土、草甸土。气候类型属于干旱区半湿润大陆性季风气候,降水少、蒸发强、日照长,年平均气温3.8℃,年均降水量96 mm,年均风速为11.2 km h–1,年均无霜期130 d,海拔平均高度为1056.6 m。研究区内以农业生产为主,种植的主要农作物为玉米、小麦、葵花等。
1.2 样品采集与测定
本研究以某金属冶炼厂为研究区扇形的起点,自距离起点4 km处开始取样,取样深度为0 ~ 20 cm,每一采样点5点取样,混合后得该点土壤样品,共采集土样116个(图1)。采样点用GPS定位,同时记录采样点的土地利用类型及周围环境特征。土壤样品置于无尘实验室中自然风干,剔除样品中的石块、动植物残体等杂物,用玛瑙研钵研磨后分别过2.00 mm和0.15 mm尼龙筛待测。
测定采用HF-HNO3-HCl-HClO4四酸微波消解法消解,砷(As)采用原子荧光光谱仪进行测定,铅(Pb)、铬(Cr)、镉(Cd)采用电感耦合等离子体质谱仪(ICP-MS)进行测定。分析过程中使用试剂均为优级纯,用水均为超纯水,20%的平行样品进行质量控制,每批试样随机抽取10%进行加标回收测定,样品误差保持在5%以内。
1.3 影响因子提取
本研究参考国内相关研究进展[25],选取土壤理化性质、地形、气候、人为活动等环境变量为建模协变量纳入建模过程。土壤类型、土壤质地、和土地利用等数据根据中国土壤信息系统获取;降雨量及风速数据采用近三年平均数据,数据来源于当地气象局官网;DEM数据来源于地理国情监测云平台(http://www.dsac.cn),利用DEM(30 m)数据提取海拔、坡度,根据奥维互动地图来获取采样点距道路和村庄的距离。
1.4 数据处理
使用SPSS软件按标准方差的倍数识别特异值,然后用正常值的最大值和最小值替代特异值。在此基础上利用GS + 平台对土壤重金属含量进行半方差函数拟合,基于ArcGIS 10.8平台进行空间制图。
1.5 研究方法
1.5.1 普通克里格法
普通克里格(OK)是插值方法中最为常用的,它是在满足本征假设的条件下,利用最优线性无偏估计的方法对未知点位置进行求解的方法[26]。普通克里格对于区域化变量空间分布预测和特征描述具有较好的效果,为了进行普通克里格插值,数据用于普通克里格插值的样本数据必须服从正态分布,为此用于插值的数据需经分布型检验后再进行空间插值计算。其计算见公式(1)。
$$ {Z^ * }_{OK}\left( {{{\text{x}}_0}} \right) = \sum\limits_{i = 1}^n {{\lambda _i}} Z\left( {{{\text{x}}_i}} \right) $$ (1) 式中:Z*OK(x0)是Z变量在x0位置的OK预估值,Z(xi)是在xi位置的观察值,λi为第i个样点对预测点的权重值,权重值即为半方差值,权重值的总和为1,n为用于推测未知点数值的已知点数。
地统计分析是基于区域化变量理论基础的一种空间分析方法,半方差函数表示一定范围内变量属性的空间依赖性,其计算见公式(2)。
$$ \lambda \left( {\text{h}} \right){\text{ = }}\frac{1}{{2N\left( {\text{h}} \right)}}{\sum\limits_{{\text{i = }}1}^{N\left( {\text{h}} \right)} {\left[ {Z\left( {{{\text{x}}_{\text{i}}}} \right) - Z\left( {{{\text{x}}_i} + h} \right)} \right]} ^2} $$ (2) 式中:λ(h)为半方差函数;h为滞后距离或步长;N(h)为距离等于h的样点对数;Z(xi)和Z(xi + h)分别为点xi和xi + h处点的实测值。
1.5.2 随机森林模型
随机森林(RF)模型是一种基于机器学习理论预测分析中经常使用的一种方法,该重要算法的基本前提是构造一定数量的决策树;然后根据特定标准组合决策树,生成随机森林。随机森林模型通过对大量分类树的汇总提高了模型的预测精度[27]。最终预测值是单个树预测的平均值,它们确保每次构建的决策树可能由于随机性而不同。这种独特性作为一种优势可用于模拟多种非线性关系[28]。
1.5.3 普通克里格 + 随机森林(RFRK)模型
普通克里格 + 随机森林(RFRK)模型是一种结合了RF和OK方法的地统计方法。它的重点是连续迭代和训练,直到确定最佳关系,而不是专注于构建静态的统计模型。连续迭代和训练可以捕捉到样本点和潜在预测点之间的非采样点和潜在预测因子指标之间的非线性关系[29]。RFRK模型基于以下步骤:首先利用RF由研究区样点的环境因子求出各预测点的土壤重金属含量值,然后计算该预测值与实测值的残差,再对该预测残差进行OK插值,最后将RF预测值和OK插值得到的残差值相加,两者之和即为RFRK模型的土壤重金属含量预测值[30]。
1.5.4 模型验证
交叉验证法分别假设每个样本点的未知值,通过周围的样本点和用于验证的空间预测方法测量多个点的值,然后根据样本点的实际值与预测系数的偏差来判断空间预测方法的结果。随机选取样本数据集的80%作为训练集数据(93个),余下20%作为验证集数据(23个)。然后验证集样点的预测值和实测值比较,并通过计算验证集的平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)评价不同方法的预测精度。ME、MAE、RMSE值越小,R2值越接近1时,预测精度越高。MAE、RMSE和R2的计算公式如下:
$$ RMSE = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left[ {Z\left( {{x_i}} \right) - \hat Z\left( {{x_i}} \right)} \right]}^2}} } $$ (3) $$ MAE = \frac{1}{n}\sum\limits_{i = 1}^n {\left| {Z\left( {{x_i}} \right) - \hat Z\left( {{x_i}} \right)} \right|} $$ (4) $$ {R^2}{\text{ = }}\sum\limits_{i = 1}^n {\frac{{{{\left( {\hat Z\left( {{x_i}} \right){\text{ - }}\overline Z \left( {{x_i}} \right)} \right)}^2}}}{{{{\left( {Z\left( {{x_i}} \right){\text{ - }}\overline Z \left( {{x_i}} \right)} \right)}^2}}}} $$ (5) 式中,n是验证集样本数目(n = 23),
$ \widehat{Z}\left({x}_{i}\right) $ 为模型的预测值,Z($ {x}_{i} $ )为实测值,$ \overline Z $ $ \left({x}_{i}\right) $ 实测值的平均值。2. 结果与分析
2.1 土壤重金属含量的描述性统计
研究区土壤重金属含量测定结果的统计特征值如表1所示。由表1可见研究区农田0 ~ 20 cm土壤重金属元素Pb、Cd、As和Cr的含量分别分布在6.20 ~ 74.39 mg kg–1、0.01 ~ 2.29 mg kg–1、2.31 ~ 29.58 mg kg–1和26.61 ~ 105.94 mg kg–1之间,平均含量分别为28.33、0.51、9.50和63.16 mg kg–1,参照河套地区土壤背景值[31]可知,该地区农田土壤重金属具有一定程度的富集现象,但并未达到农用地土壤风险筛选值。从4种重金属含量的变异系数来看,Pb为79%、其变异性明显高于与其他3种元素,而As、Cr、Cd的变异系数分别为42%、26%、42%,相对较小。不同重金属元素变异系数大小,反映了这些元素在土壤中的分布情况[32]。
表 1 农田土壤重金属含量描述性统计值(n = 116)Table 1. Descriptive statistical analysis of heavy metal contents in agricultural soils重金属
Heavy metal含量范围
Content range
(mg kg–1)平均值
Mean
(mg kg–1)标准差 SD
Standard deviation
(mg kg–1)变异系数 CV
Coefficient of variation土壤背景值
Soil background value
(mg kg–1)风险筛选值
Risk screening value
(mg kg–1)风险管制值
Risk control value
(mg kg–1)As 2.31 ~ 29.58 9.50 3.98 42% 9.68 25 100 Cr 26.61 ~ 105.94 63.16 16.10 26% 56.40 250 1300 Pb 6.20 ~ 74.39 28.33 11.82 42% 18.70 170 1000 Cd 0.01 ~ 2.29 0.51 0.40 79% 0.116 0.60 4.00 注:土壤污染风险筛选值和土壤污染风险管制值(pH > 7.5):GB 15618—2018Ⅱ《土壤环境质量农用地土壤污染风险管控标准》。 2.2 土壤重金属含量半方差函数分析
利用GS + 平台,将116个样点随机分为训练样本(93个)和验证样本(23个),利用经过对数转换后的训练样本进行半方差函数拟合,根据拟合模型决定系数(R2)最大,残差平方和(RSS)最小的原则选择最佳拟合模型,As、Pb、Cr均以指数模型拟合为最佳模型,Cd以球状模型拟合为最佳模型。具体参数如表2所示,可以看出,Pb、Cd、As、Cr决定系数R2分别为0.717、0.739、0.915、0.970,块金系数显示了元素在空间上的异质性,是区域化变量的空间相关程度的指标。根据前人研究成果[33],当块金效应C0 /(C0 + C) < 25%时,说明所拟合因子具有较高的空间相关性;而当C0 /(C0 + C) > 75%时,则表明拟合因子的空间相关性较为不明显,块金值C0与基台值C0 + C的比值在25% ~ 75%之间,表明拟合系数具有中等程度的空间相关性。例如,Pb、As和Cr的块金效应系数分别为90.7%、99.5%和89.5%,表明空间相关性较不明显,随机因素影响大;而Cd块金比系数是59.6%,说明空间自相关性适中,结构因素对Cd的累积影响较小。
表 2 土壤重金属含量半方差函数及相关参数Table 2. Theoretical model and parameters of semi-variance function of soil heavy metals重金属
Heavy metal拟合模型
Model块金值C0
Nugget基台值C + C0
Partial块金效应C0 / (C0 + C)
Nugget effect
(%)变程
Range
(m)决定系数 R2
Decision factor残差平方和
ResidualAs 指数模型 0.002 0.433 99.5 735 0.915 2.988E-03 Cr 指数模型 0.066 0.631 89.5 411 0.970 1.282E-03 Pb 指数模型 0.046 0.496 90.7 150 0.717 9.379E-04 Cd 球状模型 0.013 0.033 59.6 258 0.739 2.018E-05 2.3 土壤重金属含量与变量因子的相关性分析
研究区土壤重金属含量与变量因子相关性分析结果见表3。土壤质地、土壤类型等非数量因子是以用主成分分析,聚类分析等来统计计算得出。从中可知,所选变量在解释As、Cr、Pb和Cd含量时,极显著相关(P < 0.01)的变量因子较多,但部分变量显著相关(P < 0.05)。As含量与坡度、土壤类型呈现极显著正相关,相关系数分别为0.458和0.395;与降雨量呈极显著负相关,相关系数为−0.362;与至道路距离和土壤质地呈显著相关,相关系数分别为0.260和0.231。Cr含量与有机质、土壤质地呈极显著正相关,相关系数分别为0.313和0.385;与电导率和土壤类型呈显著正相关,相关系数分别为0.206和0.210。Pb含量与至道路距离和土壤质地呈显著正相关,相关系数为0.441和0.336;与距村庄距离和土壤类型呈极显著负相关,相关系数为0.351、0.422。Cd含量与风速、至道路距离、土壤类型、土壤质地呈极显著正相关,相关系数分别为0.511、0.513、0.369和0.411,与坡度呈显著负相关,相关系数为−0.298。不同影响因子对土壤重金属元素的解释力程度不同,其中风速、至道路距离对Cd空间变异的影响最大,主要原因是受自然因素的影响较大外,人类活动的影响在一定程度上影响了研究区Cd含量的变化。根据以上分析结果表明,As选取坡度、降雨量和土壤类型,Cr选取距村庄距离、有机质和土壤质地,Pb选取至道路距离、距村庄距离、土壤类型和土壤质地,Cd选取风速、至道路距离、土壤类型和土壤质地等因素作为优化预测OK、RF和RFRK模型的协变量。
表 3 土壤重金属含量与影响因子相关性分析Table 3. Correlation analysis of soil heavy metal content and influencing factors变量
Variant海拔
Altitude坡度
Slope降雨量
Rainfall风速
Air velocity至道路距离
Distance to road距村庄距离
Distance to villageAs 0.051 0.458** −0.362** 0.021 0.260* 0.020 Cr 0.038 −0.066 −0.077 0.031 0.126 0.361** Pb −0.100 0.046 −0.125 0.008 0.441** −0.351** Cd 0.101 −0.298* 0.008 0.511** 0.513** 0.115 变量
VariantpH 电导率
Electrical conductance有机质
Organic matter土壤类型
Soil type土壤质地
Soil behaviorAs −0.160 −0.09 0.138 0.395** 0.231* Cr −0.030 0.206* 0.313** 0.210* 0.385** Pb 0.051 0.089 0.164 −0.422** 0.336** Cd −0.011 0.081 −0.056 0.369** 0.411** 注:* 表示显著性水平为0.05,** 表示显著性水平为0.01。 2.4 土壤重金属含量不同模型的空间分布预测结果
使用3种预测模型获得的土壤As、Cr、Pb、Cd含量的空间分布如图2所示。由图2可见,As含量在研究区东南部较低,北部和中部较高,呈现从西北部向东南部逐渐降低的分布趋势。Cr含量的高值区域主要集中在东北部,南部分布含量低;OK模型的空间分布表明,东北部的As和Cr含量较高,相比RF、RFRK模型稍有差异;Pb和Cd含量在研究区中部较高,西部、东南部较低,Cd含量的三种模型空间分布趋势大致相同;Pb含量的OK模型显示,平滑效应过于明显,从而不能够准确的反映出点源污染和小范围的面源污染,而RF、RFRK模型能够准确反映出Pb和Cd含量变化趋势不明显。三种预测模型中可以发现土壤As、Cr、Pb、Cd含量在研究区北部和中部以及东北部较高,呈现富集趋势,分布相关性明显说明人类活动对重金属的富集有较大的影响。
2.5 土壤重金属含量不同模型的预测精度
通过验证集数据对OK、RF、RFRK预测模型计算后得到各模型对 4 种土壤重金属预测的平均绝对误差(MAE)、均方根误差(RMSE)和交叉验证R2值如表4所示。在土壤重金属As、Cr、Pb、Cd含量的空间分布预测中,RFRK模型的交叉验证R2值分别为0.894、0.902、0.920、0.911,均在0.8以上。在OK模型的交叉验证R2值0.7到0.8之间,RF模型交叉验证R2值均在0.8以上。R2值越接近1,预测精度就越高,通过对比,RFRK模型的交叉验证R2值精度高于OK、RF模型,OK模型Cr的MAE最大(4.467),RFRK模型As的MAE最小(0.002);与此同时OK模型具有最大Pb的RMSE(6.147),RFRK模型也具有最小Cd的RMSE(0.010),最终模型和交叉验证之间的R2值差异较小,这意味着模型没有显著过度拟合。说明在研究区,利用OK方法进行农田土壤重金属预测的精确度最差;而通过RFRK模型得到的土壤重金属精确度较好;不同预测模型的预测精度结果为:RFRK > RF > OK。
表 4 不同土壤重金属含量预测模型精度Table 4. The accuracy of different soil heavy metal content prediction models土壤重金属
Soil heavy metal平均绝对误差 MAE
Mean absolute error均方根误差 RMSE
Root mean square error决定系数 R2
Decision factor普通克里格
Ordinary krieger随机森林
Random forest普通克里格 + 随机森林
Ordinary krieger +
Random forest普通克里格
Ordinary
krieger随机森林
Random forest普通克里格 + 随机森林
Ordinary krieger +
Random forest普通克里格
Ordinary
krieger随机森林
Random
forest普通克里格 + 随机森林
Ordinary krieger +
Random forestAs 1.022 0.559 0.002 1.435 0.956 0.013 0.755 0.851 0.894 Cr 4.467 1.932 1.422 5.983 2.856 1.917 0.745 0.897 0.902 Pb 4.207 1.379 0.979 6.147 2.218 1.487 0.850 0.918 0.920 Cd 0.010 0.052 0.007 0.015 0.084 0.010 0.838 0.869 0.911 如3种模型的验证散点图(图3)所示,验证集土壤重金属含量的实测值和预测趋势表明,OK、RF和RFRK模型中所有重金属含量大多数均分布在1∶1线附近,As、Cr、Pb、Cd含量的OK和RF模型散点波动范围较分散,RFRK模型散点波动范围小。因此表明,RFRK模型可以更好地预测土壤重金属含量的空间分布。
3. 讨论
本研究比较了OK、RF和RFRK三种模型预测农田土壤重金属含量及其空间分布的性能。对比图2,三种模型结果可以看出,OK模型预测结果中土壤重金属Pb含量的空间分布较为简单,且平滑效应过于明显。而RF和RFRK预测模型所得到的As、Cr、Pb和Cd含量空间分布情况更加复杂多样,对重金属空间分布状况揭示更为精细,呈现研究区中部、北部冶炼厂周边含量较高,整体含量呈以研究区冶炼厂为中心向四周逐渐降低的趋势,呈现较好的连续性。相比OK模型所得到的结果,RF和RFRK预测的空间分布预测结果不确定性较大,说明了OK模型侧重于描述土壤属性的空间相关性,没有考虑土壤与环境间的关系,这与李梦佳[30]、姜赛平等[34]的研究结果一致。RF和RFRK模型充分考虑了环境因素与土壤重金属含量之间复杂的非线性关系,与OK模型相比,提高了预测精度。随着人工智能技术的发展,很多学者开始利用机器学习方法进行土壤属性空间分布预测,其中随机森林以其强大的非线性拟合能力被广泛用于土壤属性空间预测[35-36]。从而,更能说明随机森林模型可以用于探索和分析变量与土壤中重金属之间的复杂性关系,并具有高精度的污染浓度和空间分布预测能力[10,37]。
本研究发现不同方法预测精度都存在差异,相比OK模型,RF和RFRK模型预测方法在一定程度上提高了土壤重金属含量的空间预测精度。为了进一步探究不同预测模型的准确性,对土壤重金属的实测值和预测值进行了精度线性拟合。研究发现,RF和RFRK模型比OK模型更为精确,在预测土壤重金属Pb、Cd、Cr和As含量时,该模型交叉验证R2值最高,实测值和预测值之间表现出了很强的相关性,RFRK模型平均绝对误差(MAE)与均方根误差(RMSE)为最小,图3对比OK模型,RF和RFRK模型中所有重金属含量均分布在1∶1线附近;相对比较,OK模型散点波动较为分散,OK模型相较基于地统计学理论单纯考虑因变量空间相关性[38];其次是RF模型,充分考虑了环境因素和土壤重金属含量之间复杂的非线性关系,预测精度相比较OK模型有所提升,这与谢恩泽等[39]和张万涛等[40]研究结果相似;RFRK模型散点波动范围最小,这些优异的结果可能是由于RFRK模型能够检测独立变量和因变量之间的复杂相互作用和非线性关系[41]。因此,相比于其他两种预测模型,RFRK模型不仅考虑了土壤重金属与环境因子之间的复杂关系,而且考虑到各土壤采样点间的空间结构和相关性,该模型的误差较小,其预测结果更符合研究区土壤重金属空间实际分布特征。
4. 结论
(1)研究区农田0 ~ 20 cm土层土壤重金属As、Cr、Pb和Cd含量平均值分别为28.33、0.51、9.50和63.16 mg kg–1,与所在地河套地区的土壤背景值比较,该研究区农田土壤重金属含量显著升高,但未达到国家农用地土壤风险筛选值水平。土壤As、Cr、Pb和Cd含量高值区主要分布在研究区北部、中部及冶炼厂厂区。
(2)不同预测模型对研究区0 ~ 20 cm土层农田土壤重金属含量预测结果空间分布趋势一致,但与OK相比,RF和RFRK对空间预测的细节刻画更为突出。
(3)RFRK模型对土壤重金属As、Cr、Pb和Cd含量的预测精度最高,表现为平均绝对误差(MAE)与均方根误差(RMSE)最小,交叉验证R2值最大。
-
表 1 农田土壤重金属含量描述性统计值(n = 116)
Table 1 Descriptive statistical analysis of heavy metal contents in agricultural soils
重金属
Heavy metal含量范围
Content range
(mg kg–1)平均值
Mean
(mg kg–1)标准差 SD
Standard deviation
(mg kg–1)变异系数 CV
Coefficient of variation土壤背景值
Soil background value
(mg kg–1)风险筛选值
Risk screening value
(mg kg–1)风险管制值
Risk control value
(mg kg–1)As 2.31 ~ 29.58 9.50 3.98 42% 9.68 25 100 Cr 26.61 ~ 105.94 63.16 16.10 26% 56.40 250 1300 Pb 6.20 ~ 74.39 28.33 11.82 42% 18.70 170 1000 Cd 0.01 ~ 2.29 0.51 0.40 79% 0.116 0.60 4.00 注:土壤污染风险筛选值和土壤污染风险管制值(pH > 7.5):GB 15618—2018Ⅱ《土壤环境质量农用地土壤污染风险管控标准》。 表 2 土壤重金属含量半方差函数及相关参数
Table 2 Theoretical model and parameters of semi-variance function of soil heavy metals
重金属
Heavy metal拟合模型
Model块金值C0
Nugget基台值C + C0
Partial块金效应C0 / (C0 + C)
Nugget effect
(%)变程
Range
(m)决定系数 R2
Decision factor残差平方和
ResidualAs 指数模型 0.002 0.433 99.5 735 0.915 2.988E-03 Cr 指数模型 0.066 0.631 89.5 411 0.970 1.282E-03 Pb 指数模型 0.046 0.496 90.7 150 0.717 9.379E-04 Cd 球状模型 0.013 0.033 59.6 258 0.739 2.018E-05 表 3 土壤重金属含量与影响因子相关性分析
Table 3 Correlation analysis of soil heavy metal content and influencing factors
变量
Variant海拔
Altitude坡度
Slope降雨量
Rainfall风速
Air velocity至道路距离
Distance to road距村庄距离
Distance to villageAs 0.051 0.458** −0.362** 0.021 0.260* 0.020 Cr 0.038 −0.066 −0.077 0.031 0.126 0.361** Pb −0.100 0.046 −0.125 0.008 0.441** −0.351** Cd 0.101 −0.298* 0.008 0.511** 0.513** 0.115 变量
VariantpH 电导率
Electrical conductance有机质
Organic matter土壤类型
Soil type土壤质地
Soil behaviorAs −0.160 −0.09 0.138 0.395** 0.231* Cr −0.030 0.206* 0.313** 0.210* 0.385** Pb 0.051 0.089 0.164 −0.422** 0.336** Cd −0.011 0.081 −0.056 0.369** 0.411** 注:* 表示显著性水平为0.05,** 表示显著性水平为0.01。 表 4 不同土壤重金属含量预测模型精度
Table 4 The accuracy of different soil heavy metal content prediction models
土壤重金属
Soil heavy metal平均绝对误差 MAE
Mean absolute error均方根误差 RMSE
Root mean square error决定系数 R2
Decision factor普通克里格
Ordinary krieger随机森林
Random forest普通克里格 + 随机森林
Ordinary krieger +
Random forest普通克里格
Ordinary
krieger随机森林
Random forest普通克里格 + 随机森林
Ordinary krieger +
Random forest普通克里格
Ordinary
krieger随机森林
Random
forest普通克里格 + 随机森林
Ordinary krieger +
Random forestAs 1.022 0.559 0.002 1.435 0.956 0.013 0.755 0.851 0.894 Cr 4.467 1.932 1.422 5.983 2.856 1.917 0.745 0.897 0.902 Pb 4.207 1.379 0.979 6.147 2.218 1.487 0.850 0.918 0.920 Cd 0.010 0.052 0.007 0.015 0.084 0.010 0.838 0.869 0.911 -
[1] Fei X F, Lou Z H, Xiao R, et al. Contamination assessment and source apportionment of heavy metals in agricultural soil through the synthesis of PMF and Geog Detector models[J]. Science of the Total Environment, 2020, 747: 141293 − 141293. doi: 10.1016/j.scitotenv.2020.141293
[2] Agomuo E N, Amadi P U. Accumulation and toxicological risk assessments of heavy metals of top soils from markets in Owerri, Imo state, Nigeria[J]. Environmental Nanotechnology, Monitoring & Management, 2017, 8: 121 − 126.
[3] 马宏宏, 余 涛, 杨忠芳, 等. 典型区土壤重金属空间插值方法与污染评价[J]. 环境科学, 2018, 39(10): 4684 − 4693. doi: 10.13227/j.hjkx.201712185 [4] 周 艳, 陈 樯, 邓绍坡, 等. 西南某铅锌矿区农田土壤重金属空间主成分分析及生态风险评价[J]. 环境科学, 2018, 39(6): 2884 − 2892. doi: 10.13227/j.hjkx.201707125 [5] 王洋洋, 李方方, 王笑阳, 等. 铅锌冶炼厂周边农田土壤重金属污染空间分布特征及风险评估[J]. 环境科学, 2019, 40(1): 437 − 444. [6] 陈镜琼, 彭开良, 刘克俭. 金属矿尘与癌症发病关系(金属矿山15年历史前瞻性流行病学调查)[J]. 武汉医学杂志, 1988, (3): 148 − 152. [7] 田 浩. 某矿区农田重金属污染工程—植物联合修复技术研究[D]. 西安: 长安大学, 2016. [8] Nayab A, Rashid A S, Abdul Q, et al. Use of statistical and GIS techniques to assess and predict concentrations of heavy metals in soils of Lahore City, Pakistan[J]. Environmental monitoring and assessment, 2015, 187(10): 636. doi: 10.1007/s10661-015-4855-1
[9] Chen H, Teng Y, Lu S, et al. Contamination features and health risk of soil heavy metals in China[J]. Sci Total Environ, 2015, 512-513: 143 − 153. doi: 10.1016/j.scitotenv.2015.01.025
[10] Liu R, Wang M, Chen W P, et al. Spatial pattern of heavy metals accumulation risk in urban soils of Beijing and its influencing factors[J]. Environmental Pollution, 2016, 210(8): 174 − 181.
[11] Stéphane G, David A, Pierre S, et al. A hundred year record of industrial and urban development in French Alps combining Hg accumulation rates and isotope composition in sediment archives from Lake Luitel[J]. Chemical Geology, 2016, 431(431): 10 − 19.
[12] Fritsch C, Giraudoux P, Cœurdassier M, et al. Spatial distribution of metals in smelter-impacted soils of woody habitats: Influence of landscape and soil properties, and risk for wildlife[J]. Chemosphere, 2010, 81(2): 141 − 155. doi: 10.1016/j.chemosphere.2010.06.075
[13] 刘秋荣. 某矿区土壤重金属的空间分布研究及健康风险评价[D]. 湘潭: 湘潭大学, 2020. [14] James F. The elements of statistical learning: data mining, inference and prediction[J]. The Mathematical Intelligencer, 2005, 27(2): 1 − 3.
[15] 王 雪. 平朔矿区典型土壤养分空间分布及其影响因素[D]. 北京: 中国地质大学, 2016. [16] 陈劲松, 张 颖, 蒲生彦. 某炼铁厂遗留场地重金属污染空间分布特征及风险评价[J]. 安全与环境工程, 2021, 28(3): 162 − 169. doi: 10.13578/j.cnki.issn.1671-1556.20210025 [17] 陈秀端. 中国城市土壤重金属空间分布与污染研究[J]. 环境科学与技术, 2011, 34(S2): 60 − 65. [18] Xie Y F, Chen T B, Lei M, et al. Spatial distribution of soil heavy metal pollution estimated by different interpolation methods: Accuracy and uncertainty analysis[J]. Chemosphere, 2010, 82(3): 468 − 476.
[19] 张素梅, 王宗明, 张 柏, 等. 利用地形和遥感数据预测土壤养分空间分布[J]. 农业工程学报, 2010, 26(5): 188 − 194. [20] Brokamp C, Jandarov R, Rao B M, et al. Exposure assessment models for elemental components of particulate matter in an urban environment: A comparison of regression and random forest approaches[J]. Atmospheric Environment, 2017, 151: 1 − 11. doi: 10.1016/j.atmosenv.2016.11.066
[21] 方匡南, 吴见彬, 朱建平, 等. 随机森林方法研究综述[J]. 统计与信息论坛, 2011, 26(3): 32 − 38. [22] Heng T, Heuvelink Gerard B M, Kempen B, et al. Mapping Soil Properties of Africa at 250 m Resolution: Random Forests Significantly Improve Current Predictions[J]. PloS one, 2015, 10(6): 1 − 26.
[23] Wang H Z, li Q M, Yuan M N, et al. Prediction models of soil heavy metal(loid)s concentration for agricultural land in Dongli: A comparison of regression and random forest[J]. Ecological Indicators, 2020, 119: 1 − 11.
[24] Zhang H, Wu P B, Yin A J, et al. Prediction of soil organic carbon in an intensively managed reclamation zone of eastern China: Acomparison of multiple linear regressions and the random forestmodel[J]. Science of the Total Environment, 2017, 592(15): 704 − 713.
[25] 李启权, 王昌全, 岳天祥, 等. 基于定性和定量辅助变量的土壤有机质空间分布预测: 以四川三台县为例[J]. 地理科学进展, 2014, 33(2): 259 − 269. [26] 瞿明凯. 几种地统计学方法在县域土壤空间信息处理上的应用与研究[D]. 武汉: 华中农业大学, 2012. [27] 尉 芳, 刘 京, 夏利恒, 等. 陕西渭北旱塬区农田土壤有机质空间预测方法[J]. 环境科学, 2022, 43(2): 1097 − 1107. doi: 10.13227/j.hjkx.202106114 [28] Biau G, Scornet E. A random forest guided tour[J]. TEST, 2016, 25(2): 197 − 226. doi: 10.1007/s11749-016-0481-7
[29] 黄赵麟, 丁 懿, 王君櫹, 等. 基于多模型优选的区域土壤重金属含量空间预测方法研究[J]. 生态与农村环境学报, 2020, 36(3): 308 − 317. doi: 10.19741/j.issn.1673-4831.2019.0326 [30] 李梦佳, 王 磊, 刘洪斌, 等. 不同模型预测土壤有机质含量空间分布对比分析[J]. 西南农业学报, 2021, 34(3): 610 − 617. doi: 10.16213/j.cnki.scjas.2021.3.022 [31] 高红霞, 王喜宽, 张 青, 等. 内蒙古河套地区土壤背景值特征[J]. 地质与资源, 2007, 16(3): 209 − 212. doi: 10.3969/j.issn.1671-1947.2007.03.008 [32] 林 荩, 张 凯, 任婧媛, 等. 青海省德令哈市某铅锌选矿厂土壤重金属垂向分布特征及污染风险评估[J]. 中国地质, 2022: 1-19. https://kns.cnki.net/kcms/detail/11.1167.p.20221121.1253.002.html. [33] 段凯祥. 兰州市农田土壤—作物系统中重金属的污染特征及其风险评估[D]. 甘肃: 兰州交通大学, 2022. [34] 姜赛平, 张怀志, 张认连, 等. 基于三种空间预测模型的海南岛土壤有机质空间分布研究[J]. 土壤学报, 2018, 55(4): 1007 − 1017. [35] 王茵茵, 齐雁冰, 陈 洋, 等. 基于多分辨率遥感数据与随机森林算法的土壤有机质预测研究[J]. 土壤学报, 2016, 53(2): 342 − 354. doi: 10.11766/trxb201508170308 [36] Alexandre M. J-C. Wadoux, Dick J. Brus, Gerard B. M. Heuvelink. Sampling design optimization for soil mapping with random forest[J]. Geoderma, 2019, 355(C): 113913 − 113913.
[37] Heng T, Madlene N, Wright Marvin N. et al. Random forest as a generic framework for predictive modeling of spatial and spatio-temporal variables[J]. PeerJ, 2018, 6: 5518 − 5518. doi: 10.7717/peerj.5518
[38] 曾菁菁, 沈春竹, 周生路, 等. 基于改进LUR模型的区域土壤重金属空间分布预测[J]. 环境科学, 2018, 39(1): 371 − 378. doi: 10.13227/j.hjkx.201704024 [39] 谢恩泽, 赵永存, 陆访仪, 等. 不同方法预测苏南农田土壤有机质空间分布对比研究[J]. 土壤学报, 2018, 55(5): 1051 − 1061. [40] 张万涛, 吉静怡, 李彬彬, 等. 黄土高原不同地貌区农田土壤有机质预测方法研究[J]. 植物营养与肥料学报, 2021, 27(4): 583 − 594. doi: 10.11674/zwyf.20464 [41] Araki S, Shima M, Yamamoto K. Spatiotemporal land use random forest model for estimating metropolitan NO 2 exposure in Japan[J]. Science of the Total Environment, 2018, 634(1): 1269 − 1277.