随着人口增长和生物燃料消耗的增加,预计到2050年,全球粮食需求将翻一番。玉米是最重要的粮食作物,供养着世界上38%人口。中国作为第二大玉米生产和消费国,产量占全球总量的21%。及时、准确的产量估算对保障全球粮食安全等至关重要。先前的研究仅局限于可见光、近红外波段的植被指数、气象数据等一两种类型的数据,利用作物模型或统计模型来进行估产。但是,其他波段的遥感数据和农情相关的地理空间数据还未能得到充分地利用。此外,综合利用多源数据尽管能提高估产的精度,但哪些数据的组合能够得到最好的效果尚不清楚。最后,虽然作物模型能够从机理上刻画基因(G)×环境(E)×管理(M)的影响,但是高质量的数据需求和大量的计算阻碍了其大范围的应用。传统的统计模型虽然计算简单但估产精度不高。作为传统方法的直接继承者,新兴的机器学习和深度学习方法在图像分类、语音识别、基因测序等众多领域展现了优势。但在农业领域的应用非常有限,其在产量估算中的表现还有待探究。
地表过程与资源生态国家重点实验室张朝教授课题组对比了新近发现的SIF(Solar-induced chlorophyll fluorescence)与传统的EVI(Enhanced Vegetation Index)在产量预测中的表现。结合SIF,气象指标(热波段的地表温度(LST)、降雨和饱和水汽压差(VPD))以及环境指标(表层土壤属性和空间位置信息),利用LASSO,RF,XGBoost和LSTM四种数据驱动方法,预测了2001-2015年县级玉米产量。相关成果于2019年12月18日正式刊登在杂志Remote Sensing(2018年影响因子4.740)。文章第一作者为博士研究生张亮亮,通讯作者为张朝教授。
结果表明,虽然SIF能够直接反映作物的光合作用强度,但是在产量预测中的表现与EVI相当,这主要是由于当前SIF数据分辨率较粗和信噪较低(图1)。结合多源地理空间数据能够解释75%以上的产量变异,且预测和观测产量的空间格局高度吻合(图2)。研究发现抽穗期SIF和营养生长期极端高温和VPD对精确估产作出了较大贡献(图3)。土壤特性和管理因素也包含了卫星和气候数据无法捕捉的关键信息(图4)。机器学习和深度学习方法显著优于线性回归(LASSO),且机器学习方法的计算效率更高,泛化能力也更强。
图1. SIF和EVI在产量预测中的表现。R2 和RMSE 为十折交叉验证的值
图2. 观测产量(a)和预测产量(RF (b), XGBoost (c) and LSTM (d))的空间分布
图3. (a)全生育期的气象数据结合特定阶段的SIF的预测R2。(b)全生育期的SIF结合特定阶段的气象数据的预测R2
图4. 四大玉米主产区XGBoost模型中的因子重要性排序
该研究基于公开共享的多波段的遥感数据和环境数据利用机器学习和深度学习进行了大尺度的玉米产量预测。提出的方法很容易推广应用到其他区域及其他作物的产量预测。
原文链接:
https://www.mdpi.com/2072-4292/12/1/21
(供稿人:张亮亮)
地表过程与资源生态国家重点实验室