(通訊員 吳越)近日,資源與環(huán)境學(xué)院青年教師曹海龍博士(第一作者)在地球與環(huán)境科學(xué)領(lǐng)域Top期刊《Environmental Science and Technology》(自然指數(shù)NI期刊,5年IF:12.0)上發(fā)表研究論文《地質(zhì)成因劣質(zhì)地下水機(jī)器學(xué)習(xí)模型的可遷移性》(Transferability of Machine Learning Models for Geogenic Contaminated Groundwaters),揭示了機(jī)器學(xué)習(xí)在預(yù)測(cè)天然劣質(zhì)地下水空間分布預(yù)測(cè)中的易被忽視的缺陷。

以高砷和高氟地下水為代表的地質(zhì)成因劣質(zhì)地下水(GCGs)在全球廣泛分布,受影響人口數(shù)以億計(jì)。近20年來,機(jī)器學(xué)習(xí)逐漸成為GCGs空間分布預(yù)測(cè)的有力工具。地下水系統(tǒng)是公認(rèn)的數(shù)據(jù)匱乏的系統(tǒng),存在大量無樣本或少樣本區(qū)域,為這些地區(qū)建立專屬模型極具挑戰(zhàn)性。被廣泛接受的一個(gè)潛在的解決方案是將現(xiàn)有模型遷移到樣本匱乏地區(qū):(1)將多單元大尺度模型遷移至無樣本子單元;(2)將單一單元模型遷移至無樣本單元。理論分析和實(shí)際數(shù)據(jù)顯示這種轉(zhuǎn)移可能具有極大風(fēng)險(xiǎn)。
圖1. 山西裂谷系統(tǒng)六大盆地和采樣點(diǎn)的位置
山西裂谷系統(tǒng)(SRS)由6個(gè)斷陷盆地構(gòu)成,是典型的高氟地下水分布區(qū)。本研究以SRS為研究區(qū),綜合考慮建模方法、預(yù)測(cè)因子類型、數(shù)據(jù)規(guī)模、樣本特征比、預(yù)測(cè)因子范圍、數(shù)據(jù)告知和隨機(jī)性等潛在的遷移性影響因素,探討了高氟下水模型在SRS中的空間可遷移性。研究發(fā)現(xiàn),預(yù)測(cè)因子類型和數(shù)據(jù)告知決定了模型可遷移性,常見的以表面參數(shù)為預(yù)測(cè)因子的模型不具有空間可遷移性。在對(duì)訓(xùn)練數(shù)據(jù)的非線性降維分析的基礎(chǔ)上,研究提出表面預(yù)測(cè)因子-中間變量映射的空間依賴導(dǎo)致預(yù)測(cè)因子-中間變量-劣質(zhì)組分濃度關(guān)系具有空間不可遷移性。上述發(fā)現(xiàn)對(duì)不同類型GCGs和不同環(huán)境特征區(qū)域不敏感。根據(jù)上述發(fā)現(xiàn),研究給出了具體的建模實(shí)踐建議。
圖2. 總體研究方案

圖3. 不同盆地?cái)?shù)據(jù)的 t-SNE 低維特征。a 和 b 中的預(yù)測(cè)因子分別對(duì)應(yīng)水化學(xué)參數(shù)和地表參數(shù)
研究成果將促進(jìn)在預(yù)測(cè)GCGs中對(duì)機(jī)器學(xué)習(xí)的合理有效應(yīng)用,啟發(fā)針對(duì)GCGs數(shù)據(jù)特征的機(jī)器學(xué)習(xí)方法的開發(fā),為地下水管理和保護(hù)提供可靠工具。
資源與環(huán)境學(xué)院長(zhǎng)期以來重視青年人才引進(jìn)和培育,論文第一作者曹海龍博士為學(xué)院2023年引進(jìn)的優(yōu)秀博士,以第一作者在Environmental Science and Technology(2篇)、Journal of Hydrology(4篇)等Top期刊發(fā)表論文多篇。
本研究工作受到國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2021YFA0715900)、國(guó)家自然科學(xué)基金(42020404005)、高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃等的資助。(審核 肖品龍 徐耀輝)
論文鏈接:https://doi.org/10.1021/acs.est.4c01327