【學術沙龍】DCAI視角下的地下水數(shù)據(jù)質量問題識別
2025年3月14日下午,資環(huán)學院“求實導師學術沙龍”講座在實驗樓B座517順利舉行,曹海龍老師以《DCAI視角下的地下水數(shù)據(jù)質量問題識別》為題展開學術報告,為在場研究生分享了數(shù)據(jù)質量的重要性以及如何通過以數(shù)據(jù)為中心的人工智能(DCAI)識別潛在的數(shù)據(jù)質量缺陷。

隨著機器學習在地源性污染地下水建模中變得越來越重要,解決預測誤差仍然是一個基本挑戰(zhàn)。全面文獻綜述揭示了一個顯著的研究空白:雖然幾乎所有研究都量化了誤差,但對誤差類型、特征及根本原因的系統(tǒng)性研究仍然明顯缺失。除了優(yōu)越的算法外,當前的以模型為中心(MCAI)的范式強調獲取更多數(shù)據(jù)和更好的預測因子以提高模型準確性。但是,地下水系統(tǒng)的數(shù)據(jù)匱乏環(huán)境限制了追求“更多”和“更好”的可行性。
以DCAI思想為基礎開發(fā)一個框架,基于誤差與關鍵性能決定因素的關系建立錯誤剖面,并輔以與模型無關的后驗分析定位數(shù)據(jù)質量問題。以印度地下水氟數(shù)據(jù)為例,該框架發(fā)現(xiàn)人為引入的標簽噪聲是預測錯誤的主要來源。去除這些噪聲樣本不僅維持了模型性能,還增強了模型對過擬合的的魯棒性。這些發(fā)現(xiàn)表明,精細的數(shù)據(jù)管理可以實現(xiàn)“少即是多”的效果。追求“更多”和“更好”并不是提高模型性能的唯一途徑。
交流環(huán)節(jié)氣氛熱烈,與會師生就“MCAI和DCAI的核心區(qū)別”、“數(shù)據(jù)質量缺陷的常見類別”和“MCAI與地下水建模的融合”等問題展開討論。師生一致認為,人工智能與地球科學的結合將是未來助力認識地球系統(tǒng)規(guī)律的重要途徑。