地理数据时空分析现状
新时期地理学的核心使命在于探究自然与人文要素的时空分异规律及其相互作用关系,进而预测地球表层系统的时间演变过程[2]。为了全力完成 新时期所赋予的核心使命,迫切需要4类时空分析的理论、技术与方法支撑:
- 时空聚类分析(本文关注点);
- 时空异常分析;
- 时空关联分析;
- 时空预测分析;
虽然每类时空分析方法面向不同知识类型,但在具体地学应用中,可以通过不同知识之间的彼此增益,为解决综合性地理问题提供系统方案。例如在空气污染时空分析案例中,首先借助时空聚类与异常分析方法提取空气污染物浓度的时空分区与突变结构,为构建局部预测模型提供基础[3];进而,基于时空关联分析方法深入挖掘空气污染物浓度影响因子的作用机制,辅助预测模型的协变量选择[4-5];最后,在空气污染浓度的时空分布与关联知识的基础之上,建立多变量自适应协同的局部时空预测模型,以实现空气污染浓度的高精度预测[6];
时空聚类分析
时空聚类分析旨在发现地理空间中各类实体的时空分布格局与规律,对于揭示地理实体或地理现象的本质特征、相互依赖关系和演化趋势具有重要的指导意义。根据聚类方法是否顾及非空间专题属性,可以将当前时空聚类分析方法分为二大类:
- 时空位置聚类,用于发现事物在空间位置上毗邻、时间上邻近发生的时空分布格局与规律;包括基于划分的方法、基于层次的方法、基于密度的方法、基于模型的方法和混合策略的方法;
- 顾及非空间专题属性的时空聚类,旨在发现具有相似专题属性的地理实体或现象(如监测站点的空气质量、气温等)在时空域上聚集分布的特征,需要同时满足空间/时间毗邻和专题属性相似的双重约束[7];依据属性结合策略不同,分为时空-属性耦合方法和时空-属性分治方法。
- 时空-属性耦合方法:将地理实体的空间位置、时间和非空间属性视为附加在地理实体上的多维属性,每一个地理实体由一个多维向量进行表示,定义一种混合的距离或相似性度量进行聚类[8]。
- 时空-属性分治方法:分别从空间和非空间属性 2 个方面施加层次约束进行聚类操作,以获得综合多维特征相似性的聚类结果[9-12]。
面对泛在化、动态性的地理时空大数据,传统“静态”数据的时空聚类算法面临着巨大挑战。近年来,国内外学者针对时空数据的动态性(即“流数据”)聚类分析亦开展了深入研究,取得了丰硕的研究成果,其中具有代表性的是针对移动对象的时空聚类分析,所提取的聚集模式主要分为4 类,即Convoy 模式、Swarm 模式、Platoon 模式和Movingcluster 模式。Convoy 模式又称为护航模式,指多个对象一起移动一定连续时间的群体运动模式,如执行护航任务的飞机编队机群;Swarm 模式也被称为蜂群模式,指一定规模的群体对象在多个时间段(不要求连续)一起移动的群体运动模式,如蜂群的移动模式;Platoon 模式是一种时间约束介于Convoy 模式和Swarm 模式之间的一种群体运行模式,群体对象可以在某个或几个时间段分离,然后又汇合在一起连续移动一定时间段;Moving cluster模式不同于前几个模式,其不要求群体内的对象不变,即允许群体对象一起运动过程中有新对象加入群体以及对象退出群体,如动物迁徙。
时空异常分析
时空异常分析旨在从海量时空数据库中挖掘得到偏离整体或局部分布特征的少部分实体,为深入剖析地理现象或地理过程的特殊分布状况、变化或潜在发展规律提供重要的理论依据和实践指导。
时空关联分析
时空关联分析旨在从时空数据集中识别不同类别地理实体间频繁存在特定时空关联关系(如时空邻近关系)的实体类别集合,对于理解地理实体间的时空交互具有重要的科学意义。
时空预测分析
时空预测是通过构建反映时空变量间关系的模型对地理事件或现象未知的空间属性值或专题属性值进行估。
时空分析的难点问题
为适应于地理大数据多粒度、多类型、多元关联和多维动态等多模态特点,地理数据时空分析现有研究仍存在一些亟需解决的难点问题,主要包括:
- 时空聚集模式的尺度依赖性建模, 地理数据的自相关、异质和多尺度特性是认识和理解地理事物时空分布规律的基础。实际应用中忽略了对地理数据的自相关、异质和多尺度特性的探索与分析,亦缺少对所挖掘模式显著性评价(顾及非空间专题属性的时空聚集模式统计挖掘方法[13]);现有时空聚类方法较少地顾及尺度对挖掘结果的影响,能够挖掘数据中多尺度聚集模式的时空聚类方法研究还相对初步。
- 时空异常模式的多视角协同探测。
- 时空关联模式的多特征可信认知。
- 融合时空数据多重特性的时空预测。
参考资料
邓敏,蔡建南,杨文涛,唐建波,杨学习,刘启亮,石岩.多模态地理大数据时空分析方法[J].地球信息科学学报,2020,22(01):41-56.
傅伯杰,冷疏影,宋长青.新时期地理学的特征与任务[J]. 地理科学,2015,35(8):939-945.
Deng M, Fan Z, Liu Q, et al. A hybrid method for interpolating missing data in heterogeneous spatio-temporal datasets[ J]. ISPRS International Journal of Geo-information, 2016,5(2):13.
何占军,邓敏,蔡建南,等.顾及背景知识的多事件序列关联规则挖掘方法[J].武汉大学学报·信息科学版,2018,43(5):766-772.
He Z, Deng M, Cai J, et al. Mining spatiotemporal association patterns from complex geographic phenomena[J].International Journal of Geographical Information Science, 2019:1-26. https://doi.org/10.1080/1365 8816.2019.1566549
Deng M, Yang W, Liu Q, et al. Heterogeneous space – time artificial neural networks for space–time series prediction[ J]. Transactions in GIS, 2018,22(1):183-201.
焦利民,张欣,毛立凡.自组织双重空间聚类算法的城市扩张结构分析应用[J].地球信息科学学报,2015,17(6):638-643.
Joshi D, Samal A, Soh L K. Spatio- temporal polygonal clustering with space and time as first- class citizens[J]. Geo-informatica, 2012,17(2):387-412.
Liu Q, Deng M, Shi Y, et al. A density-based spatial clustering algorithm considering both spatial proximity and attribute similarity[J]. Computers & Geosciences, 2012, 46:296-309.
石岩,刘启亮,邓敏,等.融合图论与密度思想的混合空间聚类方法[J].武汉大学学报·信息科学版,2012,37(11):1276-1280.
Han J, Zhu L, Kulldorff M, et al. Using gini coefficient to determining optimal cluster reporting sizes for spatial scan statistics[J]. International Journal of Health Geographics, 2016,15(1):27.
Lin C R, Liu K H, Chen M S. Dual clustering: Integrating data clustering over optimization and constraint domains [J]. IEEE Transactions on Knowledge and Data Engineering, 2005,17(5):628-637.
唐建波,刘启亮,邓敏,等.空间层次聚类显著性判别的重排检验方法[J].测绘学报,2016,45(2):233-240.