合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
译者 | 朱先忠
审校 | 重楼
时空数据来自手机、气候传感器、金融市场交易以及车辆和集装箱中的传感器等多种来源,是规模最大、扩展最快的数据类别。IDC估计,到2025年,联网的物联网设备产生的数据总量将达到73.1 ZB,复合年增长率从2019年的18.3 ZB增长到26%。
根据《麻省理工科技评论》最近的一份报告显示,物联网数据(通常标有位置)的增长速度快于其他结构化和半结构化数据(见下文中的图示)。然而,由于物联网数据的复杂集成和有意义的利用带来的挑战,大多数组织至今在很大程度上仍未开发物联网数据。
当前,两项突破性技术进步的融合将为地理空间和时间序列数据分析领域带来前所未有的效率和可访问性。第一种是GPU加速的数据库,它为时间序列和空间工作负载带来了以前无法达到的性能和精度水平。第二种是生成式人工智能,这一技术有助于消除对同时拥有GIS专业知识和高级编程敏锐性的高端人才的需求。
上述这些发展成就都是开创性的,它们相互交织,使复杂的空间和时间序列分析越来越普及,使越来越广泛的数据专业人员比以往任何时候都能够使用这些技术。在这篇文章中,让我们来探讨这些进步将如何重塑时空数据库的格局,并开创一个数据驱动的见解和创新的新时代。
GPU最初设计用于加速计算机图形和渲染,最近在其他需要大规模并行计算的领域推动了有关创新,这包括为当今最强大的生成式人工智能模型提供动力的神经网络。同样,时空分析的复杂性和范围经常受到计算规模的限制。但是,能够利用GPU加速技术的现代数据库已经突破了新的性能瓶颈,从而推动新的技术见解。在这里,我将重点介绍基于GPU加速的时空分析方面的两个特定领域。
在分析不同的时间序列数据流时,时间戳很少完全对齐。即使设备依赖精确的时钟或GPS(全球卫星定位系统),传感器也可能以不同的间隔生成读数,或提供具有不同延迟的指标。或者,在股票交易和股票报价的情况下,您可能会有交错的时间戳,而这些时间戳并不完全一致。
为了在任何给定时间获得机器数据状态的通用操作画面,您需要加入这些不同的数据集(例如,了解路线上任何点处的车辆的实际传感器值,或将金融交易与最新报价进行对账等)。与客户数据不同,在客户数据中,您可以使用固定的客户ID进行连接;在这里,您需要执行不精确的连接,以根据时间关联不同的数据流。
我们可以利用GPU的处理能力来完成繁重的任务,而不是试图构建复杂的数据工程管道来关联时间序列。例如,借助于Kinetica(一个分布式的、GPU加速的数据库),您可以利用GPU加速的ASOF联接,该联接允许您使用指定的间隔将一个时间序列数据集联接到另一个数据集,以及确定应返回该间隔内的最小值还是最大值。
例如,在下面的场景中,交易和报价以不同的时间间隔到达。
如果我想分析苹果公司的交易及其相应的报价,我可以使用Kinetica的ASOF联接来立即找到在每次苹果交易的特定间隔内发生的相应报价。相应的SQL脚本如下所示:
SELECT *
FROM trades t
LEFT JOIN quotes q
ON t.symbol = q.symbol
AND ASOF(t.time, q.timestamp, INTERVAL '0' SECOND, INTERVAL '5' SECOND, MIN)
WHERE t.symbol = 'AAPL'
TOP