合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
在新的一年里,大数据将给我们带来什么?这是任何人的猜测,真的,因为过去证明了未来很难预测。对于大数据预测,我们期待行业专家的洞察力。
数据库提供商Percona的技术布道者Dave Stokes表示,人们对矢量数据库的兴趣将会激增。
“向量数据库将是许多人讨论的热门新领域,但最终将在几年后被关系数据库所吸收。” Stokes预测,“每隔10年左右,就有一种‘新’数据库技术被宣布为关系数据库的终结,开发人员跳上了这股潮流,结果却重新发现,关系模型极其灵活,关系数据库供应商可以很容易地将新技术适应到他们的产品中。”
完全不同的数据孤岛的存在一直是数据工程师的眼中钉,但Hammerspace的营销高级副总裁Molly Presley表示,随着集中式数据编排成为中心舞台,2024年将带来一线希望。
“公司将开始从‘存储和复制’转向数据协调的世界,” Presley说,“在AI进步的推动下,现在存在强大的工具来分析数据并梳理出可操作的见解,然而,文件存储基础架构没有跟上这些进步的步伐。与试图通过将文件副本从一个位置移动到另一个位置来管理存储孤岛和分布式环境的解决方案不同,数据协调可帮助公司将来自不同孤岛和位置的数据集成到单个命名空间中,并在数据最有价值的时间和位置自动放置数据,从而更容易分析和获得洞察。”
我们存储的大部分数据都是非结构化的。Mino的联合创始人兼首席执行官Anand Babu “AB” Periasamy表示,随着它的堆积,这将成为一个真正的挑战,但2024年将带来管理这一切的新方法。
“2024年,随着AI应用的迅速发展,我们将看到真正非结构化的数据(音频、视频、会议录音、演讲、演示文稿)的企业爆炸式增长。从AI的角度来看,这是高度‘可学习’的内容,将其收集到AI数据湖中将极大地提升企业整体的智能能力,但也伴随着独特的挑战,”Periasamy说,“要将性能保持在几十拍字节,存在着明显的挑战。传统的SAN/NAS解决方案通常无法解决这些问题——它们需要现代高性能对象存储的属性。这就是为什么大多数AI/ML技术(即OpenAI、Anthropic、Kubeflow)利用对象存储,以及为什么大多数数据库正在转向以对象存储为中心的原因。”
根据Forrester的数据,由企业管理的非结构化数据将在2024年翻一番,为AI打开潜在的有利可图的新选择。
“全球数据和分析决策者表示,他们公司管理的数据中只有27%是非结构化的,该分析小组表示,“随着公司为客户和员工推出更多的对话体验,GenAI将把这一数字翻一番。企业将争先恐后地存储、分析和理解这种非结构化数据的洪流。这一趋势将体现在数据管道领域,2024年新建的数据管道中,80%将用于摄取、处理和存储非结构化数据。”
Faction公司负责技术和运营的副总裁Jeff Heller表示,2024年,全球许多企业将实施数据优先架构,以简化其数据管理战略。
Heller说:“公司正在经历一场范式转变;他们要么选择一种云,要么选择架构师来满足他们的需求。在2024年,公司将需要考虑哪种云最适合他们,以最大限度地利用数据。基于短期目标而不是长期增长做出的决定将导致数据锁定。数据需要准确和可访问,才能及时做出决策。对于公司来说,管理数据正变得越来越复杂。对有效的数据管理策略的需求是至关重要的。企业将转向提供从所有云的首选位置访问单个数据集的解决方案,从而确保数据准确性和提高效率。”
数据管道商店Matillion的首席产品官Ciaran Dyes表示,AI革命正在触及生活的方方面面,包括大数据管理。
“在过去的十年里,数据工程师的角色已经从根本上扩大了,” Dynes说,“未来12个月将是科技公司让数据工程师的生活变得更简单的一年。工具将投放市场,集成到现有平台中,以支持将生成性AI添加到现有数据管道中,并能够在内部部署这些模型,以便用户可以与这些模型实时交互,就像他们已经对ChatGPT所做的那样。不管市场上有哪些工具,明年也会出现对数据工程师的巨大需求,他们需要重新培训数据工程师,以掌握即时工程,如何微调这些模型,如何大幅提高他们的生产率。明年,数据工程师的生活将变得更加有趣。”
你有多看重数据工程师?Snowflake公司的产品管理总监Jeff Hollan表示,在2024年,你会更加重视它们。
Hollan说:“有很多传言说,AI革命将取代数据工程师的角色。事实并非如此,事实上,他们的数据专业知识将比以往任何时候都更加关键——只是以新的和不同的方式。为了跟上不断发展的格局,数据工程师将需要了解GenAI如何增加价值。由数据工程师构建和管理的数据管道可能是第一个连接大型语言模型的地方,供公司释放价值。数据工程师将是懂得如何使用模型并将其插入数据管道以自动提取价值的人。他们还将负责监督和理解AI工作。”
当数据由云中的第三方管理时,你可能会觉得数据失去了控制。Ngrok的首席技术官Peter Shafton预测,2024年将是你开始收回对数据的控制权的一年。
Shafton说:“2024年的数据管理将显著转向更易获得和更好的控制。尽管过去十年见证了人们对基于云的数据解决方案的热潮,但钟摆正在朝着更自我管理的方向摇摆,这种转变背后的原因有两个:隐私和成本效益。数据泄露的持续威胁以及对更严格访问控制的需求,使企业对仅依赖外部云平台持谨慎态度。此外,云数据存储和处理成本的不可预测性促使公司寻求更可预测、更具成本效益的解决方案。可访问且用户友好的数据管理工具的激增也推动了这一趋势,这些工具通常源于由优步、Netflix和Airbnb等科技巨头首创的开源解决方案。”
近几年来,“数据智能”这个术语一直在增长,指的是公司对其数据实施的各种数据管理工具。Nasuni的首席创新官Jim Liddle表示,未来12个月将是这一概念成败的关键。
Liddle说:“数量惊人的公司存储了大量数据,只是因为他们不知道里面有什么,也不知道自己是否需要这些数据。数据准确和最新吗?它是否得到了适当的分类,是否可以进行搜索?它合规吗?它是否包含个人身份信息(PII)、受保护的健康信息(PHI)或其他敏感信息?它是按需提供还是存档?在未来一年里,所有公司都将被迫接受AI的数据质量、治理、访问和存储要求,然后才能推进数字转型或改进计划,以获得所需的竞争优势。”
Coalesce首席执行官兼联合创始人Armon Petrossian表示,如果不能保持数据的质量和完整性,你就可以和你的2024年GenAI计划吻别了。
他说:“在2024年,随着数据从一种有价值的资产演变为蓬勃发展的企业的命脉,技术格局将发生革命性转变。忽视数据质量、完整性和谱系的公司将面临挑战,不仅要做出明智的决策,还要实现生成性AI、LLM和ML应用程序和用例的全部潜力。随着这一年的到来,我预测,忽视打造强大的数据基础和战略的公司将发现,在快速发展的科技行业中维持下去将面临越来越大的挑战。那些未能适应和优先考虑数据基本面的公司将很难超越竞争对手,甚至可能冒着在这个竞争激烈的环境中生存的风险。”
数据沿袭构成了一个持久的挑战。Altair云计算总工程师Yeshwant Mummaneni预测,2024年,区块链将会伸出援手。
Mummaneni说,“随着AI/ML模型在关键决策中发挥关键作用,无论是在人类的监督下还是以完全自主的方式,模型的起源/血统变得至关重要。区块链利用密码学提供记录、数字身份、签名和验证的不变性的基础技术,将成为企业AI提供防篡改模型来源的关键方面。”
2024年,另一个大数据趋势将像寒冷冬夜的冰晶一样增长:合成数据。SAS的高级分析产品经理Spiros Potamitis如是说。
Potamitis说:“随着公司面临更严格的监管,跨境共享敏感数据变得更具挑战性,合成数据将获得很大的吸引力。合成数据可以高精度捕获原始数据源的统计属性,从而克服监管障碍,为公司解锁创新。”
ALTR首席执行官James Beecham表示,虽然你的大数据存储库感觉是正确的,但2024年将是数据治理“左移”的一年。
Beecham说:“公司将在数据之旅的早期实施数据治理和安全措施,位于云数据仓库的左侧,这不仅将保护敏感信息,还将提高收集数据的整体质量。随着有关数据隐私和安全的法规越来越多,早期将数据治理和安全放在首位的公司将更好地准备好遵守这些法规。2024年,预计将看到大量公司优先考虑Shift Left数据治理和安全-使它们能够启动云数据仓库和Lake House上可用的强大数据访问治理和数据安全能力,并在数据离开源系统时将其扩展回数据。”
Denodo首席执行官Angel Vi?a表示,2023年,数据网格在某种程度上让位于其他科技趋势(我们正在关注你,GenAI),但在2024年,数据网格的好处将变得过于明显,不容忽视。
Vi?a说:“2024年将是数据网络兴起的关键一年,数据网络拥抱了数据固有的分布式本质。”在数据网中,IT的角色转变为为数据域提供工作基础,即在整个企业中创建和分发数据产品。转折点将是认识到数据产品应该得到与任何其他提供…的产品同等的重要性。.在这个以数据为中心的时代,仅仅以吸引人的方式打包数据是不够的,公司需要增强整个最终用户体验。”
TOP