加入收藏 | 设为首页 | 会员中心 | 我要投稿 大连站长网 (https://www.0411zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据项目可能出错的几种方案

发布时间:2022-08-23 17:25:01 所属栏目:大数据 来源:互联网
导读:大数据项目的低成功率是过去10年中一个持续存在的问题,与之类似的是:人工智能项目中也出现了相同类型的问题。虽然100%的成功率不是一个可以实现的目标,但用户可以进行一些调整以从数据投资中获得更多收益。 一个重要原因是缺乏数据集中化,这抑制了公司
  大数据项目的低成功率是过去10年中一个持续存在的问题,与之类似的是:人工智能项目中也出现了相同类型的问题。虽然100%的成功率不是一个可以实现的目标,但用户可以进行一些调整以从数据投资中获得更多收益。

  一个重要原因是缺乏数据集中化,这抑制了公司从数据中获取价值的能力。大多数任何规模的公司的数据都分布在大量孤岛——数据库、文件系统、应用程序和其他位置。公司通过将尽可能多的数据放入数据湖中来应对这种数据困境,例如Hadoop或(最近)在云中运行的对象系统。除了提供数据驻留的中心位置之外,它还降低了与存储PB级数据相关的成本。
 大数据项目可能出错的几种方案
  然而,Kazmaier说,虽然它解决了一个问题,但数据湖本身也引入了一系列全新的问题,特别是在确保数据的一致性、纯度和可管理性方面。“所有这些组织都试图在数据湖之上进行创新,但最终发现它只是一个数据沼泽,”他说。
 
  GoogleCloud针对这一困境的最新解决方案是Lakehouse架构,这个架构将数据湖方法的开放性与数据仓库的可管理性、治理和质量相结合。
 
  公司可以将他们的数据保存在GoogleCloud存储中,这是一个与S3兼容的对象存储系统,支持Parquet和Iceberg等开放数据格式,以及Presto、Trino和BigQuery等查询引擎,但不会牺牲数据仓库的治理。

  在Hadoop时代的鼎盛期,许多公司斥巨资来构建大型集群来为其数据湖提供动力。由于使用了标准X86处理器和硬盘,这些本地系统中的许多都比它们所取代的数据仓库大大降低了成本(至少在每TB的基础上是这样)。然而这些大型系统带来了额外的复杂性,从而推高了成本。
 
  现在我们已经处于云时代,我们可以回顾这些投资,看看我们在哪些方面出了问题。去年加入Snowflake担任首席数据策略师的前Forrester分析师Jennifer Belissent表示,由于基于云的数据仓库和数据湖产品的可用性,客户可以从小额投资开始并从那里升级。
 
  “我认为这是我们面临的挑战之一,我们需要预先进行大量投资,”Belissent说。“如果你正在部署云基础设施,那么可以从填充数据湖或数据仓库的单个项目开始,以交付结果为起点,然后逐步添加更多用例、添加更多数据、添加更多结果。”
 
  Belissent说,与其在一个冒险的大数据项目中一蹴而就,客户最好从一个成功可能性更高的较小项目开始,然后随着时间的推移在此基础上再接再厉。
 
  “从历史上看,整个行业在谈论大数据并期望人们接受大数据时,根据定义[这意味着这是一个大型基础设施]这让人们倒退了,”她说。“而如果你想从小处着手,逐步构建,并利用云基础设施,这更容易使用,而且你不必有前期资本支出来将其部署到位,那么你就能够展示结果,你也许正在消除我们在前几代人中看到的一些幻灭感。”

(编辑:大连站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!