加入收藏 | 设为首页 | 会员中心 | 我要投稿 大连站长网 (https://www.0411zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据科学项目失败的原由

发布时间:2022-03-31 15:25:35 所属栏目:大数据 来源:互联网
导读:如今,数据科学几乎都会引起IT和业务主管们的兴趣。但数据科学确实会出问题。 事实上,利用科学方法、流程、算法和技术系统从结构化和非结构化数据中获取各种见解的数据科学项目可能会以多种方式失败,从而导致时间、金钱和其他资源的浪费。存在缺陷的项目
       如今,数据科学几乎都会引起IT和业务主管们的兴趣。但数据科学确实会出问题。
 
       事实上,利用科学方法、流程、算法和技术系统从结构化和非结构化数据中获取各种见解的数据科学项目可能会以多种方式失败,从而导致时间、金钱和其他资源的浪费。存在缺陷的项目可能会导致决策者误入歧途,从而导致企业遭受的损害大于收益。
 
      以下是数据科学项目未能如预期那样成功的一些最常见原因。
 
      数据质量差
 
      不良数据会导致数据科学工作变得很糟糕,因此花时间来确保数据的质量,这是至关重要的。任何分析工作都是如此,数据科学当然也是如此。
 
      “不良数据或废数据会使数据科学项目无法完成,”数字化转型咨询公司 Adaptavist的首席信息官尼尔•莱利(Neal Riley)说。“您必须确保自己的数据是干净的,并适合于数据分析师使用。如果并非如此,那就完全是浪费时间。”
 
当企业在数据科学项目中使用不干净的数据时,他们最终将“看到会产生奇怪输出的模型,(并且)会看到该输出并没有代表实际情况或没有表现出使事情变得更好的一个过程,”莱利说。
 
有时,由于数据集中存在偏差或差异,所以数据质量很差。
 
“对于某些组织来说,他们会使用多个系统来运营业务,”全球公共机构雇员保险(WAEPA)公司的首席信息官布兰登•琼斯(Brandon Jones)说。“对于经验丰富的企业来说,您甚至可能仍会使用一些遗留系统,以供参考或验证。在许多情况下,业务会随着每个系统的不同而发生变化,因此导致在业务中计算某一指标的流程和/或方法存在差异。”
 
琼斯表示,这可能是导致数据科学出现问题的主要原因。由于基于更改后的业务流程进行了重复计算,从而其结果可能会被夸大。“为了解决这个问题,各个组织必须统一设置他们的数据分析程序,”他说。“这意味着要列出一个可以验证数据的具体日期,并且每个人都清楚和认同这是他们组织进行工作的通用标准。”
 
缺乏相关数据
 
数据科学工作必然出问题的另一方式是不提供解决某一特定问题所需的特定类型数据。
 
对某一问题提供大量数据并不能解决问题。“有一种想法是,大数据会带来洞察力,但实际上很少有这种情况,”罗伊特曼说。“适合的、定制的且通常较小的数据集常常会带来完善的和可归纳的模型。”
 
约翰逊表示,为了从数据科学中获得价值,您应该不断努力从最相关的来源收集数据。“创造不是一次性活动,”他说。
 
约翰逊表示,由于数据是从不同来源收集或购买的,因此团队需要确保在数据中的任何修改不会歪曲其结果,以及牺牲整个数据集的质量。他们还必须确保数据集不存在任何隐私、法律或伦理问题。
 
缺乏数据透明度
 
团队需要对他们用于构建任何给定模型的数据保持透明度。“当人们不信任该模型或不理解该解决方案时,数据科学项目就会失败,”新泽西州司法机构的首席信息官杰克·麦卡锡(Jack McCarthy)说。“解决这一问题的方法是,您必须能够‘说明其数学原理’,并将其传达给可能不具备技术或统计技能的利益相关者。”
 
数据科学家需要解释数据的来源,他们为计算模型做了什么,并要提供对所有相关数据的访问权。“透明度是项目成功的关键,”麦卡锡说。
 
这方面的一个例子是新泽西州所使用的风险评估算法。“我们会向所有利益相关者提供一份报告,该报告包含某一被告历史上的哪些案件属于哪个类别,以及每个案件的评分方式,”麦卡锡说。“这些内容会提供给所有对手,因此他们有机会查看每个案件,并可以质疑其中包含的内容。这一切都是透明的。”
  
缺乏执行负责人
 
数据科学工作需要一位来自高管层的负责人,以确保项目获得足够的资源和支持。
 
“如果他是首席信息官,那么这会有所帮助,”莱利说。“我们将数据科学视为我们运营工作不可或缺的一部分,我已保证要做这方面工作的负责人。”他表示,即使首席信息官不是数据科学工作的内部负责人,他也应该负责确保所有相关数据的安全。但其参与的工作应该远远超出安全性的范围。
 
“充分利用您收集的信息,我认为这是现代首席信息官的职责,”莱利说。“凭借手头上拥有的所有数据,您就有办法从中获得一些东西,并可以合理地使用这些数据,而首席信息官就可以利用这些东西来帮助其组织内各个职能部门。”
 
莱利表示,在对销售流程制定新策略和做调整方面,Adaptavist公司从其数据科学工作中获得了最大收益。“这与我们的产品或IT基础设施、营销都没有任何关系。”他说。“从业务流程优化的角度来看,数据科学对我们帮助最大,可有助于内部销售人员更好地处理和管理潜在客户。”
 
人才短缺
 
技能缺口困扰着IT工作的诸多方面,数据科学也不例外。许多组织机构根本不具备开展项目或获取最大价值的相关技能。
 
Beanworks是一家基于云计算的应付账系统自动化提供商,其工程和数据业务首席信息官Tracy Huitika说:“真正的数据科学家需求量很大,很难找到,而且薪资很高。”“该职位通常需要是物理学或科学博士学位,并且能够使用R和 Python语言编写代码。”
 
约翰逊表示,数据科学项目失败(即使项目已经开始部署)的最大原因之一是缺乏持续管理项目的运营人才。“让一位优秀的数据科学家创建一个模型,而没有持续改进的运营计划,以及没有根据市场和数据变化进行调整,这就像设计一辆汽车,然后将钥匙交给一个10岁的孩子一样,”他说。
 
在某一模型投入使用后,企业需要通过雇佣或利用外部专家(例如精通数据科学的顾问)来获得适当的相关技能,以对该模型进行维护。
 
数据科学不是正确的解决方案
 
如果某个特殊问题起初不需要数据科学作为其解决方案,那该怎么办?这种对数据科学的错误使用可能会导致项目的失败,因此应仔细考虑何时该使用以及何时不该使用数据科学方法、流程和工具。
 
“导致数据科学项目失败的最大因素之一是数据科学、算法和机器学习技术甚至都不是适合的解决方案,”莱利说。
 
“您可能根本不需要机器学习模型;您可能只是需要回归分析,然后您可能需要花费大量时间和精力来研究所有不同的排列,而无需使用数据科学,”莱利说。 “我们陷入了这样一种情况,即我们在研究金融数据科学建模,以可视化预测我们主要业务在未来取得盈利的因素。而事实证明,其最好的方法就是统计回归。”

(编辑:大连站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!