了解数据驱动型组织如何改变世界。

WATCH ON DEMAND
zh_cn

数据类型常见问题

有哪些不同类型的数据?

数字革命和大数据的兴起为普通企业创造了大量数据。在 2017 年的一项研究 Data Age 2025: The Evolution of Data to Life-Critical(数据时代 2025:数据的重要性将演化为“性命攸关”)中,IDC 预测,到 2025 年,全球数据将增长到 163ZB(泽字节或万亿 GB 字节)。

由于大数据的出现,公司必须管理和保护广泛多样的数据类型。这些数据类型包括:

  • 结构化数据,主要是数字数据,来自事务处理系统和技术工具,例如企业资源规划 (ERP) 系统。
  • 非结构化数据,是指不受规则限制的随机文件类型,包括图像、音频/视频录制和 Microsoft Office 文件。
  • 半结构化数据,是指混合数据类型,其中文件中可能包含数字信息,但很难提取相关数据(例如 Microsoft Excel 电子表格)。

这些数据类型对数据治理策略的制定提出了独特的挑战,以确保合理存储信息、保护数据隐私和安全以及与政府数据相关法规的合规性。

什么是结构化数据?

大多数企业对结构化数据都有明确的认知,这些数据通常具有行列格式和非常明显的元数据元素,如月/日/年。大部分数字结构化数据来自事务系统、数据库和后台应用程序(例如 ERP 系统)。尽管企业拥有大量结构化数据,但由于这些数据定义明确,企业通常了解如何加以管理、分析和应用。

什么是非结构化数据?

对于大多数组织而言,更大的挑战在于了解非结构化数据并从中提取价值。非结构化数据有多种格式,复杂性各有不同,包括图像、音频文件、办公文件以及扫描的手写笔记。这些数据可能而且确实来自四面八方,包括内部、外部、第三方、边缘设备和其他来源。

由于非结构化数据不受严格规则或共享格式的约束,因此可能难以管理和应用一致的数据治理策略。但是,其中仍然可以包含一些重要见解,而这些信息是组织在当今竞争激烈、始终在线的业务环境中不可或缺的。

例如,考虑重要客户通过语音邮件留言的投诉。要从音频文件中挖掘价值,需要一个能够播放该文件的软件应用程序、可以亲自收听文件的人员、以及确定有用和无用信息的人员。作为数据处理策略的一部分,可以将音频转换为文本,从而创建一致的录制文件视图,便于有权访问该录制文件的人员进行解读。它还允许结合使用语音邮件与其他形式的分析,而不会影响原始来源。

其他包含关键见解的非结构化数据可能包括负责维护生产设备基本部件的维护技术人员的手写笔记。针对第三方数据,影响人物的远期天气预报或负面社交媒体帖子可能会严重影响某些产品的需求。此类数据的巨大潜在价值显而易见。

什么是半结构化数据?

最后,半结构化数据表示这些数据类型的混合。该组数据可能包括包含重要财务信息的 Excel 电子表格,但是数据本身很难提取。这些数据对象内部可能具有一定的内部结构,但缺少标准数据管理过程所需的外部结构。与非结构化数据一样,这些对象包含可能难以提取的重要见解,且没有适用的智能数据治理策略。

半结构化数据是指采用自描述架构的任何信息,例如 XML 或 JSON。这些类型的数据具有开放式架构,可实现应用数据的灵活性。有时,这种类型的数据与结构化数据结合使用,以记录结构化数据存储中特定记录类型的其他属性。

开放式架构意味着半结构化数据不依赖于创建用于定义嵌入式结构的应用。例如,Oracle 数据库被视为结构化数据类型。管理数据库的规则由创建文件的应用程序(或者在本例中为数据库)绑定和应用。

对于半结构化数据集,定义和限制嵌入在文件中,而与创建它们的应用程序无关。例如,网页的 XML 文件和级联样式表都是半结构化数据格式。这些数据可以由任何类型的应用程序创建,例如记事本、网站构建器应用程序或 Word 等 Office 应用程序,因此应用程序无法在这些数据类型中应用任何结构或规则。

对于组织而言,半结构化数据管理更具挑战性,因为它不一定具有结构化数据级别的组织性和可预测性。这些数据不驻留在固定的字段或记录中。同时,它确实比非结构化数据更为固定,因为其中包含可以将数据分成各个层级的元素(例如逗号分隔文件或制表符分隔文件)。

与以平面表格形式表示数据的结构化数据不同,半结构化数据可能包含 n 级嵌套信息层级。这意味着可以很容易地将标准数据管理流程应用于半结构化数据,并且能够很容易地从中提取见解。真正的问题是,确保您的企业拥有将数据加载到结构化或非结构化数据模型中所需的工具和技术,并通过数据治理方式对其进行管理。

与这些数据类型相关的两大挑战是什么?

目前,企业面临的最大挑战是非结构化数据的爆炸性增长。实际上,当前创建的所有新数据中有 80% 是非结构化数据。大多数组织都无法跟上这种趋势,且有迹象表明各公司可能正在收集一些甚至自己并不了解的信息。这可能会对正确使用和保护非结构化数据提出极大的挑战,并且会带来一定的风险,因为缺乏了解会导致组织无意间违反不断涌现的数据隐私相关法规。

第二个挑战是了解如何处理数据。公司基础设施需要存储和保留如此庞大且不断增长的数据量。大多数组织无法负担得起维护数据所需的大量管理时间和成本。更重要的是,鉴于如此庞大的数据量,公司就是想提取有用的重要战略见解也无从下手。

数据始终不会停止增长,其复杂性也在不断变化,数据生产者和使用者的数量似乎也在无休止地增加。因此,答案就在于智能数据治理,即建立旨在清理、标记、保护和管理非结构化数据、结构化和半结构化数据并确保其可访问性的策略和最佳实践。通过实施明确定义的数据治理策略,您的公司将能够更好地应对数据增长、数据质量、数据相关性和数据可用性需求。

数据治理如何帮助管理不同的数据类型?

简言之,智能数据治理是指控制和保护数据并确保其可访问性,以执行高层业务战略。但是,数据治理还包括,了解数据的来源、当前位置、可访问对象、包含内容以及保留时间。智能数据治理还包括区别对待琐碎数据与战略性重要数据。

如果能够集中数据并对其进行全面管理,才能真正释放数据的战略潜能。企业可以轻松地确定客户需求,预测新出现的问题,探索新的商机并应对监管调查。他们可以优化这些信息资产的存储和管理成本,同时允许企业关键利益相关者利用数据来改善决策。

在数据治理方面,达到适当的平衡是关键。组织必须密切管理所有类型的数据,但是仍需要确保其可访问性,以支持当今快速发展的世界中至关重要的灵活性和速度需求。

值得庆幸的是,创新自动化解决方案可以帮助简化和加速数据治理流程,从而为您的组织节省宝贵的时间和成本。

哪家公司是数据治理的领导者?

Hitachi Vantara 已编制有数据治理相关书籍。凭借在数据存储和管理领域的稳定领导地位,Hitachi 专家可以利用自动化解决方案简化复杂的数据治理任务,帮助公司:

  • 确保数据质量。
  • 提高数据的可识别性。
  • 集中数据并确保其可访问性。

Hitachi 可以通过实施自动化解决方案来清理、识别和集中结构化、非结构化和半结构化数据,帮助您创建具有巨大战略价值的“单一事实来源”。您可以获得有关日常运营、客户和贸易合作伙伴、财务状况和新兴趋势方面的新见解,了解其对您的公司及其经济效益的影响。

智能数据治理具体如何帮助我的业务?

智能数据治理通常可以为公司提供一系列战略优势,包括:

  • 改进决策。治理良好的数据更易于访问和应用,让企业利益相关者根据事实而不是凭直觉或猜测来做出决策。
  • 运营效率。关键数据(包括绩效指标)可用于识别和解决公司日常运营中的瓶颈和效率低下问题,而准确和实时数据访问是实现这一点的重要因素。
  • 改进数据了解和沿袭。了解“数据踪迹”和所有数据责任体系,有利于及时应对审计,更有效地开展早期案例评估活动以及更主动地防御数据损坏和泄露。
  • 监管达标。公司越来越需要遵守与其管理和存储数据相关的复杂隐私和安全法规要求。数据治理是一项关键因素,可确保并证明组织与任何适用法规要求中所规定的规则保持一致性。
  • 增加收入。通过利用准确、净化和实时的数据,企业可以更快速和明智地做出决策,从而对销售和营业利润产生积极的影响。
我的业务应多久审查一次有关不同类型数据的政策?

由于数据量呈指数级增长,Hitachi Vantara 建议您的公司每季度审查一次数据治理策略和实践。通过每三个月对数据工作进行一次“整体性”审查,您的公司将可以发现新兴趋势,解决问题并确保数据持续作为战略资源。

除了定期数据治理审查工作,Hitach 还建议每个组织设立首席数据官(即 CDO)的职位。CDO 在组织内部发挥“数据之音”的角色,持续提供数据保护并最大程度提高数据的战略意义。

不同类型的数据如何影响公司的 DataOps 计划?

DataOps(即数据运营)是一个新兴的概念,它是人工智能时代的企业级数据管理技术。通过实施整体性 DataOps 策略,您可以无缝地连接数据使用者和创建者,从而快速了解和利用数据的全部价值。

数据运营并非产品、服务或解决方案,而是一种方法、技术和文化变革,通过更好的数据质量、更短的周期时间和卓越的数据管理来改善组织对于数据的使用。

DataOps 涵盖收集和应用信息的整个周期,因此组织有效管理每种类型的数据至关重要。通过对数据进行良好清理和管理并确保其即时可访问性,可以为您的 DataOps 计划提供必要和恰当的信息,从而让您能够根据事实而非猜测来做出战略决策。

Hitachi Vantara 拥有经过实践检验的 DataOps 和各种类型数据治理领域的专业技术,是您理想的合作伙伴。Hitachi 竭力推动数据驱动型文化和思维,可帮助您提升日常业务中数据工作的重要性。

zh