大数据小知识：四种数据处理系统各自的特征与优势

2022.11.03

大数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力，因此海量数据的处理对于当前存在的技术来说是一种极大的挑战。目前，人们对大数据的处理形式主要是对静态数据的批量处理，对在线数据的实时处理，以及对图数据的综合处理。其中，在线数据的实时处理又包括对流式数据的处理和实时交互计算两种。本文将详细阐述上述4种数据形式特征以及各自的处理系统。

    利用批量数据挖掘合适的模式，得出具体的含义，制定明智的决策，最终做出有效的应对措施实现业务目标是大数据批处理的首要任务。大数据的批量处理系统适用于先存储后计算，实时性要求不高，同时数据的准确性和全面性更为重要的场景。
    批量数据的特征通常有3个。
    第一，数据体量巨大。数据从TB级别跃升到PB级别。数据是以静态的形式存储在硬盘中，很少进行更新，存储时间长，可以重复利用，然而这样大批量的数据不容易对其进行移动和备份。
    第二，数据精确度高。批量数据往往是从应用中沉淀下来的数据，因此精度相对较高，是企业资产的一部分宝贵财富。
    第三，数据价值密度低。以视频批量数据为例，在连续不断的监控过程中，可能有用的数据仅仅有一两秒。因此，需要通过合理的算法才能从批量的数据中抽取有用的价值。此外，批量数据处理往往比较耗时，而且不提供用户与系统的交互手段，所以当发现处理结果和预期或与以往的结果有很大差别时，会浪费很多时间。因此，批量数据处理适合大型的相对比较成熟的作业。

    Google于2010年推出了Dremel，引领业界向实时数据处理迈进。实时数据处理是针对批量数据处理的性能问题提出的，可分为流式数据处理和交互式数据处理两种模式。在大数据背景下，流式数据处理源于服务器日志的实时采集，交互式数据处理的目标是将PB级数据的处理时间缩短到秒级。通俗而言，流式数据是一个无穷的数据序列，序列中的每一个元素来源各异，格式复杂，序列往往包含时序特性，或者有其他的有序标签（如IP报文中的序号）。从数据库的角度而言，每一个元素可以看作是一个元组，而元素的特性则类比于元组的属性。流式数据在不同的场景下往往体现出不同的特征，如流速大小、元素特性数量、数据格式等，但大部分流式数据都含有共同的特征，这些特征便可用来设计通用的流式数据处理系统。
    下面简要介绍流式数据共有的特征。
    首先，流式数据的元组通常带有时间标签或其余含序属性。因此，同一流式数据往往是被按序处理的。然而数据的到达顺序是不可预知的，由于时间和环境的动态变化，无法保证重放数据流与之前数据流中数据元素顺序的一致性。这就导致了数据的物理顺序与逻辑顺序不一致。而且，数据源不受接收系统的控制，数据的产生是实时的、不可预知的。此外，数据的流速往往有较大的波动，因此需要系统具有很好的可伸缩性，能够动态适应不确定流入的数据流，具有很强的系统计算能力和大数据流量动态匹配的能力。
    其次，数据流中的数据格式可以是结构化的、半结构化的甚至是无结构化的。数据流中往往含有错误元素、垃圾信息等。因此流式数据的处理系统要有很好的容错性与异构数据分析能力，能够完成数据的动态清洗、格式处理等。最后，流式数据是活动的（用完即弃），随着时间的推移不断增长，这与传统的数据处理模型（存储？查询）不同，要求系统能够根据局部数据进行计算，保存数据流的动态属性。流式处理系统针对该特性，应当提供流式查询接口，即提交动态的SQL语句，实时地返回当前结果。

与非交互式数据处理相比，交互式数据处理灵活、直观、便于控制。系统与操作人员以人机对话的方式一问一答——操作人员提出请求，数据以对话的方式输入，系统便提供相应的数据或提示信息，引导操作人员逐步完成所需的操作，直至获得最后处理结果。采用这种方式，存储在系统中的数据文件能够被及时处理修改，同时处理结果可以立刻被使用。交互式数据处理具备的这些特征能够保证输入的信息得到及时处理，使交互方式继续进行下去。

    图由于自身的结构特征，可以很好地表示事物之间的关系，在近几年已成为各学科研究的热点。图中点和边的强关联性，需要图数据处理系统对图数据进行一系列的操作，包括图数据的存储、图查询、最短路径查询、关键字查询、图模式挖掘以及图数据的分类、聚类等。随着图中节点和边数的增多（达到几千万甚至上亿数），图数据处理的复杂性给图数据处理系统提出了严峻的挑战。下面主要阐述图数据的特征和典型应用以及代表性的图数据处理系统。
    图数据中主要包括图中的节点以及连接节点的边，通常具有3个特征。
    第一，节点之间的关联性。图中边的数量是节点数量的指数倍，因此，节点和关系信息同等重要，图结构的差异也是由于对边做了限制，在图中，顶点和边实例化构成各种类型的图，如标签图、属性图、语义图以及特征图等。
    第二，图数据的种类繁多。在许多领域中，使用图来表示该邻域的数据，如生物、化学、计算机视觉、模式识别、信息检索、社会网络、知识发现、动态网络交通、语义网、情报分析等。每个领域对图数据的处理需求不同，因此，没有一个通用的图数据处理系统满足所有领域的需求。
    第三，图数据计算的强耦合性。在图中，数据之间是相互关联的，因此，对图数据的计算也是相互关联的。这种数据耦合的特性对图的规模日益增大达到上百万甚至上亿节点的大图数据计算提出了巨大的挑战。大图数据是无法使用单台机器进行处理的，但如果对大图数据进行并行处理，对于每一个顶点之间都是连通的图来讲，难以分割成若干完全独立的子图进行独立的并行处理；即使可以分割，也会面临并行机器的协同处理，以及将最后的处理结果进行合并等一系列问题。这需要图数据处理系统选取合适的图分割以及图计算模型来迎接挑战并解决问题。
    四种大数据各自的特点和处理方式都记住了吗，使用的时候要根据不同的情况来考量哦。
    想要获取更多大数据相关资讯和知识，关注微信公众号成都科多大数据就能看到啦。