助力千行百业用好数据：贾永利分享华为云大数据技术实践创新

2024.04.17 C114通信网

    5G、IoT、AI等众多新技术的涌现，人们的工作和生活都发生了极大的变化，一个智能数据时代正在到来。这不仅进一步凸显了大数据的底座价值，也给数据的分析利用带来了更多的挑战。
    在今日的在华为云TechWave大数据专题日上，华为云人工智能领域总裁贾永利解读了最新的发展趋势，分享了FusionInsight智能数据湖解决方案等华为云在大数据技术上的实践与创新，以帮助千行百业“管好数据、用好数据”，充分释放数据的价值。
    数据分析利用面临多重挑战
    回首从90年代到今天，人类经历了PC时代、互联网时代、移动互联网时代，随着不同技术的演进，数据也发生了巨大的变化。
    贾永利解读说，首先，数据的规模越来越大。近年来，无论是面向ToB领域、还是ToC领域，随着技术的发展、需求的增长，企业、个人、设备都在时时刻刻产生数据，数据的体积越来越大。
    同时，数据种类越来越多，逐步走向多样性。除了我们熟悉的结构化数据，出现了更多的非结构化数据，比如视频、图像、语音、文本等，并且这些多样性的数据需要用多样性的算力去处理，这也给数据处理带来了更加复杂的挑战。
    第三，应用对数据处理的时效性要求越来越高。很多场景下，我们需要数据进入系统时就可以被查询、被分析，这个时间差要求越来越短。比如在工业领域，设备的持续数据处理要求就非常高；在金融领域，交易信息、风控信息对数据处理的时延要求亦远超以往。
    最后，对于数据融合分析的要求也越来越高。很多场景下，我们希望不止分析当前数据，更希望历史数据和实时数据进行联合分析，随着分析和交易越发紧密、融合，分析的结果、规则越来越多地被注入到实时交易系统中。
    不同行业的数据特点与诉求
    在解读数据变化以及随之而来的挑战的同时，贾永利亦在发言中剖析了不同行业数据的特点与他们的诉求。
    以运营商为例，随着5G的到来，产生的数据、需要处理的数据显著增加。有预测认为，5G的到来将带来至少8倍以上的数据体积膨胀，那么就需要很多处理系统，需要从单集群走向多集群——能不能处理好数据成为一个首要目标。
    从广大政企行业来看，越来越多的多样性数据如何统一处理，是否遵循同一套标准、规范，从而能够让整个数据在处理过程中可管可控，更高效协同不同组织、不同厂家进行开发，也极为关键。而像金融领域、工业领域对数据处理的实时性要求极为苛刻，为了避免业务中断过程造成的损失，实时性就成为了核心诉求。
    此外，为了高效挖掘数据价值，千行百业的数据融合分析已成大势所趋。是否可以通过一站式的分析平台，全局使用一份数据，从而能够更全面、精准地进行分析，从海量数据中找到客户真正想要的价值，变得越来越重要。
    围绕数据全生命周期提供整体解决方案
    为了应对企业面临的各种挑战，在数据域，华为云提出了FusionInsight智能数据湖解决方案，围绕客户“采、存、算、管、用”等数据全生命周期提供整体解决方案。
    从架构上来看，华为云FusionInsight智能数据湖解决方案是一个开放的架构，充分利用了数据域的处理能力和云自身的云原生（Cloud－Native）能力进行融合，率先做到了真正的基于云原生存算分离的架构和实现，让数据规模可管理不再是一个难题。
    华为云FusionInsight智能数据湖方案主要包含MRS大数据、GaussDB（DWS）数据仓库、GES图计算、一站式数据运营平台DAYU等云服务。其中，华为云FusionInsight MRS大数据、GaussDB（DWS）数据仓库，可助力客户在数字化转型中构建坚实的数据底座，并通过HetuEngine数据虚拟化引擎简化用数，提高效率。
    同时，为标准化多样性数据，一站式数据运营平台DAYU向下可接入日志、文本、视频、音频、图片等各类型数据，基于多样性算力与CarbonData实现全局一份数据的统一格式存储；向上为伙伴开发50＋数据集成开发API，使能数据，携手生态伙伴打造各行业应用。
    目前，华为云FusionInsight已广泛应用于政府、金融、运营商、大企业、互联网等行业，携手800多家合作伙伴，为全球60多个国家和地区的3000多家政企客户提供服务。
    华为云重磅发布实时数仓产品
    为响应政企用户在IoT和运维监控等场景下对数据仓库时效性的需求，华为云发布了GaussDB（DWS）实时数仓新品，引入了HetuEngine和CarbonDate两个重要引擎，具备快、易、简、省四大特点。
    HetuEngine可以帮助企业构建一个虚拟化数据分析引擎，有了这个引擎就可以分析多元、多域更为复杂场景下的数据。CarbonDate可以围绕数据的存储进行一系列优化和数据格式组织，从而实现全局一份数据、以统一的格式存储，能够给北向提供更加丰富的开发API，使数据集成更容易、使用更高效。
    在“快”方面，GaussDB（DWS）实时数仓时序数据单机入库性能支持每秒10万条数据、每秒60万条流数据持续计算入库，并可线性扩展。这样无论在工业领域、金融领域，抑或物联网领域，都可以解决很多目前所无法解决的问题。
    在“易”方面，GaussDB（DWS）实时数仓支持基于SQL完成复杂流式计算语义定义，简化开发。以Druid监控的一个场景为例，仅用150行SQL代码就实现了原有1900行Druid脚本同样的功能，实现超过十倍的提升。
    在“简”方面，GaussDB（DWS）实时数仓实现了1 ＝ N。在一个平台内，同时实现Flink／Spark Streaming（流数据处理）＋Druid（流数据预聚合）＋InfluxDB（时序数据处理），简化了开发和运维工作。
    在“省”方面，时序数据经过实时数仓的自适应压缩算法，最高可达40：1的压缩比，将多维度行列存储优化，数据冷热温自动分区，从而极大地减少存储空间，节省用户成本。
    “华为云将围绕数据持续进行创新，联合客户和合作伙伴，通过更好的技术，帮助千行百业真正管好自己的数据、用好自己的数据，释放数据的价值。”在发言的最后，贾永利如是说道。