大数据处理通用架构图怎么做

xiaofei
大数据处理
2025-03-24 21:00:28
24

文章阐述了关于大数据处理通用架构图，以及大数据处理通用架构图怎么做的信息，欢迎批评指正。

简述信息一览：

1、大数据框架
2、大数据离在线混部架构,看完这篇就全明白了!
3、五种大数据框架你必须要知道
4、大数据系统架构
5、大数据架构流程图
6、如何为大数据处理构建高性能Hadoop集群

大数据框架

学习大数据，以下五种框架是不可或缺的：Hadoop、Storm、Samza、Spark和Flink。以下是它们的详细介绍：一：Hadoop大数据框架 Hadoop是由Apache基金会开发的分布式系统基础架构，是应用最广泛的大数据工具。它以容错率高和硬件成本低而著称。

定义：大数据框架是指为了应对海量、高速、多样的数据挑战而设计的一系列软件架构和工具集。用途：主要用于数据的存储、处理、分析和可视化，以挖掘数据中的价值。主要框架：Hadoop：一个由Apache基金***开发的分布式系统基础架构，主要解决大数据存储和处理问题。它包含HDFS和MapReduce。

（图片来源网络，侵删）

大数据计算框架有：批处理计算框架、流式计算框架、图计算框架、分布式数据库计算框架、深度学习计算框架。批处理计算框架适用于对大规模的离线数据进行处理和分析。典型的批处理计算框架包括Apache Hadoop MapReduce、Apache Spark等。流式计算框架适用于实时或近实时处理连续的数据流。

大数据技术框架是一种管理和处理大规模数据集的架构。其关键组件包括：数据处理引擎、存储系统、数据集成和管理工具、分析和可视化工具。选择技术框架取决于数据规模、类型、分析需求、可扩展性、可靠性、可维护性和成本等因素。

在大数据开发领域，选择合适的框架对于项目的成功至关重要。Apache Hadoop、Spark 和 Flink作为三大主流大数据技术，广泛应用于IT市场。本文将深入探讨这三种框架的差异与特点，旨在帮助读者更清晰地理解各自的优势与适用场景。

（图片来源网络，侵删）

Samza非常适用于实时流数据处理的业务，如数据跟踪、日志服务、实时服务等应用，它能够帮助开发者进行高速消息处理，同时还具有良好的容错能力。与Storm相比，Samza在处理实时数据时更加高效，同时也提供了更好的容错机制。每个大数据分析框架都有其独特的特点和应用场景。

大数据离在线混部架构,看完这篇就全明白了!

混部的基本原理：资源整合：混部技术通过将离线和在线的大数据组件整合到同一集群中，实现资源的共享和高效利用。成本降低：通过提高资源利用率，混部技术能够显著减少企业的IT成本，因为同一份资源可以被多个服务共享。

面对百度云原生环境中服务器资源利用率低、TCO上升的问题，百度研发的离线混部技术成为破解之道。这个创新技术将在线业务（如搜索，对延迟敏感）与离线业务（大数据处理，非实时需求）巧妙融合，实现资源的高效互补和优化调度。

云原生混部系统 Koordinator 架构详解混部技术的目标在于提升数据中心资源利用效率，随着大数据技术发展，批处理任务和在线服务混合部署成为业界通用策略。Koordinator 作为关键组件，提供了一种整体架构来解决不同角色管理者的需求。

Celeborn支持多种典型场景，包括混部和存算分离架构。在混部场景中，Celeborn在计算集群中实现高效性能和稳定性，支持大规模并发和大容量作业。存算分离架构下，计算节点运行在K8s上，源表数据存储在OSS，Celeborn集群独立部署，展现出良好的性能和稳定性，同时具有弹性。

列式Shuffle特性进一步优化了数据存取效率。此外，与向量化引擎的对接，以及多层存储架构，使得大数据计算引擎性能得到大幅提升。稳定性方面，Apache Celeborn通过容错机制，确保数据推送即使在短暂的Worker不可用时也能继续执行，通过Batch Revive优化，减少大量错误处理请求。

五种大数据框架你必须要知道

仅批处理框架：Apache Hadoop - 特点：适用于对时间要求不高的非常大规模数据集，通过MapReduce进行批处理。- 优势：可处理海量数据，成本低，扩展性强。- 局限：速度相对较慢，依赖持久存储，学习曲线陡峭。

Apache Hadoop是一种专用于批处理的处理框架。Hadoop是首个在开源社区获得极大关注的大数据框架。基于谷歌有关海量数据处理所发表的多篇论文与经验的Hadoop重新实现了相关算法和组件堆栈，让大规模批处理技术变得更易用。

MongoDB 这是一种最受欢迎的，跨平台的，面向文档的数据库。MongoDB的核心优势是灵活的文档模型，高可用性***集和可扩展的碎片集群。南邵java培训建议可以尝试以多种方式了解MongoDB，例如MongoDB工具的实时监控，内存使用和页面错误，连接，数据库操作，***集等。

大数据系统架构

1、在数字化时代，数据已成为关键资产，大数据系统作为核心驱动力，扮演着至关重要的角色。它是一个复杂的技术体系，主要由数据***集、存储、处理、管理、分析和可视化六个部分构成，帮助处理大规模、高速和多样化的数据。首先，数据***集从多个渠道汇集各种类型的数据，包括结构化与非结构化的数据。

2、面对大量任务，调度监控系统负责任务分配与监控，确保数据平台高效运行。大数据监控与管理数据平台需进行全方位管理，包括监控预警、数据质量检测、元数据管理、异常处理与版本控制，保障数据安全与质量。大数据安全数据安全至关重要，包含访问权限管理、数据资源权限控制与审计等措施，确保数据保护。

3、大数据计算体系可归纳三个基本层次：数据应用系统，数据处理系统，数据存储系统.计算的总体架构. HDFS （Hadoop 分布式文件系统）（1）设计思想：分而治之，将大文件大批量文件，分布式存放在大量服务器上，以便于***取分而治之的方式对海量数据进行运算分析。

4、大数据架构做到流批一体的方法主要包括***用支持流批统一的计算引擎、优化数据存储和处理框架，以及***用先进的架构模式。***用支持流批统一的计算引擎：Spark和Flink：这些计算引擎正朝着流批统一的方向发展，能够支持实时和历史数据的统一处理，从而简化了计算流程，降低了架构复杂性。

大数据架构流程图

标准大数据平台架构包括数据仓库、数据集市、大数据平台层级结构、数据挖掘等。数据架构设计（数据架构组）在总体架构中处于基础和核心地位。产品体验结构流程图产品的功能结构图、产品主要流程图、产品的核心流程等都是产品体验的重要组成部分。

数据流程图（DFD）是可视化系统内信息流的传统方法，它以图形的方式描述了大量系统需求。具体来说，数据流程图主要展示了信息如何进入和离开系统，以及如何在系统中改变。作用和特点如下：作用便于用户表达功能需求和数据需求及其联系。

基于Lambda架构，整套系统通过Kafka对接流计算、Hbase对接批计算实现“实时视图”与“批量视图”。此架构能够高效满足在线与离线计算需求。新大数据架构 Lambda plus 考虑到Lambda与Kappa架构的简化需求，LinkedIn的Jay Kreps提出了Kappa架构。

在数据库查询流程方面，Apache Calcite遵循与传统SQL数据库类似的流程。流程如下图所示：（此处省略流程图）接下来，我们将以通过Calcite实现异构数据源的Join查询为例，探讨异构查询的实现步骤和原理。首先，我们需要准备数据：学生信息和成绩信息，分别存储在MySQL和PostgreSQL中。接着，设计查询语句并执行。

数据流程图（DFD）是一种用于可视化系统内信息流的图形化工具，它帮助用户清晰地理解和描述系统的功能需求和数据需求。数据流程图展示的是数据在系统内的流动过程，包括进入和离开系统的方式以及数据在系统内部的转换。

实时维度表的计算流程图：目前使用flink作为公司主流的实时计算引擎，使用内存作为状态后端，并且固定30s的间隔做checkpoint，使用HDFS作为checkpoint的存储组件。并且checkpoint也是作为任务restart以后恢复状态的重要依据。

如何为大数据处理构建高性能Hadoop集群

1、每一个Hadoop数据节点的目标都必须实现CPU、内存、存储和网络资源的平衡。如果四者之中的任意一个性能相对较差的话，那么系统的潜在处理能力都有可能遭遇瓶颈。添加更多的CPU和内存组建，将影响存储和网络的平衡，如何使Hadoop集群节点在处理数据时更有效率，减少结果，并在Hadoop集群内添加更多的HDFS存储节点。

2、集群搭建步骤包括安装Hadoop、配置环境变量、设置核心配置文件，以及初始化集群。初始化集群时，需执行一系列命令，如格式化ZK、启动JournalNode、进行NameNode格式化及启动，并通过`bootstrapStandby`确保Standby状态的NameNode同步。至此，HA集群初始化完成，后续可通过启动脚本快速管理集群。

3、首先确定所使用的Hadoop版本，然后在工作目录下创建用于覆盖Hadoop配置文件的文件夹，并编写启动脚本。基于bitnami/spark镜像构建新镜像，修改Dockerfile和docker-compose.yml文件以使用新镜像启动集群，最后启动集群并执行启动脚本。通过HDFS Web UI可以浏览写入HDFS的数据，同时可以在Spark中访问HDFS文件系统。

关于大数据处理通用架构图，以及大数据处理通用架构图怎么做的相关信息分享结束，感谢你的耐心阅读，希望对你有所帮助。

大数据处理通用架构图