大数据处理的架构有哪些

xiaofei
大数据处理
2024-12-19 13:18:15
31

文章阐述了关于大数据处理的架构有哪些，以及大数据处理的架构有哪些内容的信息，欢迎批评指正。

简述信息一览：

1、hadoop大数据处理架构的核心技术是什么?
2、大数据平台架构——框架篇
3、大数据的存储架构有哪几种类型?
4、大数据架构之Lambda

hadoop大数据处理架构的核心技术是什么?

Hadoop核心架构，分为四个模块：Hadoop通用：提供Hadoop模块所需要的Java类库和工具。Hadoop YARN：提供任务调度和集群资源管理功能。Hadoop HDFS：分布式文件系统，提供高吞吐量的应用程序数据访问方式。Hadoop MapReduce：大数据离线计算引擎，用于大规模数据集的并行处理。

Hadoop的核心是HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供了计算。Hadoop以其高容错性、高可靠性、高可扩展性、高获得性、高效性等优点，广受各大企业的青睐，并广泛应用于大数据处理领域。

（图片来源网络，侵删）

Hadoop MapReduce是一个分布式计算框架，适用于大规模数据处理，能够逐步完成计算任务，实现数据批处理。Hadoop YARN作为分布式资源管理器，对大数据生态系统至关重要。它允许其他软件在Hadoop上运行，充分利用HDFS的大存储优势，节省资源。

hadoop核心组件用于解决两个核心问题：存储和计算核心组件：1）Hadoop Common：一组分布式文件系统和通用I/O的组件与接口（序列化、Java RPC 和持久化数据结构）。2）Hadoop Distributed FileSystem（Hadoop分布式文件系统HDFS） HDFS是存储数据的地方，就像我们电脑的硬盘一样文件都存储在这个上面。

分布式计算：Hadoop可以在多个节点上并行计算，以提高计算效率。Hadoop使用MapReduce框架来实现分布式计算，MapReduce将计算任务分解为多个子任务，并将它们分配给多个计算节点执行，最后将结果合并输出。大数据处理：Hadoop可以通过MapReduce框架来处理大数据，支持对数据进行分组、排序、聚合等操作。

（图片来源网络，侵删）

大数据平台架构——框架篇

监控管理是大数据平台的基石，包括数据监控、数据质量检测、元数据管理、血缘关系管理、异常处理与版本控制。监控预警平台如Grafana、Prometheus等，数据治理平台如Altas、Data Hub等，确保数据流线顺畅。大数据安全不容忽视，用户访问权限、数据资源权限管理与审计等成为关键保障。

大数据平台的核心使命，是通过数据***集、存储（Apache Hadoop与HDFS）、计算（MapReduce、Hive、SQL）和精细管理，构建起数据处理的坚实基础。存储与力量的交汇点 - Hadoop：作为分布式存储和计算的中坚力量，它通过HDFS提供海量数据的存储，而Hive则巧妙地引入SQL接口，让复杂的数据操作变得直观易行。

实时大数据处理框架Lambda架构将大数据系统分为批处理层、实时处理层和服务层，实现高效的数据处理和分析。数据处理框架的选择需考虑数据处理形式和结果时效性。

大数据的存储架构有哪几种类型?

1、大数据计算体系可归纳三个基本层次：数据应用系统，数据处理系统，数据存储系统.计算的总体架构. HDFS （Hadoop 分布式文件系统）（1）设计思想：分而治之，将大文件大批量文件，分布式存放在大量服务器上，以便于***取分而治之的方式对海量数据进行运算分析。

2、大数据存储的三种方式包括：分布式文件系统、NoSQL数据库、数据仓库。首先，分布式文件系统是大数据存储的关键方式之一。这种系统将数据分散存储在多个物理节点上，从而提高了数据的可靠性和可扩展性。Hadoop Distributed File System是分布式文件系统的代表，它是Apache Hadoop项目的一部分。

3、大数据的架构主要包括分布式文件系统、NoSQL数据库、列式数据库、云计算平台等。分布式文件系统大数据的存储和管理依赖于分布式文件系统。这类架构将文件分散存储在多个服务器上，利用多台服务器共同处理数据，实现数据的分布式存储和处理。这种架构可以有效地提高数据存储的可靠性和数据处理的速度。

4、目前市场上的存储架构主要分为以下三种：基于嵌入式架构的存储系统：主要面向小型***监控系统，适用于超市、店铺、小型企业、政法行业等应用。基于X86架构的存储系统：主要面向中大型***监控系统，适用于县级或地级市***监控项目。该架构具有较高的扩展性，但存在一些性能瓶颈和单点故障隐患。

5、平台SAN架构主要面向中大型***监控系统，前端路数成百上千甚至上万。一般多***用IPSAN或FCSAN搭建******存储系统。作为监控平台的重要组成部分，前端监控数据通过录像存储管理模块存储到SAN中。此种架构接入***前端路数相对节点NVR有了较高提升，具备快捷便利的可扩展性，技术成熟。

6、HBase：基于HDFS，支持海量数据读写（尤其是写），支持上亿行、上百万列的，面向列的分布式NoSql数据库。天然分布式，主从架构，不支持事务，不支持二级索引，不支持sql。