大数据处理过程

xiaofei
大数据处理
2024-10-24 06:09:10
24

今天给大家分享大数据处理实时返回，其中也会对大数据处理过程的内容是什么进行解释。

简述信息一览：

1、前端和后端有什么区别?
2、Flume+Kafka+Flink+Redis构建大数据实时处理系统(PV、UV)
3、数据多的时候为什么要使用redis而不用mysql?

前端和后端有什么区别?

展示的方式不同前端称为客户端开发，你可以在应用程序或网站的屏幕上看到的所有内容都属于前端。后端也称为“服务器端开发”，在系统“后面”所发生的事情。用户可见的界面，网站前端页面也就是网页的页面开发，比如网页上的特效、布局、图片、***，音频等内容。

后端和前端的区别在于：工作职责不同：后端主要负责处理数据请求、存储数据、执行计算等任务，前端主要负责呈现数据、处理用户交互、显示页面等任务。技术栈不同：后端主要使用Java、Python、PHP等编程语言和技术栈，前端主要使用HTML、CSS、JavaScript等前端技术栈。

（图片来源网络，侵删）

语言不同：前端的代码主要在客户端运行；后端的代码主要在服务端运行。稳定性不同：前端主要怕设计稿的频繁变更，布局样式、交互效果的需求变更；后端主要怕业务逻辑变更，或者当使用规模增大之后的稳定性。

Flume+Kafka+Flink+Redis构建大数据实时处理系统(PV、UV)

Flume集群的配置也是十分关键的。对于Kafka，关键就是如何接收来自Flume的数据。从整体上讲，逻辑应该是比较简单的，即可以在Kafka中创建一个用于我们实时处理系统的topic，然后Flume将其***集到的数据发送到该topic上即可。

项目流程涉及到从日志数据的***集、清洗、实时计算至结果展示的全过程。数据首先通过 Flume ***集并存储于 HDFS，以供离线业务使用，同时，这些数据也通过 Kafka 进行 sink，而 SparkStreaming 则从 Kafka 中拉取数据进行实时处理。

（图片来源网络，侵删）

针对业务系统数据，C***监控Binlog日志，发送至kafka；针对日志数据，由Flume来进行统一收集，并发送至kafka。消息队列的数据既是离线数仓的原始数据，也是实时计算的原始数据，这样可以保证实时和离线的原始数据是统一的。

本次实验旨在综合运用Flume、Kafka、Flink、Mysql和DLV构建一个全面的大数据处理平台，加深对各组件的相互联系及功能的理解，提升多组件整合搭建大数据平台的能力。实验首先设计了一个电影数据源，每固定时间间隔生成电影观看数据，并将数据写入特定目录。

java语言：Java是一门很适合大数据项目的编程语言，Hadoop、Spark、Storm、Flink、Flume、Kafka、Sqoop等大数据框架和工具都是用Java编写的，因此，大数据会不可避免的使用到Java。

数据多的时候为什么要使用redis而不用mysql?

1、在面对非传统SQL数据库需求时，如内存大于数据，schema不明确或追求速度，NoSQL数据库如MongoDB、Redis、HBase成为不二选择。MongoDB以其灵活性著称，适合内存大于数据且schema不稳定的场景。用户能在这里找到与MySQL不同体验的平滑过渡，但随之而来的，可能是设计模式的改变。

2、使用MySQL自身缓存：设置合理的查询缓存、表缓存和配置文件参数，以提高MySQL的性能。使用分布式缓存：使用分布式缓存如Memcached或Redis来缓存数据，提高MySQL的查询性能。使用应用程序缓存：在应用程序中使用缓存来减少MySQL查询次数，从而提高MySQL性能。

3、读写分离。尤其是写入，放在新表中，定期进行同步。如果其中记录不断有update，最好将写的数据放在redis中，定期同步 3表的大文本字段分离出来，成为独立的新表。

4、缓存机制的具体实现可以使用memcache、Redis等内存缓存技术来实现。数据库分区数据库分区是MySQL另一种处理大规模数据的方法。分区可以按照分区键值将数据分成多个分区，每个分区可以存储不同的数据。分区的具体实现可以参考MySQL中的“分区表”功能。

关于大数据处理实时返回和大数据处理过程的介绍到此就结束了，感谢你花时间阅读本站内容，更多关于大数据处理过程、大数据处理实时返回的信息别忘了在本站搜索。

大数据处理实时返回