当前位置:首页 > 大数据分析 > 正文

大数据分析druid

今天给大家分享大数据分析druid,其中也会对大数据分析师要学什么的内容是什么进行解释。

简述信息一览:

presto、druid、sparksql、kylin的对***析,如性能、架构

Kylin是一种MOLAP工具,它通过预聚合数据,将多维查询转换为key-value查询,从而提高了查询效率。选择适合的工具取决于实际应用场景。如果需要实时数据处理和分析,Druid可能是更合适的选择。若追求高性能的查询效率,Kylin将是一个不错的选择。

Presto也由Facebook开发并在2012年开源,为了解决Mapreduce的性能问题。Presto作为查询引擎,与Spark SQL类似,专注于内存计算,性能比Hive、Spark SQL和Presto更高。Kylin则由eBay中国团队于2013年开发,并在同年开源,是国人主导的重量级OLAP引擎。

大数据分析druid
(图片来源网络,侵删)

Druid是专为海量数据集上的做高性能 OLAP而设计的数据存储和分析系统。Druid 的架构是 Lambda 架构,分成实时层和批处理层。Druid的核心设计结合了数据仓库,时间序列数据库和搜索系统的思想,以创建一个统一的系统,用于针对各种用例的实时分析。

Spark SQL,UC Berkeley的通用计算框架,处理结构化数据,灵活性较高。Kylin,eBay的预计算OLAP引擎,专为大规模数据分析优化。Druid,MetaMarkets的实时分析引擎,低延迟数据处理与分析的能手,尤其在广告分析和监控报警等领域常见。

特点:使用关系或扩展关系DBMS保存和处理数据,查询灵活且可扩展性好,使用MPP架构高效处理大量数据。代表引擎:Presto、Impala、GreenPlum、Clickhouse、Elasticsearch、Hive、Spark SQL、Flink SQL。适用场景:适用于对查询模式不固定、查询灵活性要求高的场景。

大数据分析druid
(图片来源网络,侵删)

zeppelin定位为web版的notebook,提供交互式数据分析能力,支持SQL、Scala、Python、R等语言,但不被视为典型BI产品。架构***用Java+AngularJS,内置Spark作为数据运算引擎,支持Flink、Hive、Impala、Presto等运算/查询引擎。zeppelin适用于交互式数据分析场景。

记录一次Druid未授权访问的实战应用

1、利用Druid Monitor的未授权访问功能,可以获取到大量SESSION信息和URI监控下的路径。结合目标网站的大数据产品平台的登录机制,可以实现对管理员及其他注册成员信息的获取。此漏洞的特征在于特定的URL格式,通过访问xxxx.com/druid/index.ht...,可以访问到相关监控页面。

2、攻击流程:首先,访问未授权访问界面,关注Session和URI监控部分,发现大量SESSION信息。通过Session监控收集数据,尝试登录页面替换SESSION,进一步在URI监控中寻找后台登录地址。构造POST包,使用Burp代理验证,通过替换收集到的SESSION数据,获取用户名、用户ID。接着使用用户ID尝试登录,发现密码错误。

3、Druid未授权访问问题的解决策略主要包括以下两点:在配置中添加登录用户名和密码:直接效果:通过添加登录认证信息,可以防止未经验证的访问,增强系统的安全性。实施细节:在Druid的配置文件中设置用户名和密码,并确保密码足够复杂且定期更换,以降低被破解的风险。

4、Druid通常被用作图形化界面的支撑数据库或高并发后端API,适合事件类型数据的应用场景。然而,由于Druid默认缺乏授权认证,攻击者可以构造恶意请求执行任意代码,控制服务器。此漏洞被标记为CVE-2021-25646,影响版本为Apache Druid 0.1。为了复现此漏洞,使用0.0版本进行操作。

5、Druid页面未授权访问:Druid监控页面存在未授权访问漏洞。后台SQL注入:后台代码中存在SQL注入漏洞。Shiro反序列化漏洞:可通过恶意对象触发Shiro反序列化漏洞。SnakeYaml组件的定时任务RCE漏洞:SnakeYaml组件存在定时任务远程代码执行漏洞。

大数据分析使用哪些工具

大数据分析需要以下关键工具:数据***集和清洗工具:Hadoop:用于分布式存储和处理大规模数据集。Spark:提供快速、通用的大规模数据处理引擎。Flink:支持高吞吐、低延迟的流处理。数据存储和管理工具:HBase:基于Hadoop的分布式、可扩展的大数据存储。Cassandra:高可用性的分布式NoSQL数据库。

在构建指标体系的过程中,企业需要一款高效、全面的工具来支持。Smartbi一站式ABI平台正是这样的工具。它以指标为核心,提供了指标管理、数据模型构建、数据再加工、智能应用等一站式服务。

在众多大数据分析工具中,Hadoop、HPCC、Storm、Apache Drill、RapidMiner、Pentaho BI、Druid、Ambari、Spark、Tableau Public、OpenRefine、KNIME、Google Fusion Tables、NodeXL、Wolfram Alpha、Excel Solver和Dataiku DSS等工具各具特色,能够满足不同场景的需求。

Excel Microsoft Excel是一个广泛使用的电子表格工具,它提供了丰富的函数和公式,适用于小到中等规模的数据集的清洗和分析。虽然Excel在大数据处理方面有其局限性,但它仍然是日常工作中不可或缺的工具。 DataCleaner DataCleaner是一个数据质量管理的工具,它能够分析、监控和改进数据质量。

Druid在有赞的实践

Druid 是 MetaMarket 公司研发,专为海量数据集上的做高性能 OLAP (OnLine Analysis Processing)而设计的数据存储和分析系统,目前 Druid 已经在Apache基金会下孵化。Druid的主要特性: Druid常见应用的领域: 有赞作为一家 SaaS 公司,有很多的业务的场景和非常大量的实时数据和离线数据。

ClickHouse和Druid对比

ClickHouse和Druid在某些方面存在差异。ClickHouse更侧重于列式存储和大规模数据处理,而Druid则更关注实时数据的快速查询和聚合。Druid在云环境和大规模集群管理方面具有优势,且与特定框架如Helix和ZooKeeper集成,提供更稳定的基础架构支持。对比总结 ClickHouse和Druid在处理实时数据和提供快速查询方面各有优势。

Druid在2011年由MetaMarkets创建,并在2012年开源,专为实时分析而设计,能够快速处理实时数据流,提供交互式查询的亚秒级响应时间。Clickhouse在2016年由Yandex开源,以其出色的性能迅速成为国内最受欢迎的OLAP组件。Clickhouse***用向量化执行引擎,显著提高了查询速度,并支持丰富的索引和预计算功能。

王海胜通过对比Clickhouse与Presto、Druid等方案,强调了Clickhouse在处理大规模数据集时的显著优势。他展示了Clickhouse在执行简单统计查询(如count)和复杂指标聚合计算时,相比Presto和Druid展现出了更高的效率。

除了支持多种的数据源,Drill跟BI工具集成比较好。Druid Druid是专为海量数据集上的做高性能 OLAP而设计的数据存储和分析系统。Druid 的架构是 Lambda 架构,分成实时层和批处理层。Druid的核心设计结合了数据仓库,时间序列数据库和搜索系统的思想,以创建一个统一的系统,用于针对各种用例的实时分析。

开源OLAP综述 如今,开源数据引擎多样,满足不同需求。主要的 OLAP 计算存储一体引擎有 StarRocks、ClickHouse 和 Apache Doris。数据查询系统则以 Druid、Kylin 和 HBase 为主。MPP 引擎包括 Trino、PrestoDB 和 Impala。这些引擎广泛应用于行业。

在大多数情况下ClickHouse能在故障后自动恢复,在一些少数的复杂情况下需要手动恢复。角色的访问控制使用SQL查询实现用户帐户管理,并允许角色的访问控制,类似于ANSI SQL标准和流行的关系数据库管理系统。ClickHouse的性能根据Yandex的内部测试结果,表现出了比同类可比较产品更优的性能。

关于大数据分析druid,以及大数据分析师要学什么的相关信息分享结束,感谢你的耐心阅读,希望对你有所帮助。

随机文章