admin 发表于 2018-1-23 11:41:59

大数据平台架构

下图是2019年11月结合DD的数据平台思考整理大数据平台架构图。



开源大数据组件在DD的使用:

[*]Flume:Hera平台
[*]Flink:Woater平台
[*]离线计算框架整合为数据梦工厂
[*]数易:自研的可视化报表引擎
[*]提数工具:HSQL模板+定时调度
[*]数据地图:数据治理部自研的Hive数仓表检索系统



【大数据离线数据分析】

[*]Linux基础
[*]大数据java加强
[*]Hadoop:Hadoop是知名的大数据处理工具,包括分布式数据存储系统HDFS,分布式数据计算框架MapReduce和资源管理系统Yarn。HDFS全称为Hadoop分布式文件系统,用于分布式存储海量数据,具有高容错,高吞吐,高可用的特点。MapReduce是Hadoop提供的一种计算框架,用于大规模数据集的并行计算,包含Map和Reduce两个过程。Yarn是Hadoop2.0对MapReduce框架重构后的一种资源管理器,为Hadoop的上层应用提供统一的资源管理和调度。它的引入为集群在利用率,资源统一管理和数据共享等方面带来了巨大好处。
[*]Flume:Flume是大数据生态的日志收集,传输系统。
[*]Hive:Hive是基于Hadoop的数据仓库系统。它通过将结构化的数据文件映射为Hive表,并提供类SQL的语言转成对应的MapRecude任务来处理数据。
[*]HBase:HBase是基于Hadoop的分布式非关系型数据库。
[*]Zookeeper:分布式系统的协调和状态监控工具。
[*]Sqoop:用于在Hive与MySQL之间的数据传输工具。


【大数据实时数据分析】

[*]Storm:Storm是一个分布式、可容错的实时计算系统。Storm为分布式实时计算提供了一组通用原语,可被用于流处理之中,实时处理消息并更新数据库。Storm也可被用于连续计算,对数据流做连续查询,在计算时讲结果以流的形式输出给用户。Storm可被用于分布式RPC,以并行的方式运行昂贵的计算。
[*]Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统。可以处理消费者规模的网站中的所有动作流数据。是一种分布式消息队列,提供横向扩展能力。通过磁盘存储数据,实现了消息天然的持久化存储。可以实现数据的分区,为并发处理数据提供可能。以分区为单位实现负载均衡和失败恢复,实现了高可用。
[*]CDH:CDH是Cloudera发行的基于Apache Hadoop的一个Hadoop版,它提供了一个可伸缩,稳定,综合的企业级数据管理平台。用于管理快速增长的数据,使用户可以快速部署和管理Hadoop及相关大数据处理框架,操作、分析企业级数据,并保证数据的安全性。对包括Apache Hadoop和其他十多项重要开源技术进行了整合,满足企业级应用需求。


【大数据内存计算框架】

[*]SCALA:Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
[*]SPARK:Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。



页: [1]
查看完整版本: 大数据平台架构