大数据处理在交换平台产品中的应用
来源:用户上传
作者:
摘要:大数据时代,个人、企业数据快速发展,数据呈现海量、多样性特点,同时企业信息系统建设也日益复杂、庞大;如何处理海量、多样化数据,并且在多平台、多系统间实现数据的整合、交换,充分发挥企业数据价值,成为当前企业系统建设的巨大挑战。本文将对大数据处理在交换平台处理中的可视化、可监控、可管理、可配置上做一个简单介绍。
关键词:大数据;多系统;交换平台;可管理
中图分类号:TP311.52 文献标识码:A 文章编号:1007-9416(2019)12-0093-03
1 大数据处理与交换方案
1.1 BDPE概念
BDPE(大數据处理与交换BigData Process And Exchange),是基于多年对大数据研究、使用成果的基础上,形成满足大数据、满足各行业的大数据处理与交换产品。
BDPE产品是基于分布式架构,实现对系统源数据的统一抽取、转换、加载,并在此基础上实现与外围系统的数据交换,同时提供跨平台的统一的作业调度及监控功能。如图1所示。
使用BDPE产品,可以帮助企业实现:
各信息系统数据的整合,实现统一的加工、处理与管理。
降低IT系统建设开销,节约成本。
提供可视化的使用、运维界面,降低部署和运维难度。
1.2 BDPE功能
采用分布式架构,产品性能随着设备扩容呈线性增长,不受扩容限制。
实现对企业内部信息系统(如订单、办公文件等)采集,按照企业统一的数据规范对信息进行合并、转换等操作,并对异构系统数据的统一处理、管理。
支持对企业外部(如互联网网页等)等结构化、非结构化数据的采集、转换与处理。
将系统数据处理与交换工作从人工运维管理转变为自动化运维管理,大幅提高IT运维服务质量。
支持自定义的作业调度管理,依据事先配置好的调度策略(如优先级、逻辑关系等)、故障判断标准、恢复策略进行作业调度、故障恢复。
自动检测服务器的负载情况,如CPU、内存、I/O使用情况,进行智能调度,均衡各系统负载,保证系统良好的用户体验和系统的最佳响应。
自动监控IT资源和系统运行状态,对系统故障和潜在风险实时报警、自动回复,提高系统的可靠性。
产品采用组件化设计思想,具有良好的开放性,支持第三方调用。
1.3 BDPE技术特点
采用服务层、执行层、应用层的分层架构,有利于解耦、组合、安装和维护。
硬件和数据处理与交换平台由IT维护人员维护,业务人员聚焦业务,各司其职,提高效率。
支持多种数据库及平台,支持多厂商的硬件。
广泛的数据源支持,支持异构数据源系统的数据抽取、支持多种数据抽取接口。
提供开发API,支持对第三软件或者产品的集成。
提供了可视化、拥有丰富组件的设计工具,降低了使用门槛。
采用WORKFLOW机制,通过多种工作流调度方法,可以将ETL Session、数据库脚本等任务结合在一起,方便定制个性化、复杂的工作流,满足各种应用场景。
1.4 BDPE关键能力
支持hadoop、MPP、Spark、分布式内存平台处理非结构化数据。
支持跨hadoop、MPP、传统RDBMS等平台及数据库调度,实现对流量运营、深度分析、主数据仓库、等应用库的调度与数据处理。
支持对小型机、X86服务器、调度流程的监控与处理、跨平台统一监控能力。
支持集群中节点在线添加、移除,自动部署Agent代理,自动实现后续节点的监控、服务管理能力。
支持对执行JOB的新增、修改、删除等JOB管理操作数据不落地传输能力。
支持分布式内存数据计算,以多进程管道方式并行读取不同的接口文件高可用集群与负载均衡能力。
通过选举算法,确定服务端主server,发生故障,备server自动接管硬件线性扩展及功能横向扩展能力。
采用基于X86的分布式架构,能够利用系统可视化界面方便、快捷实现节点动态扩展,并且产品性能随着服务器扩展呈线性扩展。
产品采用组件化设计与开发,具有很好的扩展性,能快速应对未来系统扩展、技术发展要求可视化、定制化操作能力。
提供了丰富的图形化操作界面,支撑用户的日常运维、配置工作。如性能监控、实时监控、Job监控、日志查看、Job配置、模板管理等。
采用插件式开发,将对外服务、集成功能封装成API供其他软件调用。
2 BDPE架构
2.1 技术架构
如图2所示。
作为核心中枢主要承担ETL作业组织、任务调度、作业状态跟进、作业监控管理、异常处理与服务质量管理、集群资源管理等核心服务管理工作,作为产品的大脑负责“发号施令”同时又承担对作业执行情况的监控,其核心价值是“承上启下”将不同层次的功能组合为一个计算整体来对外服务。
作为产品的计算任务承担点,产品中核心的数据处理流程,如:采集、处理与加载等工作过程都将由其来承担具备计算过程,从抽象层面来分析执行层是计算资源的高度聚集与抽象,其受控于中枢“大脑”的调遣,定位于工兵忠实在执行下发的每一个指令,以保证计算任务高效优质完成为核心关注点。
侧重于从核心业务诉求基础之上进行高度总结抽象后形成独立的应用控件,产品允许用户可根据自身业务诉求采用参数化配置的方式来将不同应用控件组成起来形成一个完整的数据处理流程,在技术层面上主要运用插件模式来管理控件,并且通过提供丰富的二次开发接口使产品具备良好的扩展特性。 2.2 功能架构
如图3所示。
ETL组件层:利用产品多数据源整合能力,通过ETL组件、实时流处理技术、作业引擎、作用可视化、作用管理等功能,实现对跨平台、跨系统的作业设计、作业生命周期管理。
调度层:借鉴Quartz技术及思想,结合大数据平台调度要求,打造对外调度接口、集群与高可用、ETL作业调度、通用作业调度能力,并构建基于YARN的多租户管理能力,实现对系统作业的统一调度与管理。
展现层:着重展现监控信息,包括系统告警、流程监控、指标监控、时间轴进度等,达到全覆盖监控系统的软硬件信息,保证及时发现问题及时告警及时通知。
2.3 物理部署
针对不同应用场景、不同资源配置情况与软件平台约束,BDPE产品支持“小型机+磁盘阵列”、“X86+磁盘阵列”、“X86+本地盘”等部署方式。
3 BDPE ETL
3.1 结构
如图4所示。
3.2 功能
BDPE产品ETL实现对多数据源采集、转换、加载及数据交互功能,主要包括:
数据采集:
(1)支持从不同数据源(DB2、ORACLE、DB2、Hadoop、MPP等)抽取数据。(2)支持批量数据抽取和实时(流式)数据抽取。(3)支持全量抽取和增量抽取数据。
数据转换:
(1)实现对无意义数据字段的过滤,将不同的数据名称和定义进行转换并统一;计算和统计衍生数据与字段;定义缺省数据的默认数据值。(2)支持通过图形化界面实现对转换规则配置。(3)提供丰富的数据转换组件实现各种业务场景下数据转换。(4)支持校验点实现对数据转换质量的监控、校验。
数据加载:
(1)将采集并转换后的数据,通过不同的技术手段加载到不同数据库或者平台。(2)支持多种加载模式与策略定义,如全量、实时、双加载等。(3)支持文件落地和不落地两种存储加载。(4)支持数据的并行装载,即支持多个数据库连接同一装载任务的并发执行。(5)支持异构数据库之间加载,主要包括:DB2、Greenplum、HDFS、HBase、Teradata、Vertica、MySql等多种数据库。(6)支持脚本加载事务处理,加载实现过程中支持提供SQL、HQL、SHELL等不同类别的行为定义脚本。(7)提供图形化界面实现对加载过程的监控与处理。
4 BDPE Manager
4.1 统一调度
BDPE产品提供跨系统跨平台的任务调度功能,与各子系统紧密接合,支持跨越平台、跨系统间隔实现完整无空隙运行的统一调度。产品垮平台统一调度能力能支持其它大型企业多系统的统一调度。如图5所示。
4.2 统一作业
BDPE产品通过可视化界面,利用产品组件及作业引擎,实现对作业的设计、测试、发布、变更等管理,在支撑大数据平台内部作业设计、管理的同时,支撑平台对外数据服务作业的设计与管理。如图6所示。
对传统结构化数据整合的基础上,结合大数据处理数据的多样性、复杂性特征,对XML、语音、视频,社交媒体、RSS/Web互联网数据以及网络信令等实时数据整合能力。
BDPE產品提供实时抽取、数据校验、拆分、合并、字段转换、压缩加载、流加载等组件。
利用可视化界面,通过对组件拖拽,实现可视化设计,实现无编码智能开发的能力。
遵循各作业流程,对作业生命周期进行全流程、透明管理,形成系统作业视图,为系统优化、运维提供数据支撑。
BDPE针对传统RDBMS、MPP、Hadoop等数据库特征,提供相应的作业引擎,实现对不同数据库的快速支撑。
4.3 统一监控
BDPE产品针对数据处理与交换需求,提供浏览器、短彩信、手机APP等方式实现对ETL作业、ETL节点资源、M/R、Spark作业等数据处理流程、资源全方位监控。如图7所示。
4.4 统一部署
BDPE产品利用已有的组件化技术,结合Hadoop、MPP、传统关系数据及UNIX、Linux等产品及环境差异,将BDPE产品相关功能封装成部署包,完成产品在不同平台的快速部署。实现产品自动化水平及部署,提高产品部署工作效率;降低产品部署技术门槛,满足全行业数据处理需要。如图8所示。
4.5 可视化操作
BDPE产品借鉴互联网产品开发及多年行业经验,从用户使用角度出发,强化用户交互及视觉设计,为数据处理开发、维护人员提供图形化的配置管理界面,使BDPE产品具有友好性和易用性,通过简单学习和培训即可上手开发,运维管理人员通过图形化的管理界面来查询任务部署与运行情况,降低产品使用门槛,同时提升工作效率。
Application of Big Data Processing in Switching Platform Products
DU Yu-hui
(China Mobile Tietong Liaoning Branch,Shenyang Liaoning 110179)
Abstract:In the era of big data,the data of individuals and enterprises are developing rapidly, and the data presents the characteristics of magnanimity and diversity. At the same time, the construction of enterprise information system is becoming increasingly complex and huge, and in the multi-platform, multi-system data integration, exchange, give full play to the value of enterprise data, enterprise system construction has become a huge challenge. In this paper, we will give a brief introduction to the visualization, monitoring and management of big data processing in the exchange platform.
Key words:big data;multiple System;switching platform;manageable
转载注明来源:https://www.xzbu.com/8/view-15141874.htm