参与奖项:最佳金融信创突破奖
评委评分:
热度 (转发微信朋友圈或群可以帮助增加热度)
大数据的高速发展已经超过10 年,大数据也正在从计算规模化向更加实时化的趋势演化。在金融行业,在银行、保险、证券交易所等机构的业务场景下,通过大数据实时计算能力实时监控交易行为,交易数据统计、反作弊反洗钱行为的探测、实时营销推荐等各类数据场景中。
通过订阅业务实时数据源,将信息使用实时计算引擎实时处理,存储到交互式分析引擎秒级分析,最终呈现在大屏幕中给决策者使用,方便判断企业经营状况和营销的情况。根据实时的商业运营数据作出决策,做到真正数据智能。因场景的特殊性,实时数据尤为重要,在瞬息万变的业务互动中需要对上一分钟甚至上一秒钟发生的数据进行分析决策,实时数仓是这种场景下最好的选择。
金融实时数仓可以解决将离线数据仓库与实时计算相结合的方案,主要具备以下能力:
首先,必须支持实时写入,传统离线T+1 肯定是不可以的。除此之外,能够支持非常实时的计算。
第二,能够把实时数据和离线数据存放在一起,做到实时/离线数据一体化,减少数据的移动。
第三,平台跟上层的业务能够解耦,平台必须具备一定的通用性。
第四,对于上层业务使用的API,能够拥抱开源生态,整个系统或者产品是一种云原生的架构,便于云上用户使用。
方案背景
随着实时计算引擎的发展,从最初的Strom、微批的Spark Streaming,到现在最流行的流式实时计算Flink的技术演进,越来越多的场景应用了实时计算。Flink已经作为业内实时计算的唯一标准,在各行各业各种场景广泛应用。
另外数据库也有很多产品,如KV存储的HBASE,MPP架构的Greenplum,多维分析的Clickhouse,阿里云交互式分析Hologres,数据库Hudi等等,都是满足一定场景需求。因此需要找到一个组合方案,能够满足业务对实时数仓不同场景的需求。
方案目标
业务目标:
实时数仓架构,将原有的数据指标监控等场景,从T-1的离线数据提升到毫秒级监控,用户的行为信息可以实时监控并能提供符合客户需求的营销推荐产品,代理人能够实时的看到自己的绩效完成情况。
技术目标:
通过构建统一的实时数仓平台,平台要能够满足百万级tps数据的处理能力,亿级别数据量复杂的查询分析能力,并且具备任务监控运维、智能排查故障的能力。
方案特点
一、技术特点
Flink:
数据连接:可与阿里云主流产品无缝集成,包括主流数据库、消息队列和日志服务;可按需自定义Connector对接外部存储系统
任务开发:多语言支持,一站式开发管理平台,包括SQL/Java/Scala/Python语言;内置统一元数据管理,并可无缝对接外部元数据系统(MySQL/Hive等(;内置多个领域函数库,并按需自定义函数
代码调试:支持线上采样和Mock测试数据管理,方便构建测试流程,基于Session集群实现作业秒级启停,大飞提升作业调试效率
监控告警:丰富的指标监控和维度聚合,有近百个指标,便于作业延迟、数据倾斜、反压等问题排查
细粒度资源:支持算子级别的精细化资源配置(CPU/内存),大规模作业资源利用率提高100%+
高可靠保障:SLA 99.9%保证,全链路自动容错能力,系统无单点
核心性能:Nexmark流计算标准测试是开源Flink的3倍
安全隔离:支持租户级和项目级的资源和代码隔离,满足跨团队协作需求
Hologres:
数据模型灵活性:完整的Schema,支持SQL,支持多表关联Join
自助分析体验:亿级数据秒级查询返回
在线服务体验:99.5%以上5ms内返回,可以做到10w+QPS查询性能
分析可扩展性:计算存储分离架构
数据刷线&修正:支持Update、delete等功能,保证数据强一致性
应用开发接口:标准的postgresql,开发上手简单
二、技术优势
Flink:
- 性能优越:单核CPU每秒数十万条记录处理能力,端口间达亚秒级数据处理延迟,支持数万并发超大规模实时任务计算。
- 功能强大:一站式SQL开发运维平台,智能化诊断与自动配置调优,无缝对接阿里云主流数据产品。
- 稳定可靠:SLA稳定性达到99.9%,全链路指标监控报警。
- 品牌认证:Flink创始团队官方出品,中国信通院权威认证,中国唯一进入Forrester象限的实时流计算产品。
Hologres具有如下优势:
- 极速响应
支持以亚秒级的响应速度查询PB级数据,支持向量化计算以及列存储智能索引,性能大幅领先开源系统,帮助您实时多维分析业务。
- 高并发地实时写入和查询
支持高并发地实时写入和查询实时数据,写入速度可以达到数亿TPS。
- 计算存储分离架构
采用计算与存储分离的云原生架构,存储资源和计算资源分离部署并独立扩展。
支持动态升降配,您可以根据业务需求灵活地扩容或缩容Hologres资源。资源越多,任务的并发数量越大。
支持行存储和列存储两种存储模式。您可以进行简单的点查询、复杂的多维查询以及即席查询(Ad Hoc)等多样化的查询分析。
三、自主可控
实时数仓Hologres是阿里巴巴100%自主研发的一站式实时数仓引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议)。
2019年阿里巴巴集团收购了Flink创始公司(DataArtisans),联合打造全球统一的Flink企业版平台。阿里巴巴拥抱开源,反哺开源,向Apache Flink贡献阿里内部实时计算引擎代码(贡献Flink代码超过70%),超过百位工程师向社区贡献了超过数百万行代码。
另外,金融实时数仓方案(实时数仓Hologres/实时计算引擎Flink)整体对国产化CPU服务进行了对应适配,支持Intel、海光、鲲鹏、飞腾等芯片服务器,同时在金融、政府、企业等不同行业都有输出。
方案业务流程图
业务需求:
1)传统的离线数仓一般是天级或小时级的数据决策分析和报表统计
2)实时计算是独立的链路,只能对接实时数据,无法与离线数据做结合,无法做数据分析
3)离线计算和实时计算场景引擎数据开发方式不一致,开发成本高,结果也可能不一致等问题
4)在金融行业,对风控、反欺诈、反洗钱、客户动账监控、异常交易、用户APP行为统计、营销推荐、业务分析、用户资产统计等场景,都需要更及时的监控分析。
功能模块:
交互式分析Hologres:PB级数据秒级查询响应,实时离线联邦查询,兼容Postgresql接口,支持点查询、即席查询和OLAP查询等。
实时处理Flink:提供端到端亚秒级实时数据分析能力,100%兼容Apache Flink,无缝对接主流开源大数据生态。单核CPU每秒数十万条记录处理能力,端口间达亚秒级数据处理延迟,支持数万并发超大规模实时任务计算。
图1 金融实时数仓业务流程及架构
图2 金融实时数仓数据架构
实现功能展示
业务实时大屏是实时数仓最典型的场景,需要实时动态的监控业务指标,如上图所示的手机银行积分商城运营大屏,可以实时的看到每个品类、每个区域的用户的统计情况。方便运营分析人员、管理者清晰的看到活动的运营情况和用户活跃情况等。精准的进行广告策略调整。
方案案例及效果
以金融行业客户建设实时计算平台为例,投入1000万,其中实时数仓节点约50台节点,实施周期180天。成果如下:
基于金融实时数仓架构,将原有的Oracle数据处理架构替换成Flink+Hologres架构,解决了实时数据大数据平台构建财政“管理创新+技术可控”的“智慧财政”,由“电算化管财”向“智慧理财”转型,实现集中化、标准化、可视化、便捷化、智能化,积极融入本地“数字政府”、“智慧城市”体系并成为其有机组成部分,为政府决策、城市治理、社会服务提供坚实财政支撑。
1.时效更高。从秒级分钟级的数据分析处理能力,缩短到亚秒级、秒级处理,计算结果实时统计,从定时任务做到逐笔数据监控。
2.并发能力更强。扩展能力强,单核最多可以做到上万QPS的处理能力,可以做到几十万QPS数据接入查询分析,满足未来多年的算力需求。
3.开发效率更高效。基于标准SQL方式开发,学习入门成本低,系统提供多种维度的监控工具,方便测试联调。
方案未来展望
该方案可以广泛应用于金融、运营商、泛企业、政府等的数字化转型类信息化项目,列举如下:
1)在银行,对客户实时资产负债、交易详单查询、大额转账、实时实践营销、客户经理业绩考核、活动分析等场景,从原来的天级、小时级、分钟级的演示缩短到秒级,有效推动数据赋能业务。
2)在证券行业,对异常交易、用户APP行为统计、实时推荐、业务实时分析、用户资产实时统计等场景,从原来的天级、小时级、分钟级的演示缩短到秒级,有效推动数据赋能业务;
3)保险行业向客户、营销员提供保单管理过程轨迹全场景实时追踪,从天级、小时级的数据提升到秒级看到最新的保单状态、代理人绩效完成率等信息,提升了管理能力和用户体验;
金融实时数仓架构是未来的发展趋势,是企业数字化转型、数据中台能力建设的核心能力。数据的实时化带动了业务的变革,从离线分析变为实时业务在线分析,对于业务实时监控、实时业务策略调整,业务创新等都提供了技术支撑。该方案是数字化转型信息化的基础支撑和主要组成部分,则对各行业数据中台等相关数字化转型项目的客户都具有示范意义。
在数字经济时代,金融机构数字化转型已经成为共识,围绕“金融+科技”开展创新转型。在金融机构落实数字化转型的过程中充分意识到了数据的重要性,但大部分金融机构忽视了其业务数据的瞬间价值,瞬间价值能够充分体现业务“事中”的情况,对这些价值信息有效利用可以提升金融机构在各类业务的决策时效,如信贷反欺诈、理财产品推荐、流动性风险管理等。对数据整合、治理、服务及应用的需求日益突出,一套能够承载海量业务数据实时计算的平台是金融机构数据应用创新的技术手段。
实时数据仓库并不是脱离金融机构传统的离线数据仓库重新构建一套独立的仓库,而是把离线仓库、实时仓库两者紧密的结合在一起,形成一套批流一体的金融级数据仓库,让业务分析变得更加的连续性、完整性。