数据时代:资管的未来

杨虎猛
“数据驱动业务,科技赋能业务”是新一代资管系统IT架构规划设计的重要目标之一,也是推动企业落实其信息化规划的必由之路。

金融科技是科技赋能金融,实现金融在创新科技驱动下的业务流程、模式、产品、风控等方面的升级和变革,随着金融科技的深入发展,人工智能、区块链、云计算、大数据将逐步融入到企业信息化规划的落地执行当中。其中,数据治理是其中的重要环节,数据治理是个复杂、艰巨而长期的过程,涉及到组织、制度、流程建设,数据存储、处理、安全、交互、使用的流程和方法,以及相对应的数据建模、系统架构等,本篇主要围绕资管数据治理的系统架构规划及其应用场景探索。

企业级数据仓库历史与现状

信息技术的每一次创新和突破都会给金融行业带来重大的影响,企业级数据中心的系统架构也逐渐从数据仓库过渡到基于Hadoop生态圈的大数据时代。

数据仓库概念从上个世纪90年代提出至今,已有30年的历史,作为企业数据处理的主流技术架构,在企业数据整合、业务规范统一化、报表输出集中化等方面曾经和正在发挥着巨大的作用。

随着资管新规的贯彻执行,以及资管产品、非标业务、衍生品投资等新品种投资业务的发展,传统数据仓库技术发展已经碰到一些瓶颈。传统数据仓库在企业级数据集中处理方面所发挥的作用,主要包括架构扩展性、业务操作规范、数据整合与共享等方面,但所能处理的数据类型仅限于结构化的数据。而数据治理新架构需要支持数据资产(结构和非结构化数据)管理和价值分析,以及业务引擎、决策支持、智能应用支持等扩展应用。传统数据仓库解决方案,无法解决以下问题:

● 非结构化数据识别与处理:数据仓库集中了结构化数据,但对于企业的非结构化及半结构化数据处理无能为力,有迹象表明,未来业务发展及企业竞争力的核心,将取决于企业对于半结构化和非结构化数据的处理和利用能力。

● 大数据存储:现有的结构化数据存储一般以GB级,而非结构化数据的容量将远超GB级,现有的数据存储和处理能力将不能满足未来PB甚至更大的数据存储技术要求。

● 大数据分析与智能搜索:对于结构化数据分析,一般采用范式数据库设计及分析方法,而对于大数据处理,将更多采用数据建模的分析方法,实现智能搜索,支持业务的数据要求。

● 决策支持:传统对于结构化数据的利用,多是结果统计,根据现有的数据,通过人工决策,支撑企业的发展规划。而大数据平台可以从预测、选择等多种方法,以较为准确的数据推理,支持企业决策过程。

以上是未来一段时间资管行业企业数据处理方面所面临的几个棘手问题。因此,我们需要探索一种新的数据处理解决方案。随着大数据技术的发展成熟,使得我们这种设想成为可能,也成为未来企业数据处理发展的必然方向。

大数据平台建设探索

数据成为资产,已是行业共识,甚至有人建议将数据纳入资产负债表,足可见数据在企业生产经营活动中的重要性。资管行业是个高度信息化的行业,系统众多,信息繁杂,包含办公、投资、风控、运营、资讯等多个维度,这些系统数据以及数据产生的信息目前已经被公认为是企业的资产。那么,这些资产是不是都是数据资产呢?显然不是,资产是有价值的,没有价值的信息集中只是堆砌,只有将信息融入特定业务应用场景的使用过程,才能成为资产,所以,定义数据资产,必须是能带来业务价值的所有信息。要让数据发挥价值,成为数据资产,需要对数据资产加以管理,数据资产管理不只是IT的范畴,更是企业全员需要参与的一项系统工程,更需要引起企业管理者的高度重视。

基于数据资产的共识,对数据加工的复杂度和速度要求更高,数据资产的管理相比于传统数据仓库下的数据资产管理更加复杂,新的数据资产管理是对传统数据管理的扩充和升级,通过降低企业数据使用的成本,提高以数据指导管理决策的效率,数据资产管理的目的是发挥数据的价值,企业可以从数据中获得“明显”的收益。数据资产管理已然成为大数据时代中企业竞争力的重要来源,数据资产管理为大数据提供价值体现的前提。在企业内外部数据整合过程中,涉及到异构数据的定义、规范、融合等多个环节,包括数据标准、数据模型、数据质量、元数据、主数据、数据安全等数据全生命周期管理职能,数据资产的有效管理,尤为重要。

系统平台技术架构

一般理解大数据有四V特征,即Vo l u m e ( 大量)、Velocity(高速)、Variety(多样)、Value(低价值密度),所以大数据不仅仅是大,更重要的是复杂性,包含结构化、半结构化和非结构化数据,既包括传统交易系统中的结构化数据(主数据、参考数据、业务对象、业务事件、操作流水等),也包括企业现存的非结构化或者半结构化内容数据(凭证、影像、语音、电子文档、Email等),还应该包括企业内外部所有可以采集到的Weblog(操作日志、移动终端Log、浏览日志、行为日志等)和社交媒体数据(微信、社区、舆情等文本内容和日志)等。大数据最早可追溯到上世纪八十年代,但一般认为是本世纪在2011年麦肯锡公司的报告中正式提出。随着近几年大数据技术的快速发展,目前已基本形成大数据成熟架构及处理技术,它可以解决以下三个主要方面的问题。

● 效率类:通过分布式处理、高速计算引擎Spark等技术,极大提高数据处理计算能力,尤其对非结构化数据处理更具优势。

● 预测类:构建数据模型,解析人/技术/事物的过去和现在的特质,实现对未来的“预测”,以及商业“决策”。

● 选择类:设定目标,通过问题界定、规则制定、数据选择、数据分析等步骤,找到最佳的匹配对象,大量应用于精准广告应用、智能投顾应用等。

在企业级大数据平台实际应用中,可以根据不同的应用场景,对不同组件进行增删改,并可进一步集成开发监控平台、交互平台、展示平台等。

系统平台业务架构

资管行业业务覆盖度广泛且深入,涉及一级市场、二级市场,甚至有三级市场,投资品种包括债券、股票、期货、衍生品等,所以企业的系统也是纷繁复杂,传统数据仓库,通常对接的系统包括估值系统、交易系统、另类系统、外部资讯数据、风控系统、TA系统、信评系统、投研系统等多达二十个系统。传统数据仓库主要满足业务需求,输出统一API接口数据。

选用大数据平台技术架构,不仅可以替代传统数据仓库建立投资、市场与销售、运营、风控、办公等业务支撑平台的数据支持,也能实现人工智能、智能搜索,更进一步推动和引领业务发展。从企业数据处理角度看,实现了从结构化数据管理到全数据管理的巨大飞跃,对于企业的发展奠定了坚实的基础,也会助推五大业务支持平台,由基础业务支持向智能化转变。

● 数据采集

数据采集数据源来自于企业级数据中心的结构化数据和非结构/半结构化数据,而非结构化/半结构化数据来源于企业内部和外部,外部数据主要采集来源包括金融类网站、微信群、金融终端、沪深二级市场公告、研报等数据,内部数据源主要采集来源包括软硬件系统运行日志、合同、制度、特定邮件、投资类过程文件等。

外部数据的采集一般通过互联网爬虫系统和外购数据源两种方式获取,网络爬虫通过动态IP管理,以及图形图像识别和正文抽取等算法技术,从各数据源抽取关键信息、去重去噪后入库,主要功能包括支持:各类网页、微信、第三方应用等公开数据的获取;各种样式的报告、合同、票据等扫描件的解析识别;从PDF、Office文档、图片等多种格式文件文档以及支持通过机器学习的算法,从非结构化数据中获取有价值的数据。而内部数据的采集较为简单,从各类系统中即可抽取。

● 数据清洗与处理

数据处理过程主要是将采集的源数据,通过文本分词、图表还原、OCR图像识别、自然语言处理等技术,进行结构化和Key-Value映射的非结构化转换。处理路径可分为离线数据和实时数据处理,其处理流程也不尽相同,比如对于投资引擎的数据分析,需要实时数据处理与计算,而对于风险定价与预测,更多是离线数据分析。

在数据处理后,还需要对数据进行错误校验和清洗,类似于数据仓库中结构化数据处理,一般是基于某种方法的数据校验,通过字段级别、表级别、库级别的校验规则,进行合法性、一致性、标准化、去重等多级清洗和校验,以保证入库数据的质量。

● 数据建模与知识图谱

数据建模是数据抽象化形成可以理解和使用的概念模型的过程,一般分为定义、测试、评估、应用、优化等五个步骤来进行建模,支持建模的基础数据来源于各个方面,比如投资引擎所包含的结构化数据有交易、投研、信评、估值、账户、资讯等,非结构化数据有舆情、社交媒体消息和留言、稿件与图片、语音等。这个环节是高度专业化的过程,涉及对业务需求的理解,对技术实现的把控,企业在人工智能技术应用方面的竞争优势也在于此。

在众多的数据模型中,通过实体识别 、概念识别、关系抽取、知识推理等方法,建立基于图谱的传导推理模型,称之为知识图谱。知识图谱描述了真实世界中存在的各种实体和概念,采用数据拟合技术,自动构建不同文件和数据之间的关联,再基于关联关系自动更新数据库和数据图表。知识图谱是搜索引擎的基础,是传统搜索发展到智能搜索不可或缺的一项技术。

● 统一数据接口API

统一数据接口API是数据访问的封装,从而可以对内、对外提供统一的各类数据访问服务。API针对非知识图谱类数据访问服务,包括数据库接口、应用级接口和文件级接口:数据库接口通过数据库脚本实现在数据库间的直接数据交互,一般用于结构化数据的数据交互;应用级接口通过应用服务访问,实现服务请求与应答式的数据交互,一般用于数据安全级别较高的数据访问;文件级接口通过文件导出的方式,实现不同系统间数据交互,主要用于第三方外部系统且安全级别较高的数据访问。同时,还需要建立数据交互的访问、授权、认证等数据安全措施,以保证数据安全。

● 智能搜索支持

智能搜索是基于知识图谱的延伸拓展,通过自然语言处理对数据进行查询、排序、筛选和运算,支持不需要技术人员干预,通过自然语言录入,实现标准模板语言描述查询语句映射成机器查询条件(SQL语句),以图表的方式直观展示搜索结果。

智能搜索采用基于数据内容及上下语义环境进行的内容检索,突破了传统的基于文本检索技术的检索,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行快速检索,并在此基础上进行自然语言处理、知识计算和知识存储,形成知识图谱。另一方面,根据掌握到的用户信息对用户的查询计划、兴趣、意图等进行推理和预测,并根据搜索环境的变化及时调整搜索结果,满足用户多层次的需求。

大数据平台应用场景未来

未来,大数据平台可以在智能搜索、金融科技以及决策支持等方面发挥作用。

智能搜索应用:智能搜索将是大数据平台未来一个重要的应用场景,传统的文本搜索将逐步发展到内容搜索、交互搜索、垂直搜索等更高级更智能的层次,通过知识图谱提高机器的认知,让机器理解这个世界,更好地实现人机交互。采集整合内外部各类专业数据和专业知识资源,形成知识图谱,及时查询到图谱数据及其关系,实现智能搜索。

金融科技应用:系统基于大数据的计算能力、数据分析能力、统计推理能力,将可能在智能投资、智能投顾、智能风控、智能运营等应用场景下得到有效应用。

决策支持应用:传统的非标投资主要根据大类资产配置,对逐个项目进行预审、评审、投决等过程后,进行投前、投中和投后管理。基于大数据决策支持技术,可以对宏观数据、监管政策、市场变化、存量项目、风险评估等数据进行建模和数据分析,设置预审、评审、投决等关键环节的通过率,结合企业考核指标,可以预测未来可选择项目的范围、数量、质量及风险系数,并进行实时的调整,形成良性的闭环效果,以支持非标投资决策。

数据整合和系统建设只是数据治理的一个环节,但也是最重要的科技保障。数字化转型,赋能业务发展,只有实现了数字化转型,才能有智能化、智慧化应用和绿色的未来。行业践行之路和集团信息化战略的要求,决定了只有将数据资产管理上升到公司级管理高度,才能实现数字化转型,“数据驱动业务,科技赋能业务”是新一代资管系统IT架构规划设计的重要目标之一,也是推动企业落实其信息化规划的必由之路。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论