从金融IT到金融科技,到数字化转型——基于资产管理行业趋势的思考
导读: 本文将结合金融实践,分享数字化转型在资产管理行业的现状和趋势。全文将围绕下面四点展开:
-
资管行业现状
-
2B 的约束
-
痛点和可能的突破方向
-
展望,中国特色
分享嘉宾|陈定博士 杭州衡泰技术 首席科学家
编辑整理|张睿婷 大连理工大学
出品社区|DataFun
01/资管行业现状
首先来介绍一下资管行业的现状。
资管行业目前总体量大约在100 万亿,包括各类金融机构,而根据行业共识,在未来依然会发生快速增长,比如养老金、居民的财富再分配(买房人数下降)。
投研的趋势,从方法论上,更加注重基本面投资与量化的融合,基本面量化。另外趋势是被动投资的持续发展、另类投资的兴起、以及在投资中另类数据的应用。还有近年来比较火的 ESG 及责任投资。
**基于行业趋势,我们需要思考数字化转型到底能做些什么?是否可以起到科技引领的作用?**虽然海外也存在一些实际案例,但我们需要去摸索适合中国市场的潜在路径。
100 万亿的资产大约产生五千亿的资产管理营收。参照上图的调研结果,我们可估计大约数百亿投入资管相关科技领域。在金融业大数据应用上,根据 2022 年 2 月份发布的统计,我们可看到众多细分领域,总体上看,比较偏向信贷市场(而非资本市场),偏重银行类金融机构(而不是非银金融机构),偏重于 toC 市场(而不是 2B 市场),从决策上更多支持偏重精准营销和经营(而非支持投研和风控),科技投入的影响远远未到达行业的预期。我们对比历史上曾经发生的模型和技术对资产管理的重大影响事件,如 Bloomberg(彭博)的兴起,基于风险和收益的均值方差组合优化(马科维茨组合投资理论),甚至简单的债券数学计算, 尽管中国市场体量大,各方都向数字化投入,但目前仍没看到,在 2B(投研和风控)领域,可和上述(历史)事件影响相比的方案。
资管决策过程可以分为大致五个步骤:数据、投研、决策、执行和监控。传统处理的数据包括两类,结构化数据和资讯文本类。可能的瓶颈在于场景的应用,尤其是 toB 领域。因此下面核心分享的主题为债券投资中可能的突破,各种场景中的约束以及可能的路径在哪里。
--
02/2B 的约束
首先,toB 和 toC 在金融应用上的差异。分享三句名言:
- 投资能力的核心是采集信息和分析信息的能力。应在第二点。
- 成功的估值既有数据支持,又有叙事,能够判断因果,而不是仅给出相关性。
- 巴菲特的老师,本杰明·格雷厄姆,曾说过,资本市场短期是投票机,长期是称重衡器,是投研中很好的问题划分。
回到 toC 与 toB 的差别,从数据采集角度,金融是强监管行业,toB 对数据来源有明确要求,爬虫有明确合规界定,另类数据要有明确落地。投研处理组合属于小样本,即使考虑全市场,相对于 toC,量级上也存在巨大差异。除此之外,小样本分析中无法依赖正态分布,不能做决策黑匣子,要超越相关,看到因果,与传统金融理论模型匹配。资产变化驱动因素也需要考虑短期长期,不是要提出全新的解决方案,而是要和现有的流程融合。
--
03/痛点和可能的突破方向
以上是 toB 可能面临的约束,那么突破的方向在哪里呢?
在这一图表中,可以看到对于数值文字图像三种来源的信息,叠加人工或量化/程序化不同的处理办法,在行情和估值的十二个应用场景下的技术表现 matrix。其中深色表示发展逐渐成熟(或方向错误),很难产生革命性突破,而浅色意味有较大增长潜力。举例,对于文字信息,采用量化程序化方法处理市场情绪舆情问题。目前有很多具体的解决方案,可以从早期监控中给定某个行业股票事件的舆情,但这只是短期的事件舆情。但下一步应该如何使用,如何判断目前的事件影响是否已经反应在价格上,如何判断市场 overreact 还是 underreact 或是 nothing happened,这是终极应用场景,需要更多结合现有理论,实际操作模式,采用用户可以理解的语言或模型讲出自己的叙事。对图像处理,涉及估值,可以高维数据拓扑结构做变量选择。数据类的例子是衍生品定价,比如市场上流行的雪球,目前需要解非常复杂的偏微分方程,目前没有解析解,只能寻找数值解,资源消耗也非常大。而海外也有很多成功案例,模拟近似数据解,可以提高好几个量级的效率。
用简短的两个词描述中国市场即"政策市"、"散户市",预示着智慧金融能够发挥出自己的独特作用,比如某券商做了政策力度指数,分析国务院公开文件,十七个省市文件等等,对每个行业构建政策支持力度指数,是非常成功的案例。下一点,散户市,中国股市已经开始试行做市商制度,很好的大数据应用场景是看市场微观结构交易执行中的挂单行为。
第一个例子,事件捕捉。基于知识图谱和自动新闻分析的机构风险识别,同时解决市场情绪与估值问题,判断事件会影响到哪一个部门。看投资机构的日常工作日程,首先开晨会看市场变化,从昨天收盘到今天开盘之间发生了什么,但通用的搜索引擎搜索来的事件可能并不是自己最关注的,这一研究可以起到一定作用。但下一步是,如何判断这一事件为突发还是对以往事件的延续?需要后续完善。
下一案例是针对债券投资从数字出发处理估值问题特别是非线性数据的分析。机器学习效果显著,早期实证金融模型都属于 regression base。简单介绍收益率曲线,即相同信用等级下不同期限的即期收益率,"剥离"存续期的现金流(债券票息)影响,可以称之为债券投资的核心"基础设施",但在数学上属于 ill-defined 问题,存在多个局域非最优解。曾经有团队成功利用 auto encoder 机器学习方法处理了这些数据,更灵活,收敛稳定性更好。
案例三也与收益率曲线有关,它回答了宏观经济指标如何影响收益率曲线变化。我们关注大量指标,但哪些在影响?这属于特征工程问题。临近预测指如何根据近期事件 update 自己的模型,同时利用不同数据源处理混频,横截面等问题。如图可以看出,目前的预测虽然大体趋势符合,但细节上仍有待提高,计划引入文本因子做出改进。
整体大方向依然在如何结合文字信息与行情,也有以上的高性能计算及衍生品定价;智能监管指构建合规图谱,判断一个机构的行为内容是否满足其流程的规范要求;还有传统行业较为欠缺的宏观指数分析,智能金融需要在这方面进行开拓;还有 ESG,存在信息较为散乱的问题,需要知道如何从各个来源的数据中抽取底层指标,设定权重。
--
04/展望,中国特色
统观中国特色,首先是政策市、散户市。企业图谱,可以构建不同的图,关联可以来自于交叉的股权、交叉的债券包括担保,以及其产业链和供应链,还可包括A、B两公司同时持有C公司债券(也可以称两个公司有同样的投资者),我们将此类关联称之为"基本面关联"。在资管行业中能够被真切感受到的是,每天不同股票或其波动率,从时间序列的角度,都展示出一定的相关性,这可使用 Granger 因果性或 CCM 进行测算。核心问题在于,如何从基本面关联对应到市场关联。目前并没有很好的答案,需要将来应用智慧金融等各种各样的技术来赋能业务。
什么是越来越展现出中国特色的数据要素?简单举例,就是作为城市大脑或产业大脑的政府数据,在保障安全的前提之下,以市场化的形式越来越开放,比如能耗数据、社保数据、工商登记数据等等。
资管数字化转型、投研和风控,将在大数据、多模态、非线性等方面有用武之地。我们根据分析给出了上图所示的矩阵。最终在实际场景中,还是需要组合应用。
最后简单介绍一下衡泰技术,我们长期致力于服务金融机构,主要业务集中于风险,交易绩效,信用等等,细分行业内荣入全球前一百。
--
05/问答环节
Q1:资管和 toC 风控主要差异是否在数据采集方面?
A1:个人认为最本质的差异在于对个体描述的误差容忍度。最终应用在于组合,在 toC上这是一个上百万的组合,其误差容忍度很高,很宽松。但对 toB 而言,有限的资金只能购买少量的一两百支债券与股票,如果说服投资经理,重仓某个证券,极有可能造成很大损失,所以一定不可以反常识,偏离主流的金融理论。从数学上讲,toC 样本量足够大,无论误差有多少,最终会呈现正态分布。但对于 toB,决策必须具有高度可解释性,在决策时强调因果性而不是相关性。
Q2:我们都听过技术的成熟曲线,技术的发展遵循一定趋势,初期期望上升,再跌落,然后重新稳定增长来到爆发。目前的技术虽然经历了低谷,也开始增长,但却未到达高爆发红海阶段。结合中国特色与当前技术水平,未来哪些场景中的技术处于高爆发红海阶段?
A2:文本信息的量化是一个领域之一。各方面的技术都已有足够的进展,应该说处于高爆发的前奏。前面提到的券商做的政策力度指数,是非常成功的尝试。但完全依赖机器学习做投资推理,可能还有相当长的路。一个例子,资讯/事件对市场的"冲击"影响。在一个成熟的资本市场中,大家是能够达成一致共识的。也就是说,引领价格发生波动的并不是某一事件,而是这一事件与对此事件预期的差值。比如统计局即将公布 GDP,目前市场上存在预期为 5,而最终公布的数据是 4.5 或 5.5,那么相差的 0.5才会触发波动。但如何计算出这个差值?过去统计局会做 survey,但现在,智能监测是一个更好的方法:金融技术通过对多模态数据,包括文本,研报等资源的分析可以实时构建出一个基本模型。比如通过分析师的言论推算出其对大盘的看法。这个过程中又存在很多困难的细节,如何实现实时监控整个市场变化,保证覆盖面及频率;下一步又面临如何量化的问题,如资产定价中的模型因子如何根据文本信息做修正改进。
今天的分享就到这里,谢谢大家。
分享嘉宾
▌大话数智
大话数智,是DataFun策划的智库类公众号,包括但不限于知识地图、深度访谈、直播、课程等学习资料,旨在为广大数据智能从业者、数据智能团队提供一个日常学习成长的平台,促进先进的数据智能技术的传播与广泛落地。