专注于分享
分享好资源

首席看量化中信建投丁鲁明:更科学的投资方式成为A股市场新常态

2022年9月29日晚,《首席看量化》开播,第一期邀请到了中信建投证券研究发展部执行总经理、金融工程与大类资产配置基金研究首席分析师丁鲁明,就《量化策略的市场回顾与未来发展的思考》做了主题分享。在他看来,近几年A股市场结构发生了较大变化,“个人投资者和机构投资者(占比)有了一个差异的拉开,这也意味着, 更科学的投资方式和更小的套利空间,是我们A股市场中的一个新常态。”在机构化博弈的时代背景下,丁鲁明认为还需要不断加强学习和提升,用更高精尖的方式、用更前瞻的策略去维持自己的量化阿尔法的优势,“ 力图在这个市场变得更有效之前,寻找到更好的阿尔法的解决方案”。

作为国内“量化基本面”投研体系开拓者之一,他还提到量化基本面正经历“择时-风格-行业-个股”研究不断深入的进程。在他看来, 未来不确定性和重大短期的冲击事件或许还会频繁发生,这意味着量化基本面需要做的越来越细致,从更微观数据的层面把握真实情况,比如借助分析师研报信息实现非标基本面信息的定量转化。本次直播由明汯投资冯千担任主持人。

《首席看量化》栏目,是由中国首席经济学家论坛与北外滩国际金融学会量化专委会联合发起的一档投资者教育视频直播栏目,每期邀请券商研究所金工首席分析师担任主讲嘉宾,围绕着量化投资领域备受关注的话题, 通过体系化、专业化的内容分享,帮助投资者和公众更加全面深入了解量化投资的方法论。

以下为演讲嘉宾发言实录精编:

今天非常高兴能够受邀来参加我们直播现场的活动。下面想和大家分享一下我对于量化领域的一些思考,希望能够给大家一些不同的视角和启发。

2022量化产品市场回顾

在过去的2-3年,我们看到有一大批量化私募产品产生了不可思议的高收益的业绩,在和主动投资产品的PK当中,它们一直相对占优。在2022年的资本市场,量化产品又回到了市场关注的焦点,那么,这个市场有哪些新的变化?

公募股票量化策略2022年收益情况

首先用PPT和大家做一个简单概述,量化的范畴很广,从研究的角度来看,包括CTA、股票多空、指数增强和一些主动量化策略等。

在曲线图上,我们可以看到,今年以来CTA和股票多空策略的相对收益由于没有受到太多权益市场波动的干扰,呈现出来一个小幅负或小幅正的收益特征。而在指数增强这个策略上,它基本上90%以上的贝塔都是暴露在市场当中,今年1-9月,市场调整中的波动对指数增强型产品产生了一个贝塔上的伤害。不过我们知道,这块的收益是产品设计造成的, 因此我们会更多的把目光集中在扣除了基准收益之后的一个超额收益的部分。

2022年初至今,国内的公募团队在量化领域取得了一定的成绩,从绝对收益来看也是比我们的中证500沪深300的调整幅度要有所收敛。

私募股票量化策略2022年收益情况

在私募机构,同样的产品类型,我们就会看到一些更灵活的其他策略,比如股票中性、宏观对冲和套利策略等。当然传统的CTA和股票多头指数增强也同样在其中,只不过在各家的一些数据的策略汇总中,它的一个分类方式略微有些名义上的区别。

实质上我们还是能够看出股票多头这类策略,在市场波动中也会受到贝塔的影响,但是从整个的跌幅来看,它的相对超额收益还是有更明显的一个呈现,相对于公募基金来说,这个超额也处在一个更稳健的水平。

从回撤这个角度来看,我们发现它(回撤指标)是很多策略,尤其是股票多头,在长周期当中能够稳定向前的,一个很重要的 观测器和分类器

今年的1-4月份,在市场的大幅波动下,策略回撤和阿尔法控制显得非常关键。因为在5月之后,伴随市场的一轮反弹,能够看到对应的指数的一个上行,一些量化策略,尤其是进攻性的指数增强策略和主动量化策略,在其中能够快速获取超额收益的提升。 因此,在1-4月份策略的防御能力,就成为今年以来指数增强型产品拉开收益差距的一个重要的分水岭。

从这一点可以看出,在不少的量化私募策略中,指数增强类的策略,相对于整个的公募市场产品来说,还是有更好的一个回撤控制,这也让整个的收益在最终到8月份的反弹阶段中,有更好的相对优势。

公募股票各类策略2022年规模情况

在规模上,私募基金的单个产品没有公开规模数据的披露机制,所以我们以公募产品来做一个类似的映射。可以看到,虽然市场具有高度的波动,但从投资者的偏好来看,大家还是对于指数增强型产品以及更受推广的主动量化产品有独特偏好。2021年-2022年,这类产品规模还是在不断的创出新高,那么这一点其实已经不能够单纯的用市场的涨跌来形容,因为指数本身今年是一个重心下移的过程。

从这一类产品,我们也可以看出投资者更加理性, 在面对贝塔的这样一个市场不确定波动的情况下,还是会更多的去寻找那一份确定性的阿尔法,来获得长周期下的一个更稳健的资产配置的收益。这一点上来看的话,中国A股的投资者既是智慧的,也是理性的,因为大家可能更多的能够看到这种阿尔法的机会。

公募私募指数增强策略表现对比

这种阿尔法的产品收益我们也是可以做相关统计的,但是由于产品众多,规模不一,所以我们还是以各自有代表性的规模以上的,当然主要指的是市场偏头部规模的这样一些代表性产品来做一些分析,包括私募,也包括公募,这里的话我们我们因为考虑到合规的问题,所以还是把这个机构的名称做了一个隐去处理。

大家可以看到这张图中其实它都是一个超额收益的效应,其中最极端的一条曲线,其实甚至我们可以看到中证1000的一个增强了,达到一个非常高的水平。

从数值来看, 我们也会发现公募和私募的一些特征差异,这里的差异可能是多因素造成的,团队的经验的积累,服务器算法相关固定设备的投入,激励机制,当然也包括在日常交易当中的一些限制条件,反向交易规则等。

所以在这种情况下,我们看到了,在相对而言策略限制较少,策略的灵活度更高的私募机构当中,历年的平均收益,相对于公募基金的量化产品有一定的超额,尤其是在中证1000这样一些偏中小市值的个股组合当中,更加依赖于量化的这样一些优势,而在主动投资的这个维度上的一个重要性的来说,相对而言不如沪深300、中证500这么的强。所以我们看到在私募机构当中,在中小盘的个股的增强当中取得了更加优异的成绩。

当然这只是一个部分的大规模产品的持续比较久的产品介绍,不代表整个的私募市场,但是我们依旧还是能够看出这种整体的差异性还是存在的。两者在风控角度上来看,也是有各种的差异。

量化策略新方向的思考

刚刚第一部分我简单梳理了历年的一些指增产品,也包括了 自由度更高的全市场量化优选产品。从我们研究和与市场对接沟通的角度来看,提一些自己的看法,当然这不一定能够全面,但我想站在研究维度上,还是希望给大家真实的一个所想。

在我们看来,不仅是量化,整个A股的资本市场已经出现了翻天覆地的变化。从三年前市场中能够看到规模跟踪的公募基金为例,就能看出它的规模是倍数级的增长。那这三年以来,应该说整个的价值投资和基本面投资,在A股当中深入人心,甚至打个引号来说,有点过度深入人心。

在2021年初,一些核心蓝筹股被追捧到了一个很高的位置,紧接着过去一年出现了相应的调整。在这个过程当中,我们可以看到个人投资者和机构投资者的力量相比是有了一个差异的拉开, 这也意味着,更科学的投资方式和更小的套利空间,是我们A股市场中的一个新常态。

对于量化投资来说,我也已经不止一次听到我们的同业们,一些公募基金的基金经理们,在跟我们交流中说现在量化其实也非常内卷,传统的有效的财务指标也纷纷在失效,那么也是需要大家 在这样一个新的时代下,在机构化博弈,机构对机构的这样一个世界中,用更高精尖的方式,用更前瞻的策略去维持自己的量化阿尔法的优势。

其实大家看到的每一年的业绩都是来自于市场当中各个层面的,包括研究、投资、系统支持和数据商各个维度。这里首先我想讲的是量化基本面的维度,其次跟大家聊一聊分析师研报的一个重要性,第三和大家探讨一下这个行业内选股增强这样一个看似小众,但实际上市场空间巨大的一个领域, 第四是高频交易,第五是机器学习和非线性优化。

就像我们在进入到股市的时候,我们看到书籍是一本比一本玄学,对我个人来说其实也是如此,越往后越机器化的这样一个算法交易的时代,其实我也和大家一样在不断的学习新的知识, 力图在这个市场变得更有效之前,寻找到更好的阿尔法的解决方案。

量化基本面

第一块我想说的就是我们的量化基本面,刚才主持人也介绍了,我本人是国内量化基本面体系的开拓者,也可以说是开拓者之一,因为有大量的量化人都是在前赴后继的在这个领域上贡献自己的时间和汗水,最后把传统定性的一些规律转化成定量的模型,这是一个系统性工程。

什么是量化基本面?从广义的角度,我举个例子,今天我们的A股估值是否合理,企业盈利多少,这些数据其实都是息息相关的。虽然大家说A股短期是“投票机”,长期是“称重机”,意思是短期的话会受情绪的干扰和影响,但是中长期的话始终有一些基本面的估值盈利,宏观经济环境等因素,限制着A股在一个区间范围内去进行波动。那么,整个A股它对应的基本面,是一个虽然看起来“虚无”但是需要我们不断的去挖掘他们相关关系的过程。这个事情我我们开玩笑说,有点像人类去开拓人类基因中的这样一些奥秘,一组一组的去打开,去测试,去认知。那么这个过程是相似的。

从狭义来说,基本面的维度很多,我们最早研究的量化基本面是对于市场择时,中观的和短周期的这样一些判断的方法论,借鉴我们宏观和策略的研究体系,把他们不断的量化,来形成我们更科学更完备的一个 A股的判断体系。随着时间的推移,在整个覆盖维度上增加了行业层面,风格层面。从最后来看,我们的最终的目标我们会达到个股层面。到了某一天我们的个股量化模型,或者说有完全量化的模型可以解释的部分达到80%以上的时候,可能这只个股就可以说它的量化模型建成了。当然指的是大部分情况下,如果是极端的环境我们还是要单独去看待的。那么这就是我们说的这套方法论,在泊来语中用的是叫Quantmental ,也就是量化基本面。

我们通常说的一些个股的财务指标对比,包括多因子模型,也是我们简单意义上的量化基本面,但更多的我们还是要从对股价的表现出发,去构建一套更完整的类似于行业分析师的这样一个分析体系。

那么量化基本面为什么在当前的A股中显得尤为重要呢?我说句题外话,我刚才在会议之前的准备当中简单看了一些国际局势的视频,最近两天。在北约和俄罗斯的一个对抗当中,北溪一号二号又出现了人为爆炸的一个事故,那么这些事件,它不是一个常见现象,而是一个突发现象。

这种突发现象的特点就是在于它影响的变量更多的是集中在部分产业,部分行业,部分国家,但是影响的极为深刻,这样的一个特征,决定了在这样的世界格局中,它非常重要,但是又非常的具有行业特征, 会影响到整个行业的供给。

实际上在过去的几年当中有 非常多的单独影响少数行业,并且影响深远,持续在供给侧上产生影响的这样一些事件和政策。比如说2017年中国的供给侧改革,2018年中美贸易战,以及对于一些芯片行业的制裁,2020年的新冠——这本身是一个医疗事件,但最后产生了对于全球工业产业供应链的一个重塑,原因是部分国家在疫情的情况下是一个没有工人上班的,或者说没有工人投入生产的这样一些极端环境。即便到今天,其实还是有一些部分的国家和城市处于这样的一个冲击影响当中,那么这种冲击也会导致生产端供应端的波动。我们刚才也提到了俄乌冲突,俄罗斯和乌克兰的一些能源、粮食,以及高涨的天然气价格,导致欧洲方面的很多制造业产能的一个停歇,甚至是直接的一个转移,这样的一些事件其实都是和 单独行业的供给侧有关。

我们为什么要提这么多信息?原因就是在于原本我们在宏观领域,市场领域,我们有一个周期论的这样一个体系,包括库存周期,房地产周期,库兹涅茨周期,朱格拉周期等等。在中信建投,我本人其实还覆盖一个被大家认为是玄学的周期,叫做康波周期。

那么这些周期本身其实在解释的是什么?大家如果真正思考一下的话,我觉得更多的反应是这样的一个情绪, 是群体性需求的波动,但是影响一个行业的基本面,不仅是需求,还有供给。

举个例子,去年中国在一些周期行业的产量数据增速下滑的情况下,产品的价格出现急速的上涨,那原因是什么呢?因为我们看到的是内需的下滑,但是在我们没有看到的地方,是全球在相关产品的生产供应链上出现了更大的一个缺口,所以各种订单反而转移到了中国,我们出现了一个供不应求的一个局面。

这种局面实际上它就来自于我们说的供给侧的干扰,这种因素, 我们可以通过深入到一些行业的细分指标,来看待他的一些收入、成本、盈利能力、成长性等等这样一些维度,来刻画出它最终的一个基本面的真实变化。

具体到这个框架的体系上,我们在做的是 量化基本面的一个行业研究框架的搭建,通俗来讲梳理行业主要逻辑链,找到逻辑链的重要指标,最后对逻辑关系进行统计检验。这个过程中,我们需要研读大量的来自于行业分析师的定性研报分析,它们的一些数据勾稽关系,从而来通过数据分析和程序编写来建立我们自己的模型。通过这些模型的建立,以及对于关键备案的拟合,来实现我们对行业供需全面的认知以及对基本面牢固的把握。

一般而言,我们从每个行业入手都会或多或少的涉及到这些环节。 第一步是逻辑验证数据预处理,第二步是我们对于指标的获取,对于整个指标与我们的市场表现之间的关联性的这种测试,比如这个行业是更看重收入增速,还是更看重ROE,还是成长性,亦或是其他变量。最后,我们再把这些指标推广到市场走势的检验中去,形成对于市场的一个更独立细致的分析框架。

举个例子,以银行业为例,在银行业的分析当中,我们把它叫做拆解财务报表,对于一个ROE指标可以不断的拆解,拆解到最后拆出了业务模式中较为相关的一些指标, 通过跟踪这些指标的变化,能够清晰地得知这一期的ROE它的影响变量是什么,它影响的量级是多少。

对于银行业来说,财务指标可能是非常重要,而对于我们的家电行业来说,我们做了一件更夸张的事,我们做的是拆机,大家可能对这个词已经不陌生了。

在过去的一到两年内,大家看到有一些行业的分析师拆的品种是越来越大,从十年前电子行业分析师拆iPhone、拆手机,到如今新能源行业分析师拆新能源汽车,甚至我们看到有些机械行业分析师在拆一个高端装备的重型机械,这个过程其实想想说明什么?就是一个 精益求精的态度。

这里以家电为例,我们在拆什么?我们在量化界面中甚至已经做到了,去拆分出每个月家电行业市场卖了多少空调、冰箱,洗衣机和油烟机,而在每一个品种中,我们又通过历史经验来构建出这个产品,在构成当中含了多少钢、铜、铝、塑料、电子元器件和人工费,甚至包装费和折旧,就是这样一系列的跟踪和拆分之后,实际上它都是通过量化的模式和模型去实现。最后,在每个月的数据跟踪中,我们直接映射到了整个生产中的最终端,它的原材料。所以对我们来说, 家电行业可能是各个行业当中,我们对于营业成本,把握度最精准的行业之一。

我们可以通过拆解这些原材料对应的期货价格来反推这些行业,甚至说比如有一个白电行业,它天生卖空调多一些,另外一个的话卖洗衣机多一些,我们都能拆解出他们利润率、成本端的一个变化,而事实上我们又能够测试出这些因素的确是对我们的整个的一个A股的家电行业的走势有很重要的一个影响。

这个就是我们说的量化基本面, 我们在不断的把我们的量化模型深入到越来越多的行业中去,直到完全覆盖,直到让各个行业的数据来相互验证。这个是时间的积累,也是整个的量化的体系越来越接近,越来越下沉式的了解市场更多细节的一个过程。

分析师研报信息

——非标基本面信息的定量转化

第二我想给大家介绍的是分析师的研报,这样一个我们所谓的非标基本面信息的定量转化。首先我们必须要承认,这是一个大数据的时代,在当今的世界,在你拿起手机的时候,你面对着海量数据,同时也有海量的交易习惯数据,被大数据存储。 对于量化来说,它天生就是处理数据的一个媒介,通过模型来让数据说话。

但是在2018年之后,中美贸易战开启,整个世界方关系似乎在向着越来越陌生的方向去发展。我又要提到一次北溪油气管道爆炸事件,它让我们对于国家间的行为的关系,又要更新一个认识。就像今年3月份,瑞士提出对俄罗斯的制裁,我们看到“非中立的行为”出现在了一个所谓“长期中立的国家”,很多因素都在打破人类的惯性认知。有很多的非标信息,一次性但又极为重要,那么这些信息到底在多大程度上会影响我们的行业?

这个问题,实际上我们试图通过量化基本面去完成,但是这变得非常的困难。在2018年,我们因为有量化基本面的的这样一些经验和积累,可能是当年市场当中不能说唯一也是极为少数,给出对于中美贸易战极度悲观观点的机构,事实上在当年的资本市场走势中获得了完美的应验,但是问题是在于,我们需要有更长周期的一个历史经验来告诉我们一些结论,但是这样的历史它非常少,并不是多次反复重现的独立同分布事件。

在这种情况下,我们要面对的挑战,就是非常多的非标信息充斥在市场中,那么这个时候怎么办,我们提了一个概念,叫做“人工大脑”或“最强大脑”。

我们都知道有人工智能,但是人工智能处理的还是一个历史上多次发生长期发生,并且能够找出稳定规律的东西,我们把它叫做量化界面可以解决的问题,但是它也有一个短板,就是这些 非标信息,那么,我们可以通过对于市场当中的一些处理的媒介,通过他们的一些行为来间接拿到标准化的定量化的结果。

这个媒介是谁?其实就是我们研究所当中的一个卖方研究员分析师,我们每天的工作其实就是在处理这些信息,并且修正我们的模型和假设,来向市场传递我们的一些标准化的信息。

对于总量来说可以是一些宏观数据,一些企业盈利;微观来说,对于行业来说,其实就是各个行业甚至上市公司的一个评价。举个例子,今天因为这样一个利好信息,某分析师上调了 A公司的盈利预期,上调的幅度大小,上调的目标价多少,盈利上调的多少等等,这样的一些人的行为是可以被落地下来的。

我和大家介绍一下,目前我们对于这些数据的挖掘到了什么程度,一篇报告出来之后,摘要总共分了10段,我们会把每一段的摘要的内容,去做一个舆情分析,是正面还是负面,并且每一个都打上自己的标签。当然细致度一定是不断推进的,再过半年可能会有更加细化的结果。这种分析其实是到了一个 用放大镜甚至是显微镜的程度。

那么为什么要这么做, 分析师能够做出对于非标信息的处理和反应,这是最重要的,但更关键的是,除了分析师之外,基金经理可能也没有更多的渠道来看到一个独立第三方所给出的标准化的评价,他也在拼命的在接受这些非标信息,他也会独立做自己的处理。

但是有一个更定量化的处理是我们能够拿到数据的,这就是 分析师预期,这是一个很特殊的存在,相对于正式财报业绩快报和业绩预告这些维度,分析师预期是少数几个能够跨季度给出上市公司业绩预测的这样一个媒介。比如,出台一个重大产业政策,对当期业绩没有影响,但是对于未来两个季度有重大影响,在这个时候,我们在前三类报告(正式财报、业绩快报、业绩预告)中是没法提前捕捉到这样的一个政策效应的,但是在分析师的研报中,我们能够看到这样的一个迅速的变化。那么这就是我们看到的这样一个变量的魅力。

具体的话举一个简单的案例,在分析师预期的这样一个模型当中,我们到底能够做到什么样一个程度,以我们某一个跟踪时间比较长的月度更新的这样一个事件的策略,跟大家做一个分享,它的年化收益超额收益29%,对应的信息比例2.31,是非常的稳健。这样一个策略,在今年的市场当中,它甚至是每一个月都获得了超额收益,大家可能会觉得诧异,市场本身波动,当然这个指数也有波动,但是, 在每个月中我们都能通过分析师来提供的这样一些增量信息,每个月都垒出一点优势,这就是阿尔法策略的魅力所在。

这样的策略还有很多,我们在这样一个维度上去理解的话, 分析师是处理非标信息的一个我们所谓的“最强大脑”,实际上基金经理的行为也是如此,那么我们就不过多展开了。

行业内选股增强

第三我们来讲一个看似较为冷门的 行业内选股增强策略,这个可能大家都在做,都基于自己的多因子的需求的体系在完成,但是我想表达一下自己对策略市场的一个乐观的评价。

其实在我们的银行体系内,有银行理财子这样一系列的公司,他们正在把银行中大部分的理财产品更多的转化为净值化产品,来满足市场需求,当然这也意味着在权益市场中有更大的一个配置份额。

那么在银行理财子进入到资本市场的过程中,它面临的第一个问题就是在搭建中的这个团队,可能有更优先的资产配置的能力和行业板块的分析能力,但是对于个股的分析能力相对来说并没有足够的一个积累或者还需要一些时间。

在这个时间段当中他会有两个选择,第一,看好赛道之后,把资金配到相应的公募FOF基金或者说私募基金中去;第二,他直接可以委托给一些机构,帮他们在指定的行业中去进行特殊的增强策略,相当于一个定制化的产品,目标非常明确,在一个行业或者说是一个强势行业中,去进行更进一步的复制和增强。 这个过程实际上考验的是我们对于一些新兴行业的理解,因为更多的优势行业往往出现在这些领域中,但往往不需要太多超额收益,就能产生出站在巨人肩膀上更大的一个绝对收益的吸引力。

举个例子,以我们所做的光伏行业为例,我们使用的变量是一个启发式的方法,是一些传统的财务指标,一些多因子指标,但是我们通过 ICIR的分析,以及轮动的一些策略,能够对它实现稳定的超额收益。

这种超额收益可以达到年化17%以上,从而让组合的年化的绝对收益高达57%。事实上这个方向虽说可能和我们传统的多因子研究有一些借鉴和重叠的部分, 但实际上我们发现在新兴的行业当中,想要做到稳定的超额还是有很大的挑战,也需要我们更多的去挖掘行业内的基本面的变量。

所以我刚才也提到了量化基本面,从择时开始,慢慢陷入到风格,到行业,最终将进入到在个股层面上的一个更全面的竞争,这就是在量化维度上,它面临的发展的这样一个过程。

高频交易数据的信息挖掘

第四个我想跟大家介绍的是高频交易,它是另外一个世界。我们刚才分析的可能是重大事件如何看待,如何影响上市公司的企业盈利,都是纯粹的业绩方面,但是在整个的交易当中,我们的私募机构其实有更大优势是在自己的一些高频量价策略上的,原因就是在于在高频算法和日内回转交易方面,私募机构有天生的条款优势。所以,在这个领域上,我们看到更多的产品在私募中落地、成长、壮大,成为参天大树,高频量价实际上我们在分析的是盘口数据,我们通过一些挂单和交易行为,在交易层面挖掘出更多的更稳定的模式,从而去赚取交易模式的钱。

当然实际上如果我们把算法的因子放到更低频的维度,有时候也能成为我们的中低频多因子的因素变量之一,但是有时候它的方向可能是相反的。

对于日内的这个盘中变化的分布当中,所蕴含着对于未来价格的预测信息,这个事件本身在众多的学术论文文献中,都是有实证的成功案例经验的,我们也是站在这样一个研究的基础上去对于数据做更多的实战研究。

我这边举了一个例子,就是我们的一个叫做高频订单失衡的因子。通过我们的挂单的买1到买5,卖1到卖5,以及对成交量的这样一些结构处理和加工,我们能够得到一些反映市场中瞬时买卖力量的对比的一些因子,并且构建一些年化稳定超额收益的组合。

这张图中我们的多空收益差是高达了18%,那么下浮比例是1.7, IC的均值也是达到了绝对值4.5的一个水平,非常的高。

机器学习

第五想和大家做一些更烧脑的呈现,刚才说了对于低频的重大事件,宏观的行业产业的事件,分析师是可以分析的,但是,对于高频数据中的一些勾稽关系,实际上任何一个人脑它的分析速度都是有限的,我们需要通过一个算法的模式去挖掘其中更多的一些线性和非线性的意义。

比如说我们介绍的 QLIB里面的现有的一个平台上的一些算法,这些算法当中,对于一些因子的测试,可以看到使用的是 TFT的这样一些算法,本质上它是一个LSTM的长短期记忆结构模型的机器学习的这样一个复杂的体系,它能够实现的是对于多维度的大数据的这样一些模式的分类,以及对于未来短期和长期序列走势的预测。我把输入和输出模式做了一个基本介绍,那模型本身的细节我就不做过多展开了。

我们来看一些结果案例,比如说我们都知道在多因子加权中,一个很常见的方法是ICIR,我们根据它的因子的月度收益率和收益的稳定性来构建它的一个权重,并且把多因子进行到权重的加权,最后形成我们的一个复合因子,来构建单月的多多头收益。

右边是我们用LSTM模型做辅助的 TFT模型,也是一个对于权重做一些更细致加权的算法下的机器学习的结果。我们可以看到在绝对收益上有非常明显的增厚效应。

机器学习与非线性因子合成

最后,我想给大家带来的是一个更前沿的方向,当然我相信在一些的私募机构当中,他们已经进行了相关的研究和投入,甚至已经是在拼硬件的一个过程。

很多人可能会奇怪说我们算法真的这么吃硬件吗,给大家举个例子,我们团队的小伙伴已经向我抱怨,自己的显卡不够用,3090不够用,实际上有很多的机器学习的算法,它都是绑定在显卡显存来进行运算的,那么我们也是基于这样的一个算法构建来完成我们的一些实证测试。

在我们的交易数据当中,我们能够切到的最细的交易,其实就是我们的交易所发出的主笔交易,主笔交易的规模甚至可以达到一天十几个G容量的这样一个程度,对应到的是1000多万条这样的一个记录。

对于这样的一些数据,我们可以看到的是一些最朴素的基础因子,比如说平均挂单量,平均成交量,平均买、卖挂单以及价差等这样一些因素。通过这些因素,我们可以构建一些这个深度学习的算法。

这里我们画的是四个卷积神经网络,加上这三个分层卷积最后再加上一个LSTM这个长短期记忆时间序列的一个处理模型,通过这样的一系列的处理之后,其实它的中间的黑箱过程已经很难再清晰的呈现出来我,可能其中的参数就有一万个,当然我们是可以通过一系列的办法来确保在样本内也有一段测试期和学习期,从而在样本外去避免过度拟合的过程。

那么这样的模型可以达到什么样的程度?我们来举一个实证的案例,通过5-10个交易日的历史数据,我们可以去通过它的高频交易去测试,中间可能会包含的一些我们能够解释和更多的不能解释的一些交易模式,从而来形成对于未来短期和中期时间内的一个股价收益,或者是可转债价格收益的一个预测。

这张图中呈现的规律是,当我们使用这样的交易模型在样本外做跟踪时,选择连续发出多少次信号后介入,和单次交易的绝对超额收益的这样一个结果。

举个例子,在股票市场中,如果我们选择连续20次买入信号出发后才买入,那么我们的单次交易的绝对收益可以达到1.15%左右。而在可转债市场中,我们可以看到在双边可交易,并且整个的参与度里面有更多的非专业投资者的情况下,我们能够获取到这种套利模式,或者说这种多空收益差的这种收益模式的收益机会是更大的。在短短的一周内,甚至可以获得单次5个点,当然我们实际上用的时候可能是10次,单次1%~2%的这样一些收益表现。

这一切看似神奇,实际上在这个过程当中会经历到非常复杂和漫长的模型计算和自我巡游的学习的过程,所谓深度学习。当然,这个过程可能时间会超过一天,所以本身在硬件投入上,如何更高效的降低测算时间,来更好的去获取对应的收益,也是我们在量化领域上需要去进行的一些尝试。

在高频算法的一些维度上,算法的效率以及硬件设备的投入,这样一些固定资产的投入,我们看到已经不是新闻了,在很多的头部的量化私募中,动辄就会公布一些新闻,采购千万甚至是几千万的这样的一些服务器来进行相关算法的测算。

当然这些工作, 它的细节度和针对性是越来越强的,不是我们今天通过两页 PPT可以给大家做清晰呈现的,但是这些都是我们在实证的研究中经历过的现实的模型和经验。

我们并不知道最后哪些会在未来形成有效的实质突破,实现飞跃式的发展,但我们非常清晰的是,在整个市场, 当大家看到一些传统的策略,从有效到微效到失效的过程,实际上面临的,都是这些相关的策略的市场不断扩大的一个过程。

实际上,这样的科技创新是每时每刻都在进行的,作为研究者,我们也是和市场上的公募私募,我们众多的投资者一块在市场中共同的交流,共同的分享经验, 也是希望在和时间的赛跑当中走的更超前,为市场获得更多的这样一些收益的机会来奋斗和努力。

Q&A

提问环节:

丁鲁明:我们知道私募机构的规模和在产品上的跟踪不是一个公开信息,这里主要以公募产品来说一说我的思考。从2021年初开始,大家对于规模的讨论就一直持续至今,原因大家可能也知道,2021年初之后,有一些以核心资产为投资策略的一些较大规模的公募产品,在市场贝塔的影响下出现了一定的回调,这个当中出现了一些类似于估值过度拔高的现象。

这种现象,我们的分析是从表观来看,似乎显示出规模过大,难以掉头的这种情况,但是我们非常清楚的是它是某一个策略的结果。市场中的策略是非常众多的,我们看到的是一个主动投资的策略,它受限于什么呢?受限于分析师或者说基金经理的眼球效应,它的视野范围。我们作为一个个体,作为人脑,同时跟踪50支、100只票,天生是有极限的,他不可能指数级增长。所以在这种情况下,当整个的一个增量资金大幅涌入市场的时候,他们会习惯性的去配置他们最熟悉的标的,形成了我们最后看到了一些冲高和最后的一个回落,但这种回落是估值的回归。

谈到策略,我想说的是规模和策略之间实际上是有匹配关系的,并不是所有的策略都有一致的规模的上限,实际上我们可以从一些策略的表现和它的规模的变化,我们来对比这样一些结果,而不是说我们单纯的以某一类策略,特别是主动策略的结果来做这样的一个对比。

在刚才的案例当中,大家可以看到我举了一个例子,这个例子中的私募产品实际上也是一个成立时间非常长,而且规模非常有代表性并且较大的指增产品。从它的结果来看,即便在中证1000上,过去三年它的一个超额收益也依旧维持在在我们看来也是非常高的一个水平,这也是一个事实。

在整个的策略收益出现趋势性下滑之前,都很难说我们这个策略已经到了瓶颈,所以对于每个策略的话,我们都应该有一个更细致的分析。 当然策略的积累也会在不断的优化,也会让整个的规模上限变得越来越高,这也是我们认为需要去具体来看每一个策略的原因。

丁鲁明:全市场选股让我想到了就是在过去的几年,在公募市场当中, 我们把这类产品叫做主动量化,它的一个对标对象已经不再是局限于某一些固定指数的跟踪为优先,而是以和我们的主动投资者相类似的,在一个更大的战场上去展现自己的管理能力,组合的收益能力这样一个过程。

所以这已经不是一个新的概念,它早就已经成为一个很多人很熟悉的产品类型了。对于全市场投资和指数增强区别, 其中一个很重大的分化就是在于对于不同的指数之间的这种切换的灵活度的可行性的一个问题。这件事情其实考验的是,我们在指数轮动上我们到底有多少的把握?

如果我们没有判断大小盘的市值风格,成长价值的风格,哪一个更有优势,那么我们界定在某个指数中去进行操作,我是可以获得一定收益的。但是, 机会永远是轮动的,任何两个指数即便是股票和债券都有此起彼伏,更不用说4000多只个股中的不同板块了。放宽范围之后,组合的进攻性一定是有更大的一个放宽的。

非常可喜的是我们看到中金所在今年也上线了中证1000的股指期货,它至少告诉我们在更大的股票范围内,我们可以进行一些对冲性的交易,也能防范一些回撤的风险。

丁鲁明:在我们看来,实际上一些传统的量化因子,它是在需要随着管理规模的提升,策略的同类竞争者的加入,市场的结构的转变,不断的去迭代和创新的。

今天我给大家提到的我们在思考当中的几个方向,对我个人而言的话,我觉得未来3-5年内整个全球的格局,一个最大的特点, 就是不确定性和一些重大短期的冲击事件可能还会频繁的发生。

大家知道我们有一个界定叫做康波萧条周期,在这个体系下,过去三年的经验和市场特征环境可能还会延续,这意味着什么? 意味着我们的量化基本面的过程需要做的越来越细致,它能够让我们相当于在这样一个信息的冲击下,更多的关注于跟行业最相关,最细枝末节的一些微观的数据来把握真实的情况。

当然也需要通过更多的一些加工者来向我们传达这些标准化的信息,毕竟我是量化团队。其实我刚才说到了分析师可以做到这一点,实际上基金经理的持仓这种行为模式也是这样一个很好的传输器,怎么样找到更多的一些可定量的数据源,来解决这些不确定事件。

另外,在更微观的领域中,还是一个模型深度学习的算例和时间效率和成本的一个综合的比拼的过程。在这个维度上, 算法需要迭代更新,同时也需要在硬件投入上需要更大的积累。当然最重要的就是始终在这个市场当中,通过我们的交易数据,通过我们的实际的投资行为的反馈来不断的学习。

在人才积累和人才激励机制上,我们也希望有更大的一个吸引力,把我们的国内的人才留住,把海外的人才也吸引到国内,在量化领域上,为整个市场变得更加有效,来发挥我们自己的一个力量。

那么在这个领域上,其实我也和大家一样,也是在学习中体会、在学习中思考,今天我能想到是这些,以后的话有机会的话跟大家做更多的分享,谢谢!

扫码查看视频回放↓