首页>阅读>

【机构调研】基于企业生命周期理论与机器学习技术的选股策略

交易猿论财经浏览:359

我今天分享的一个主题是这个基于企业生命周期的一个选股策略,那么呃,我这边呢会呃我今天的分享的一个主要内容。呃,主要有以下几个方面,那首先呢会跟大家分享一个选举特点,但是更多的呢啊会是一个呃呃,选股策略选一个模型,选股能力的一个提升的这样的一个思路啊。那么我这边其实主要的用的一个方法呢,是用的一个大家比较经常提到的一个较分育的这样的一个思想。他的一个想法比较简单啊,就是说把市场按照股票的特程分成几个模块然后对于某个模块单独建模然后你希望能达到比用所有的数据做一个大的模型然后有一个更好的一个效果那么我今天的报告呢。核心的一个呃,观点呢,核心的一个任务就是来去证明这个观点并且呢,确实发现啊,通过分育之后呃,对这个模型是有一定提升能力的啊。那么基于这个思路之下呢,我们就需要解决这么几个事情,第一个事情就是说啊,OK,你说你要分析,那么啊,你的分析的原因是什么,你这个市场,你为什么要对这个市场进行一个切分建模?第二个呢,就是说呃,你的这个分育之后,你如果评估你分育的一个性质的一个好坏,那么第三块儿就是你分育之后你对投资具体有什么价值。那么这些都是我在这篇报告中啊为大家逐一解答的一些要点。OK啊,那么我们首先讲一下就是为什么要生育,其实这个想法我是很久之,我是一直以来都是有着呃纯蠢虚动的一个想想做这方面的一个探索。原因是因为我们做量化的会经常经常会遇到一个问题就是我们会做什么啊,对因子做一些行业市局中性行业中性包括一些对因子呃。

长呃,这个场口道路的一些控制。呃,实际上其实我们已经用到了一部分的分育的知识,不过我们呃一些分育的技能,但是我们用的方法比较简单粗暴啊。就比如说像这个右图,这这个因素构面非常呃,可能大家都应该呃用过的一些指标就是ET啊。依据这个因子来来讲的,如果说你不做任何的中心化处理,仅仅用原始的值去做分组的效果,可以看到效果是不越理想的。可以看到这个啊,青色的,青色的也就是一批值最高的一个一,它的收用值特别高。但是我们经过了老师快一层打断一下哎,有投资者反馈您那边声音比较小,可以再调整一下,然后有点杂音啊。您看一下麦旁边是不是有线路,就是刚好碰到它了,就是带一点杂音出来哦,不好意思啊。

哎喂,现在声音清楚了吗?嗯,现在声音清晰了,因为我调的手机声音比较大一点,你可以再大声一点的啊,好不不好意思啊,不好意思啊思这个啊。行。嗯,就是说大家在做这个因子投资的时候,不管是做因子投资还是做一些基本面的一些策略。其实大家都不自觉地会把各种指标做一下叫做标准,化,啊,我说的标准,化,可能中心化,标准,化,啊,就是因为大家心中都有一个非常深刻的印象就比如说像是银行的EP同样是20倍的估值可能银行和计算机它就是不一样那我们现在的传统的方法就是做一些中文化的处理但是实际上啊。因为从就是我自个人感觉可能稍微有一些过于粗暴也不太对优雅,然后我其实是在尝试着,就是在做这次研究之前呢,我在尝试另外一种方式,就是说我们能不能通过分析的方式去解决这个问题OK。那么接下来就就是呃,想下就是说我们第一个面对的问题就是我们如何去分,因为我们既然要决定把股票市场切分。

那我们肯定要有一个非常好的一个维度,那么去怎么去把这个维度找出来,或者这个指标找出来也比较重要。那么我这边自己给自己想的一个原则就是呃,就是说我们要理论结合实证。呃,结合实证,理论是怎么说呢?就是说我们这个分对应呃,对这个股票进行分组啊,要有一定的理论支撑啊,实证的话是说有数据的支持呃,那么理论这块儿呢,其实大家有很多啊,就是现在至少A股市场,它理论是非常非常多的其实有各种各样的分法都有那我这边呢。主要是接结合数据去看那么我这边分析的一个假设呢,就是认为OK呃,同种类型的股票,那么股价走势是相似的,那么这是我的一个核心的假设那如果说我能用很少的分组很少的分组。然后把市场上的呃把市场的股票的一个呃,就是可以说是一种用一种聚类的方式把这些股票分成若干个类那其实呃。对我来讲其实就算成功了,那么我这边呢,就是呃,顺理成章的我就用了,一个呃,借鉴了,方差分析的思想就是用截面方差比如说某年某月某日这个股票它未来一个呃。它某就是某一天市场上所有的股票我们对它的一个未来的收益率呢,然后用这个方差分析的用这个方差分析的方法来计算它的一个就他那两个值。

一个叫做组建方差。这个组建方差怎么算呢?就是说,比如说我拿市值去对这个市场股票进行分育,那么高市值的为一组低市值的为一组那么每组收益率的平均值减去当天所有股票的这个收益率的一个均值。然后的一个方差,我们求的平均那么就是认为是我们的一个组建方差这样的一个概念啊,当然这个在额诺VA分析里面这个组建方差没有求平均啊。啊,但是因为我们为了追求这个呃,因为这个指标它有个很好的性质,就是持续是可以累加的因为我们都知道方差是可以累加的而且这个累加它是一定投资意义的因为啊。只有市场有个分歧,那么你在这个市场上做交易,如果有足够信号的话,你才能够赚钱,那么这个指标它的一个意义就是就是它的这个分差是可以累加的。可以看到左边那张图其实就是这个组建发展的累加值。嗯,然后这条绿色的线是我按照市值分度分成高市值和低市值,然后可以看到随着时间的推移,这个组间方差它的累积是比较高的。那么这条橙色的线是什么呢?橙色的线说因为方差,它总是逐渐变大,因为累加嘛。

那么呃,在不考虑相关性的情况下就是呃,我就设要一个随机分组。随机分组的意思就是说我任意的指标它就是就是随机吧。把它随机分为这个第一组和第二组两个组,或者零第零组第一组随机分组随机分组之后来计算它的组线反差。可以看到这个如果是随机的话它的累计分量是非常小的就是基本上就没有什么东西,就是没有没有什么累积。所以说呃,我通过这种方式来去判断某个指标它适不适合去做分育,那么这是第一个指标,那第二个指标呢,就是说因为刚才提到了,我是用这个截面的啊,结便的NOVA分析来去做的话,那么就有一个P值。P值的话,其实意思就是说你这个分组是不是显著的就是你的组间装差是不是啊,足够显著能够成为一组啊,这个详情可以参考这个方差分享其实我想大家应该都都比较熟悉了。那么每一天都做一个方差分析那么从零九到这么到最近,那么因为我这边用的都是月评嘛,那每个月那都会有这样的一个啊批纸。我们对把这个批纸做了一个统计统计,统计它这个批值小于5%的比例,那么可以看到市值的比例是77%。也就是说啊,100个月里面有七十七个月啊。

用市值分组啊,是有这个它的一个就呃,当然就说呃就是呃,就无法拒绝了。就是用标准化的,就无法拒绝它这个分子是无效的,然后是这个样子,反正大家就是啊,就是就大概是统计学的一个套话了啊。好啊。那么确定这个方法之后呢,那么接下来就是我们就是从单指标的角度来去对这个市场的指标进行一个扫描。看看到底哪些指标适合去做分育。我们首先呃,我这篇报告中会用到二十八个因子啊,剔除了这个非市一一至一期,因为我们需因为我想做的事情是啊。讨论分组嘛,就是因为以至于期它的覆盖率会比较低。所以说这篇报告中并没有用,因为我怕是把这些股票给遗漏掉了啊。

我这边估值类的话大概是用这么几个一个是BP啊,然还有一个CFPDP就是股励EP还有这个啊。这个OCF,然后就是就是各种估估值指标然后大家也比较常用的啊,就是我他其实在后面的研究中会发现这个同一类指标总会有一个指标大家非常常见且分育效果特别好就比如说像是估值类。就是BP分,分析效果特别好。当然在一五年因为大家知道那段时间它本身波动率会比较大一点然后这个所以说它的一个组建方差也会生长比较大一点。但是在其他情况下,这个估值类的因子还是比呃,就是这个BP因子,在估值类的因子中它的分析效果还是比较不错的。此外呢,我还做了一个事情,就是说啊,用原始因子去分类呃分去去分育,还是用中性化因子去分育,其实是一个一个问题,就是两者其实都是各有取舍,然后中心化印子啊。

咱就拿简单的行业中心的去分析的意思就是说,我们每个行业一半是高估值,一半是低估值。但是如果我用原始因子去分析的话,就是说我所有市场一般是高估值,一般是低估值,可能会有些行业的偏好啊,也许可能银行可能都是属于都是属于这个低估值的一个状态。就是两种分育情况。我从后面的研究来看啊,大部分中性化的用中性化后的因子去做分育效果比较好可以看到这个Y轴一个是零点零一二一个是零点零一四大概是这样的一个一个一个数据的一个结果。那么成长类呢,我是用到了下面几个因子,一个是啊归呃,从这个可以可以从它的嗯这个图例上可以看到它的一个这个信息啊。就是我会用这个呃规模净利润的呃,TTM的同比,以及这个OCX TTM的同比和这个营业总收入TTM同比还有一个SU因子。这个SU因子是啊,没有经过,就是没有飘逸向的一个SUV的一个因子,大家可以看到,就是我们看这个中心化之后的啊,基本上这个分组这个效果比较好的就是这个营业总收入TTM的同比。

可以看到它的一个呃方差累积,呃,是是是,是一个比较显著的一个状态,嗯,就是。然后我们看到这个盈利盈利因子的话啊,我这边就是用了,就是比较显就是,或者说比较显著的吧,就是这个LE这个因子,嗯,可以看到,就是经过中性化之后,这R位因子啊,它的不仅它的跟组效果的一个值绝对值上升了。而且它在一五年它的一个提升就是一五年,它的就是那段异常行情吧,它的提升也是下降了其实也是坚定了我可能会用这个中性化后的因子去做分育的一个呃。一个原因一一个现象啊,然后可以看到盈利因子就是分育比较效果比较好的就是这个ROE也是大家耳熟能详的嗯。然后其然后接下来就是这个营营运因子了,营运因子就是主要是什么毛利啊,毛利,毛利率啊,经济那个营业利润啊,毛利润,毛利率啊,这些东西然后可以看到就是这两个指标。这两个因子它的就是这个褐色和红色的就是呃,分别是营业利润和毛利率。呃,他们的一个效果就是分组效果,也是也是在这个同类因子中效果是非常非常不错的啊。然后杠杆中这个分析效果比较不错的就是这个,那就是这个DA,也就是这个啊,总负债处于总资产这个这个指标,呃,这大概是我呃,我这边用的几个呃,这个财务类的因因子,然后最后最后一组因子呢,我是用了这个技术指标,这个技术指标用了大概是五个因子。然后分别从五个方面去衡量这个股票的一个量价的一个关系包括这个LC RLC其实就是这个动量然后一个是量价相关系数量价相关系数呢。

它是一个啊,衡量同场同跌的一个指标基本上现在也是大家都会注意到这个这个因子的一个收益然后此外呢。我还用这个换手率的近一个月的均值作为我的一个因子以及这个换手率的标准差处理均值啊。然后作还作为一个因子,然后还有一个是股票的日内的一个动量啊,然后基本上会从量价这个相关系数对这些方面去衡量这个股票的一个一个情况。那么从这个分组效果来看的话啊,虽然这个ROC啊,它的这个线是跑到最高的,但是实际上从稳定性的角度来讲这个换手率的均值它的效果是是是是是。是最好的啊,就看起来还是比较稳定嘛。那么我我综合上面的大概是五类,呃,五这个六类因子啊,就是说我们现在就是把这些因子的这个啊。头部就是,或者是就是最就是最好的,这些就是同一类中最好的因子,它的一个飞育效果花到了同一张图上来。大家就是来做一个不同类别之间的一个对比,然后可以看到就是换手率这个因子分析效果比较不错。

换手率和BP效果都很不错,然后剩下的一些像是一些财务类像像是这个ROE就就就也也还是也也还是可以的那么这是大概是对单指标的一个分析效果的一个测试啊。这里面其实大家也应该也留意到了,就是说啊,同组中同类别中分育效果不错的指标,其实都是大家耳熟能详的,就没有很偏门儿,不像是用什么很这个很厉害的一些手段去挖出来的因子。都是大家常见的,你像BP基本上大家用的最多,然后这个营业总数同比大家用的也是最多。所以说其实可能也是有一种市场的一个现象,就是说这个股价可能会就是你用最简单的指标就是可能会有一些行为金融学的逻辑在里面就是我这是我自己的一个一个一个一个直觉吧。直觉啊,那么这是也刚刚是单指标,那么我们接下来就是讨论双指标的一个分育,因为那做双指标分育的一个原因呢。

主要是想挖掘一些交互作用,就是可能是因子A和因子B共同决定的分组会更适合某种模型模式大概是有这样的一个模型假设啊。那么如果说你做双指标分析的话那么你必须不得不面对几个问两个问题吧?第一两个指标时间是不是有相关性相关性然后我这边呢?会统计刚刚的六个六个TOP类的一个因子再加上一个市值啊,一共是七个,然后然后七个的两两组合大概是有C七二大概是有二十一个二十一对我们统计了他们的一个相关系数。还有他们的一个分组的一个比例的股票比例。然后我这边有零零零,一一零和一一这四个符号,分别代表着用两个指标的啊,两个指标它能分出四个象限嘛,分别代表这四个象限啊,然后来看一下他们的这个呃,这个分布是否均匀,因为我都是用中位数去分的嘛。所以说其实你知道零零组的一个一个这个啊,股票比例的话,其实其他的股票比例你都能推算的到。可以可以看到这个零零组接近于一一组,然后零一组接近一零组0+1等于50%。大概是两,你只要看一页就可以了。嗯,就看它和25%的差异。

可以看到跟25%的差异基本上都不大,最大的可能也就是这个38%,这百分之三十八就是一个ROE,还有一个这个是这个啊,营业利润率因为ROE,分,因为它分子嘛。两个分子都是强相关的,所以它们的相关系数和它们的分布都非常的不一样,但是其他的读呃看起来都都不错,距离25%都不太远,然后相关系数呢,也都是在0.2之内大概是这样的一个情况啊。然后刚刚讲到了,我们要讲究是这个理论和实证结合,那如果说真的要确定一个分组,研究下去就是从这些组合中选一个的话。那么我这边呢,可能大概会选了这么几种,一个是生命周期,这个其实也是我这篇报告的由来其实我这篇报告本来是想说啊。分育的选普效果但是因为太大了那因为我做只是对生命周期做的会比较深切嗯,然后呃,生命周期呢,其实是用两个因子啊,一个是这个ROE一个是收入增速啊。去做了一个分组,然后还有一个BP BP,它是一个,就是PD选补策略嘛,其实大家也是耳熟能详的哈,但是它可能就是更多的并不是来描述分育。但是感觉这两个指标组合在一起总会存在着某些呃,就是某些化合作用嘛,就是这是第二个一个分组,然后第三个呢就是强强联合了,因为我们刚刚看到了一个换手率加BP。两个因子结合到一起,分育效果特别好。你看这个Y轴已经已经的它的一个累计误差达到了这个2.5%了,其他的可能也就是什么0.7‰啊。

1%点几之类的但是这个BP和它的结合在一起就是强强联合啊。然后这是一个我也说不出什么基本面的一个逻辑,但是大概啊,就是是这样,就是会有几种分组的一个方式,然后可以看到它们的一个相关系数和这个分布的不均衡状况其实啊。半斤八两可能BP和换手率相关系数是最低的因为它俩就是完全没有就看不,出有任何的就是底层也没有什么逻辑然后其他的或多或少的基本面上会有一些会有一些共振啊。呃,那么我们来讲,因为后面可能大部分会围围绕企业生命周期,然后来去这个去做这个呃研究啊,那么我们首先来了解一下,就是这个企业周期它的一个一个理论啊。这个强理论这块我我也不是特别擅长,但是就是其实都就就都是就是呃,逻辑大概是这样的,就是会把所有的股票分为呃,什么创业期,发展期,成熟期,衰退九个终止期啊。然后认为啊,不同周期的股票,它的一个分析的一个角度的框架会不一样,比如说我发展,我分析发展期的股票,那么会用某种方法分析衰退区的股票我会用另外一种方法那么啊。CHART GP告诉我,要把这个股票分到不同的生命支持周期之中,可以用两个指标,一个是净利润增长率啊,一个是叫资产收益率。

那么根据我之前的一个结果和和这个启示呢,我这边就只用了,我这边呢,用ROA呢,我用ROE替代了,然后净利润增长率呢,我是用这个营业总收入同比替代然后用这两个指标来因为这两个指标一方面是强相关的第二方面就是在A股市场上啊用我用这个我修改之后的指标去做分析效果会比较好那以上呢。是决定怎么去分育以及评价分育效果,分育效果好不好的其中的一个角度。那么接下来我们就要看一下说OK我我市场,我的股票按照这个生命周期去分育之后能给我带来什么样的一个好处。那么首先我们来评价一下这个线性模型啊,线性模型的话就是说我想看一下某一个因子就是在这个分育前和分育后我的这个线性审母能力是不是有所提升那么呃。我这边呢是用这个累计的I C,其实也是之相关技术,I C就是软卡I C,我用软卡S的累积池呢,作为这个线性选股能力的一个代理变量。我们可以看到紫色的线是不分育的情况,紫色线是不分育的情况,可以看到如果进行分育之后啊,同一个因子嗯,在不同分域,它有的是提升了,有的是下降了可能。比如说像是在这个一零分,就是一零和一,就是这两个这两个分类组别之中,它的I,润海IC没什么没什么增长,就是就就基本上没有没有效果了。

但是但是在其他的两个维度,它的效果会非常变得变得更好那么其实呃,在二十八个因子之中,大部分的因子呃在分育之后,分育前和分育后或多或少会有些提升或者是改变。你比如说像这个,这是我展示出来的一个比较,呃,就是这个变化比较大的啊,其实大部分的,而且都是基本链相关的一些因子。嗯,我此外还发现了,就是对于技术面,因为刚刚讲了我们技术呃类的一个因子大概是是有五个。呃,大概是用了五个,我会发现,就是说我按照生命周期分组之后,它这个技术面因子原来是什么样子的它后面在不同分析中还是什么样子的也就是说可能这个分育啊。对这个技术面的因子的影响并不是很大我看到我这边的一个换手率以及换手率的标准差还有一个之内动量以及相关系数啊。包括这个LC其实都影响影影响都不是特别大那么既然有影响大的,有影响不大的,那么我这边呢就是设计了一个统计量。

然后把这个二十八个因子做了一个统计啊,这个统计量是怎么设设计的呢?就是说因为我们都知道这个IC啊,呃,每单期IC它是一个一个,属于一个正态分布嘛。那我假设分育前和分育后的IC都是一个,相对来讲都都是一个正在分布,当然可能分育前分析后会被独立,那我把这个分育后的IC减分育之前的IC的一个平方然后就是累加到一起。其实就是一个开放分布。那如果我们把这个分月之后,就是我们把这个我就是我们把每天,就是因为我们是每天做了一个统计。每天做了一个统计,这样的话就会得到一个分布。呃,那么作为对照呢,我会随机生成一个分育情况,然后并且把它做成这样的一个呃,就是我就是,就是把这个就就是用随机分析的方式然后成就。说白了就产生一个随机数,然后用同样的规则然后产也产生了一个分布。如果说这个蓝色的比这个橙色的均值要大而且显著大的话,就说明啊,经过分育之后,我的IC是有显著变化的。我的IC是有显著变化啊。

然后我会发现就是说经过,因为它们都是时序上的一个配对配,都是时序上一一对应的,然后两个分布之间本来其实理论上讲衡量分分布的一个变化应该用F分用应该用F同级量的但是啊。呃,我为了消除持续的一个影响我用了一个体检验而且我发现他们的差势是满足正态性假证啊。我会把这个配对体检验这个批值小于0.101的因子数量统计出来,会发现经过生命周期分育之后有二十个因子。它的批值是小于0.01的也就是说,经过生命周期分育,然后这个二十多个因子IC有了显著的变化。那么这对其实如果说是用线性模型去做啊啊,股票投资的话,其实就不得不考虑这个,嗯,这个这个现象。OK,那么接下来我还做了这个PP它的一个一个分育的一个情况,其实结论和之前的比较类似,基本面因子它们的变化都比较的比较的大啊。都比较大。哦哦,此外呢,我还发现一个比较比较有意思的现象,就是说你会发现你不分育的情况下这个这个OCF也就是这个啊。这个经营现金流除以这个市值这个就是一个估值类的因子它的效果比较不错但是你分育之后它们四个分域其实都变差了。

其实就说明了,原始的因子是和你的分育指标是有关系关系的你想看就是我组内IC不显著组间IC显著了。那说明什么说明你这个因子是有分额敞口暴露的那么这也是一个分析的一个视角同理呢我会发现就是基本那个叫什么技术面的因子在PDROE分析情况下其实它的一个啊表现就不是特别好。就是就就是没有特别显著的变化,除了这个相关系数,它会有一些变化,但是程度不高,程度不高。那么这是这样的一个情况啊,那么我们同样设计的那个配置,提前一个统计量,我会发现这个啊,因为PPL一它的分组效果是比较强的。所以说生命周期里面可能二十八个因子里面二十个是显著的,但是在这个PPL一里面就是二十八个因子里面二十四个是是IC是有显著变化的那么上呃。上上面是这个呃。上面的结论说明了,在线性模型之中,然后通过这个分域会有就是,那就就是,就是分析会影响这个先行模型中的一些关键指标。比如说这个IC值。

那么啊,接下来我们就是开始进入,就是我们的一个非信用模型的一个研究,就是说我们想说啊,做一个假,做一个实验,说,如果说我用这个呃,我用这个积极学习,用二十八个因子机以及积极学习技术做了一个选股模型。做出了一个模型A,那然后我在飞育之后的每一个股票类型里面用做了一个模型啊B,然后模型B是不是比模型A要好,然后来去看一下我们分析到底有没有效果。然后这张图呢,是呃,这张图是飞宇之前然后做的这个啊回测的一个结果啊,我这边呢就是模型的细节大概是是在这边这张的一个列表里面了。首先模型呢,我们是用这个随机森林这样的一个回归的一个模型啊,因为模型嘛,它其实它也是有一些超单数的超单数的话我是用这个2012年到2015年之间的数据做了这个持续的实者交交叉验证然后来确定的然后这个参数的一个确定的一个细节我在后面也会提到然后因子呢。就是刚刚讲的二十八个这个各种因子不含蓄期类的啊,因为考虑到我们这是一个探索性的实验啊。我这边用的全都是月频化的而且因为大部分都是基本面因子所以说用月频的其实也还可以嗯。

也还可以啊。然后这边基本上会就是去集值行业中心,市值中心,行业中心,然后没有做BARRA的一个中风格的一个中心大概是因此的一个处理标签呢。就是用未来一个月的月收益率。同理呢,因为我的目标呢啊,因为我我,我个人的一个偏好就是想学习一些超额所以说我这边呢。会把这个月收益率呢,会用去集值啊,市值中心行业中心的方法就是把就说白了就学残差嘛。学残差就是把这个啊踢掉了市值和行业因素的一个收益率,去去去预测它,然后预测的方法呢,其实大家可能大同小异啊,就是用啊三年的数据去训练,然后去去预预测这个未来啊。考虑到这个这个运算效率呢,我大概是三个月去重新训练一次,然后结果呢如左图所示啊,这左图上图是超额收益啊,就是说白了就是这个三这个标签啊。这个标签标签这个这个月收入收益率去去掉就是市值中心行业中心之后的一个这个收益率然后呢就是这个左左边的上面这张图可以看到分组效果非常明显而且2020年之后好像这个单调性啊也没有发生。

没有发生改变啊,可以他说是一个比较不错的一个模型了啊。然后下图呢,是啊,就是把这个上边图选出来,分为十足的股票,把它的一个绝对收益拿出来跑一跑啊。没有也没有做任何的敞口的一个限制啊,这个大概跑出来是这个样子的其实从绝对收益看的哈。啊,分组效果也也还不错啊,也还不错,这大概是这样的一个呃,就是模型就是初始模型的一个基准模型的一个啊。一个一个情况。那么我这边呢,就是来讲,就是也也是也也来分享一下,就是说为什么,就是建成一些心得吧,就是为什么选择随机森林模型啊,就是也是。呃,其其实可能每个人哈,就是每个做这个模型的人,可能都心中都是有一个模型上的一个偏好的然后我也不例外我就我我其实对随性生力模型是非常偏好的就是它可能性能并不是最好的如果说你就哪怕是在做A股这种表格性的训练啊。可能什么呃,差距布斯啊,性能会比这个所以森林要好就垃圾布斯坦训练消微的速度要快对吧?但是呃,如果说我在做一些基础性的模型探索的时候,我肯定会用它,因为很难,就是你很难把它做得很差,很难把它做得很差就是。

而且它的调三是非常容易的,如果说你用差距不死,你调三起来非常的困难啊。就是啊,受限于你的算力,你的时间,研究的时间的约束和研究体验可能会抓狂,但是你随机塞给你,其实你随便查一查其实效果模型都很不错然后我这边呢就是在做。那我左图呢,其实是上面这张图的话就是啊,就是在做训练的过程之中它的一个带外的一个误差。就是因为在做随机训练随机森林的时候,他会把一份样本拿出来,就作为一个验证级去评估。那么下面这张图呢,就是用滚动时序预滚动时序的滚动预测持续滚动预测的方式去做的,这个呃,去做的预测然后来去评估它的一个呃。啊,一个模型的一个性能。然后可以看到就是说啊,下面的图例是我的各种参数啊,可以看到,在不同的参数情况下,哪怕就是你这边稍微有一些过拟盒。但是实际上你在这个实际的预测过程中其实效果也还是可以的也就是就是差异并不是特别大而且在随机性呃。随机森领过程中其实你只要限制出了下面几个指标随便用两个指标其实都可以把这个随机森领被过拟合的情况给一直的一直比较不错而且你可以把单数拿出来去画图啊。

画图我那我这边呢就是讲一下我这个调三的一个逻逻辑哈,我大概会有呃,我大概呢会用这个呃,预减值的方式,因为相对来讲会比较啊会快一些。如果说我用这个CPR法这个指标的话,因为它是一个后减值呢,它会比较慢一些啊。当然这两个指标其实也是都是比较有有比较重要的然后用用这个第三个参数来去控制这个数的一个生长。然后用一呢控制它的一个深度用二去控制啊,每个数它是不是有意义因为如果说你的样本特别少的话就可能没有意义基本上你这个你把一二然后三四其中各一个只要有一个控制很好的话就基本上啊。都能起到一个比较不错的一个效果OK,那么讲一下这个我超我的超参数是怎么去去去确定呢?我会用这个12年的9月到15年的9月这三年多的时间我大概是用四十个月的时间做了一个实折的一个呃。实着一个交叉验证,大概是比如说用三十六个月做训练,另外四个月去做啊去做测试,然后分别看它的一个一个带外的一个打分。还有一个它的一个验证级的一个打分。呃,当然这里边呢可能会涉及到一个问题啊,也是大家可能会比较呃也在意的,因为呃很有可能我会用,比如说用一三年到一五年的数据做训呃。做训练级,然后预测啊,2012到二零呃,就是2012到2013这段时间去做这个啊。

验证级会出现这种情况就是持续相倒甚至会有交叉我会用两头的时间去做训练级中间的时间去做验证级但是实际上呃。从我个人经验来讲的话其实啊,这样做是没有问题的如果说你严格遵循了。这三个前提也就是说首先你是表格数据你不是什么啊,什么时续的什么R N这种东西第二个是说你的每个样本之间你保证它是没有这个啊。没有信息泄露的。然后第三个是说你的标签信息实际上没有任何重合如果你买成足三个条件的话啊。你用历史预测未来和用未来预测历史啊,其实难度是差不多的,然后我这边也是稍微的从通过实践给出一个证明。

左图呢是用历史预测未来可以看到我的训练过程是先从一五年开始训起从151618192021按照这个时间顺序。就是一用历史去训练,预测未来,这是得到了一个收益率然后我右边那张图是用未来去预测历史。从二零年一八,一九,二零,一八,一七,一六,一五,一三,就是从未来做训练来去预测历史。呃,会发现其实两个的收益率差大差不差,就是没有任何的,没有任何的没有,就是你不会像你不会像咱们想象中的说。你知道未来之后,你这个历史就一定会会会会非会非常棒。那么这也是呃,我我设计这个呃历历史时续交叉验证这个实验方法的一个呃,一个逻辑吧,因为它可以节省你很多的数据量,因为我们都知道,尤其是做呃基本面啊AI模型训练的话。

它这个时续上的样本是非常珍贵的,如果说你训练超参数你都要用额外三点的话,其实非常浪费,那么这边呢啊,我这边就是用这个样本内做持续交谈。一种缺点餐超餐,然后在然后从一五年之后开始做这个样本外的一个测试大概是这样的一个模型构建的这样的一个细节思路。嗯,好,那么接来就是最后一张图,这张图呢是我们是比较核心的一张图了,这边图话就是说,因为我们已经把记准模型训拟训练出来了。那接下来我们就要看一下分育之后你这个模型它的一个效果。呃,同样的哈,就是我们把这个按照分育不同,我们给它按我们用两双指标去分育,那么就有四个股票集合,每个股票集合用零一零,用零一去代替,分别是一一组合,一零组合,零一组合和零零组合。嗯,假设领拿的这个结果呢,说实话,我一开始是是比较难接受的因为其实可能我在做这个实验的预期之中是认为飞育之后会有个非常显著的一个提升的啊。但实际上呢,提升是有的,但是提升效果并没有我想象中那么高,但是也还可以了,因为到后面分析的话会发现这个也是理所应当的啊。在零一组就是在领一支股票集合分育之后,效果是非常非常显著的,是非常显著的。

其实我我在我心中可能每一组都都应该长成这个样子,但实际上可能就是11000组啊。蓝线比橙色线高啊,但是这个并不是,从统计的角度来看,并不是很明显,尤其是你看这个一零并没有很明显啊。这个左上颌右下这个啊,虽然有有吧,但是也不高但是零一组就就比较明显然后这个零一它是什么什么呢?因为我是用这个营收增速和ROE去划分的营收增速呃,第一个数字代表营收增速是不是大于均呃。大于中位数第二个数字代表着RO一是不是大为大于中位数啊?我们可以看到就是说,嗯,营业总收入小于减免中位数就是低增速。高引力。这类股票你的飞育效果是最好的,就是大家可以脑海脑补中想象这这类股票就是低增速,然后高引力,然后我把这部分股票拉出来,我对它单独电膜,哎,它的效果就比较不错。我这类按照上品周期的角度来讲,就是比较处于成熟期的这样一些公司了啊,呃,大概是是这个样子的。

然后呃,我们拿到这个模型之后,我们就要想想看到的为什么会这样,为什么在其他三个分域就没有有,效果不是特别明显。有是有,但没有那么明显。那我们就把这个基某的基础那个一开始我们把所有数把所有数据训练的某些那个啊特征的一个重要程度。我们把它把它拿出来排序,大概二十八个特征。其实拿到这个时候,我其实我就立刻差不多明白原因了。为什么呢?就是因为嗯,在我的这次实验之中,技术面指标非常非常厉害,没有换手率的均值,日内动量,相关技术RLC,换手率,标准差就是这五个技术指标包揽了啊。特征重要性的前六名就是前六名里面有五个是技术指标,而且根据我们刚刚说的,技术指标并不受分育的影响基础指标并不受分析的。就是受就是你分育之后你的基础指标就是它的IC值至少是线性啊,我说是这个就是线性的,它的IC的一值其实并不是特别的变化。

并不是特别显著。那么其实这其实就是说说明了,就是说你的这个模型啊,就是你分月之后你的模型的提升有。但是并不显著。这个原因大概跟这个是有关系的,因为你的技术指标这种不受非影响的这些指标的重要性特别大。那么为什么零一被又比较厉害呢?我们把零一分育的基本面因子拎出来看一看啊,前提是这儿这这就是对基本面因子我也是,只是取了前面几个重要程度比较高的基本面因子。

我挑了四个,因为版面有限啊,就就放在这里了。可以看到就是呃,橙色的线是连衣组啊,你看像这一些这些这些呃,因此啊,就是在就是这个橙色这条线啊,就是经过分析之后它的提升还是有比较明显的提升的。你要像这个像这个DAD,其实就是这个啊,负债比资产的一个变化率可能就是这个紫色的。就是不分育,平平无奇啊,但是一分育哎,它效果就比较不错了。那就是说可能或许意思就是成熟期的公司,如果说它的债务减少就就就好,大概是这个这个这这样的一个逻辑。还有这个DP是分红,成熟期的公司,那么分红因子就比较重要还有这个成熟期的因子成熟期的公司它的O OCFP就是它的一个呃。这个啊,经营经营,现金流处于这个市值,它它就比较重要。那么大概是这样子也就是说啊,因为分育会影响基本面因子,那么基本面因子的提升可能基本面因子可能在这个成熟期的公司的分析中非常重要。那么也就是说,我们的零分育就就提升就会明显。

那大概是这样的一个解释,那么最后的一个我们的一个结果讨论啊,就是说,呃,呃,就是以上的实验呢,就是我目前啊做完的一些实验,当然还有一些其他的一些一些数据啊。还在验验证阶段,验证阶段我就就暂时间没放了。那我们接下来就是对已有的成结果我们做一个讨论其实这次的一个这些实验对我的啊原本的一个观点还是有些冲击的因为一开始我对分析的期望还是比较高。的但是现在会发现它可能会对一些成熟期的公司会影响会比较多,一点但是呢,可啊,因为我的飞育用的也是生命周期的一个分育。然后因此呢大多也是啊,比较就是不是特别强没有这个技术面因子强的基本面因子那么可能然后共同达成这样的一个结果。但是给我们确实有比较多的一个启示,首先啊,我们来讨的就是呃,就是这三个因子,因为我们都知道我们做选股策略的时候。就是基本上就是这么几个因因子,还有模型,当然还有其他的一些东西啊,就是比较比较,比较比较大的。那么分育这个部分,它到底是放在什么地方?一开始我们在讲OK我们在模型的最最上面隐藏,或者就是,或者说就是我们一开始就是分育,分别训练,这是一个思路。那么第二个思路就是说我们对单个因子进行分育的研究,那么之前啊,之前我忘了有一张图,可能忘了说了,就是分育之后某个因子表现会非常不大啊。

有一个非常大的一个提升,就是说其实分育它可以放在了模型的,可以放在整个选股策略的最底层也可以放在最顶层那么具体放在哪儿呢?这个是一个辩证的一个问题嗯,此外呢,如果说你现在的模型,如果说呃最重要的那些因子在飞育情况下没有差异的话。那么其实那么你这个模型它本身你在分育,如果说你你通过分育建模的话,那可能也并没有显著的差异。但是如果说你的主要的因子在某些,在某一个,在分月情况,嗯,它的收益率变化非常大,那么这时候你可以考虑去通过分域去分开建模。那么这是第二块,然后呢,这第呃,我讨论第三个点呢,其实是我目前可能后我是后面要做的一个事情。嗯,就是说模,我们是能否就是把这个分育的情况嵌到模型当中去,就比如说我用这个呃一传规划,把这个分月的情况放到的最顶层,然后让他去主动的去帮我去做这个分育的这个事情。因为啊这块儿呢,可能是说啊,我现在分育可能都是用这个中位数据分,那么会不会有更好的方法以及更好的一个因子啊。那么这些呢都是啊,是不是可以尝试用模型去把握解决这个问题,甚至可以用用一些深度啊,深度学习的方式,然后在最后一层把我的这个啊,把我的分呃,把我的这个分育信息把它给呃集成进去。

那么这是啊,关于分育这块的一个我想表想表达一个几个,几个要点。然后第二块呢,就是说啊,因为我这篇报告的标题嘛,本来是一个选股模型,是选股策略嘛,那么对于这个选股策略,它本身呢,其实啊我觉得还是比较不错的,就是从刚刚的股资来看的话,无论是单调性还是稳定性都非常不错。那么其实它还是有很多提升的空间的因为比我用的二十八个音都是要大家经常啊,都是比较常见的,除了技术面的因子我可能会稍微的加了一下加加一下创新和优化其他的因子都是比较偏基本的一个财务指标啊。而且我用的是月评的其实实际上因为时续数据的珍贵性,如果说你把这个数据变到了粥品甚至是日品。其实我觉得其实对这个效果都是有哦,有一定提升的啊。此外呢啊,我我也提到了,就是因为我是我在模型探索阶段用的随机森林,但实际上啊是可以有很多啊,其他的这个模型性能会比随机森林更好。

但是稳定性却却却没有随机森林那么好。那我们可以用多模型去做一个SKYING啊,这也是经验嘛,就是基本上你用多个模型,然后再加上一次,就是效果就非常,就就就比较不错,就效果比较不错,那么这是从模型层面的一个提升,那么其实啊这些都可以把这个我刚刚讲到的这个选股策略的收益率。或者是的一个收益选股能力吧啊做一定的一个提升。那么接下来我会我可能会做的一些事情就是啊,开发就是基于这个,无论是基于生命周期也好还是基于PP去做一下这个可以理解的。就是可以显示表达出来的,而不是用机续去做的一些选股策略此外呢,还会做一下这个分运,因为其实刚刚也看到了其实分本来原来是因子和模型的一个关系现在可能是分育因子和模型它的一个协同。协同起作用,就是嗯,他们三个如何共同起作用?其实虽然说你抓的这些线索,但是能不能把它推广到所有的模型当中,其实这是也是一个非常大的一个问题。然后还有一些像是新的一个黑异特略的一个研究,无论是理论上的像GD还是通过这个模型啊。训练得到的这样的一个呃,一一个情况那么呃,这是讨论的一个部分。那么在最后那个这个提问环节之前呢,我这边也是打了一个打一些广告吧,就是因为我们这个呃,我我是这个咱们西部呃证券这个智能解决策团队的。

我们也是最近有一些呃产品吧啊,可能会对大家这个投资会有一些帮助,就比如说我们新上线了一些呃,策略榜单就是在我们这个VCC这个平台上比如说啊。当上了一个净利日断层榜单那么它呢就是一些策略会把我们会把这个策略的一个啊,历史的表现情况回测状况放到这里然后会把最近的一些热点股票啊。就是这个策略选出的股票放在下面一张表格里面,来供各位投资者参考,就比如说像是这个净利润断层这个策略的话啊。其实也就是基于这个啊,就是如果说公司这个呃呃,有了一些,就是快报预告,快报和财报还披露了,披露之后它的这个业绩有了大幅提升。然后市场配合就是有了一个大百大于百分之一的跳空,然后分析师呢也给出它的一个上调的。这样的一个啊,就是就是分析师对它的预期上调了,那我认为这支股票具有投资价值然后从历史角度来看的话它的历史的年化收益是百分之啊。39啊,大概是这样子。然后这是他最新的一期的股票啊啊,大概是这样的情况就是啊,大家有兴趣的话可以登录我们这个系统去来看一看。希望对你们有所帮助啊。

好的,我今天的录页就就这么些,嗯啊,好,那如果没有问题的话,那今天就到这里啊。谢谢大家的时间,

发布时间:2024-03-10 23:04:02