用户工具

站点工具


service:techmag:201906_035:06

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
service:techmag:201906_035:06 [2019/08/15 05:28]
-
service:techmag:201906_035:06 [2019/09/11 09:30] (当前版本)
-
行 1: 行 1:
 ====== 投资者行为数据表示与画像 ====== ====== 投资者行为数据表示与画像 ======
-本文选自[[service:​techmag:​201906_035:​start|《交易技术前沿》总第三十五期文章(2019年8月)]]+本文选自[[service:​techmag:​201906_035:​start|《交易技术前沿》总第三十五期文章(2019年6月)]]
 {{tag>​投资者画像框架、数据表示}} {{tag>​投资者画像框架、数据表示}}
 <WRAP centeralign>​ <WRAP centeralign>​
行 9: 行 9:
 ===== 一、引言 ===== ===== 一、引言 =====
   随着证券市场实时监察系统的上线及广泛应用,证券市场一线监管的效率和性能都得到了大幅的提升。近年来,大数据技术的引入已经在证券市场监管中显现效果。但是,一方面,传统监管方法主要依赖专家经验,即基于业务专家的规则,这需要花费业务专家大量时间,影响了监管的效率和灵活性;另一方面,证券市场涉及的交易数据量大、交易账户多,投资者交易行为实时变化且复杂多样,现有方法对大数据的利用不充分,深层次的有价值的信息可能被忽略,导致难以实现对投资者深度、全面的画像,需要分析人员进一步分析整理。\\   随着证券市场实时监察系统的上线及广泛应用,证券市场一线监管的效率和性能都得到了大幅的提升。近年来,大数据技术的引入已经在证券市场监管中显现效果。但是,一方面,传统监管方法主要依赖专家经验,即基于业务专家的规则,这需要花费业务专家大量时间,影响了监管的效率和灵活性;另一方面,证券市场涉及的交易数据量大、交易账户多,投资者交易行为实时变化且复杂多样,现有方法对大数据的利用不充分,深层次的有价值的信息可能被忽略,导致难以实现对投资者深度、全面的画像,需要分析人员进一步分析整理。\\
-  深度学习利用深度人工神经网络来学习数据的多层次抽象表示,能够针对具有高维度、时间敏感、关联性等特点的数据进行建模,给投资者行为分析带来新的解决思路,在图像、音视频、自然语言处理等领域得到了广泛的应用,在模式识别等领域也得到了高度关注。 +  深度学习利用深度人工神经网络来学习数据的多层次抽象表示,能够针对具有高维度、时间敏感、关联性等特点的数据进行建模,给投资者行为分析带来新的解决思路,在图像、音视频、自然语言处理等领域得到了广泛的应用,在模式识别等领域也得到了高度关注。\\ 
-本文基于作者之前提出的基于深度学习的行为特征分析的IGE(Interaction Graph Embedding)算法[1],针对证券交易行为数据增量的需求和复杂特点,设计投资者画像生成与分析框架(以下简称“投资者画像框架”)。经应用分析,投资者画像框架能够有效构建投资者画像模板库,实现投资者快速识别与分类等目的,为证券市场监管提供方法支撑。\\+  本文基于作者之前提出的基于深度学习的行为特征分析的IGE(Interaction Graph Embedding)算法[1],针对证券交易行为数据增量的需求和复杂特点,设计投资者画像生成与分析框架(以下简称“投资者画像框架”)。经应用分析,投资者画像框架能够有效构建投资者画像模板库,实现投资者快速识别与分类等目的,为证券市场监管提供方法支撑。\\
   本文认为基于深度学习的投资者画像模型应用于投资者识别和行为分析领域具有诸多潜在优势,可结合更多业务场景继续探索和完善。\\   本文认为基于深度学习的投资者画像模型应用于投资者识别和行为分析领域具有诸多潜在优势,可结合更多业务场景继续探索和完善。\\
 ===== 二、投资者画像框架 ===== ===== 二、投资者画像框架 =====
行 16: 行 16:
 ==== (一)全景深度分析 ==== ==== (一)全景深度分析 ====
   传统的特征提取由于仅对原始数据进行简单的变化,无法充分捕捉信息中更复杂、抽象的概念。针对证券交易数据的高维度、时间敏感、动态性、复杂关联等特点,本投资者画像框架通过深度学习的方法,对投资者交易行为数据特征进行高度抽象的提取,学习数据的多层次抽象表示。该框架输入的是投资者的交易行为数据,输出的是投资者的深度画像,并可基于投资者的深度画像根据应用需求采用分析模型,如本文所采用的无监督/​半监督聚类、分类模型对游资账户进行识别、划分等,进行进一步的投资者分析,如图1所示。\\   传统的特征提取由于仅对原始数据进行简单的变化,无法充分捕捉信息中更复杂、抽象的概念。针对证券交易数据的高维度、时间敏感、动态性、复杂关联等特点,本投资者画像框架通过深度学习的方法,对投资者交易行为数据特征进行高度抽象的提取,学习数据的多层次抽象表示。该框架输入的是投资者的交易行为数据,输出的是投资者的深度画像,并可基于投资者的深度画像根据应用需求采用分析模型,如本文所采用的无监督/​半监督聚类、分类模型对游资账户进行识别、划分等,进行进一步的投资者分析,如图1所示。\\
-图1 投资者交易数据深度分析\\+ 
 +{{ :​service:​techmag:​201906_035:​1.shujushendu.png |}} 
 +<WRAP centeralign>​  
 +图1 投资者交易数据深度分析 
 +</​WRAP>​
    
 ==== (二)快速、可扩展性 ==== ==== (二)快速、可扩展性 ====
   投资者画像框架,可分为投资者画像生成模型和分析模型两部分。生成模型采用归纳式的学习方法,利用预测编码与生成网络,能直接从历史交易数据生成投资者画像。针对特定业务场景,分析模型采用无监督聚类/​半监督分类的方法在对投资者画像进行应用,实现从交易数据特征表示到无监督聚类/​半监督分类结果的自动化投资者分析。相关分析流程如图2所示。\\   投资者画像框架,可分为投资者画像生成模型和分析模型两部分。生成模型采用归纳式的学习方法,利用预测编码与生成网络,能直接从历史交易数据生成投资者画像。针对特定业务场景,分析模型采用无监督聚类/​半监督分类的方法在对投资者画像进行应用,实现从交易数据特征表示到无监督聚类/​半监督分类结果的自动化投资者分析。相关分析流程如图2所示。\\
-图2 投资者分析框架流程图\\ +{{ :​service:​techmag:​201906_035:​2.touzizhekuangjia.png |}} 
- +<WRAP centeralign>​  
 +图2 投资者分析框架流程图 
 +</​WRAP>​
  
   投资者画像框架在基于历史数据训练完成后,对于新增交易数据,转化后的数据即可通过已训练好的画像生成模型,直接得到投资者深度画像。从新数据生成的投资者深度画像可结合历史数据训练得到的投资者画像,通过半监督学习方式,实现对投资者的分类,具有快速性和可扩展性的特点。\\   投资者画像框架在基于历史数据训练完成后,对于新增交易数据,转化后的数据即可通过已训练好的画像生成模型,直接得到投资者深度画像。从新数据生成的投资者深度画像可结合历史数据训练得到的投资者画像,通过半监督学习方式,实现对投资者的分类,具有快速性和可扩展性的特点。\\
行 35: 行 41:
  
   人工特征提取,是指由专业人员对数据进行分析并人为处理提取,得到合适的特征值,是一种传统的特征抽取方法。该方法在有足够人工投入的情况下,具有良好的效果。以游资账户的虚假申报为例,专业人员可依据委托数量、委托数量占委托时刻市场买量比重、委托金额和委托单是否撤单等作为人工特征,结合交易记录进行判断。但是在大数据背景下,该方法由于人力的限制,有着信息涵盖少、实时性差、依赖业务知识的缺陷,不利于泛化。\\   人工特征提取,是指由专业人员对数据进行分析并人为处理提取,得到合适的特征值,是一种传统的特征抽取方法。该方法在有足够人工投入的情况下,具有良好的效果。以游资账户的虚假申报为例,专业人员可依据委托数量、委托数量占委托时刻市场买量比重、委托金额和委托单是否撤单等作为人工特征,结合交易记录进行判断。但是在大数据背景下,该方法由于人力的限制,有着信息涵盖少、实时性差、依赖业务知识的缺陷,不利于泛化。\\
-  深度学习特征提取,是指用深度学习算法从交易数据中对特征高度抽象的提取过程,是一种具有多层表征学习能力的方法,能够尽可能涵盖信息并减少业务知识的依赖。但是,深度学习得到的特征因其高度抽象的特点,往往不能被人所理解,难以进行后续的分析。 +  深度学习特征提取,是指用深度学习算法从交易数据中对特征高度抽象的提取过程,是一种具有多层表征学习能力的方法,能够尽可能涵盖信息并减少业务知识的依赖。但是,深度学习得到的特征因其高度抽象的特点,往往不能被人所理解,难以进行后续的分析。\\ 
-投资者画像,是全面刻画投资者的特征集合。本文所用的是基于深度学习的深层次用户画像的构成要素学习,在保留深度学习特征提取的优点的同时,结合后续的监督/​无监督学习方法实现用户分类/​聚类,强化投资者画像的特征可解释性,并能够进行后续分析。\\+  投资者画像,是全面刻画投资者的特征集合。本文所用的是基于深度学习的深层次用户画像的构成要素学习,在保留深度学习特征提取的优点的同时,结合后续的监督/​无监督学习方法实现用户分类/​聚类,强化投资者画像的特征可解释性,并能够进行后续分析。\\
 ===== 三、核心算法介绍 ===== ===== 三、核心算法介绍 =====
   实现投资者行为分析的难点是对投资者的复杂行为数据的多层次抽象表示。本文提出的投资者画像框架称为DL4Profiling模型,包括两大部分:投资者画像生成模型接收投资者的交易行为数据作为输入,返回其对应的深度画像;分析模型以生成模型得到的深度画像作为输入,根据应用需求,输出为投资者所属簇/​类。\\   实现投资者行为分析的难点是对投资者的复杂行为数据的多层次抽象表示。本文提出的投资者画像框架称为DL4Profiling模型,包括两大部分:投资者画像生成模型接收投资者的交易行为数据作为输入,返回其对应的深度画像;分析模型以生成模型得到的深度画像作为输入,根据应用需求,输出为投资者所属簇/​类。\\
行 44: 行 50:
 表2 DL4Profiling模型输入变量样表 表2 DL4Profiling模型输入变量样表
 </​WRAP>​ </​WRAP>​
-|投资者代码|股票代码|时间|当日最大成交占比|……|次日卖出成交量| +{{ :​service:​techmag:​201906_035:​4.dl4.png |}} 
-|A0001|600292|2015/​1/​5|0.12| |1.24×107+
-|A0002|600452|2015/​1/​5|0.07| |3.96×106| +
-|A0003|601991|2015/​1/​5|0.01| |1.27×107| +
-|A0001|600098|2015/​1/​6|0.15| |5.69×106| +
-|A0002|600452|2015/​1/​6|0.03| |2.86×107| +
-|A0003|600027|2015/​1/​6|0.04| |1.03×107| +
-|…… ​                  ​| ​ ……|……|…… ​    | +
-|A0004|600005|2015/​3/​31|0.06| |1.88×107|+
  
   生成模型的输出是投资者的深度画像,即一个d维特征向量;分析模型的输出根据应用需求而定,例如,可以是投资者的N个类别等,以投资者5类为例,分析模型的输出如表3所示。\\   生成模型的输出是投资者的深度画像,即一个d维特征向量;分析模型的输出根据应用需求而定,例如,可以是投资者的N个类别等,以投资者5类为例,分析模型的输出如表3所示。\\
行 70: 行 69:
 ==== (二)DL4Profiling的主要流程 ==== ==== (二)DL4Profiling的主要流程 ====
   DL4Profiling模型的流程如图3所示。\\   DL4Profiling模型的流程如图3所示。\\
 +{{ :​service:​techmag:​201906_035:​6.moxing.png |}}
 <WRAP centeralign>​ <WRAP centeralign>​
 图3 DL4Profiling模型流程图 图3 DL4Profiling模型流程图
行 77: 行 76:
   模型接收一个投资者的交易数据作为输入,投资者代码、股票代码、交易时间和交易属性作为每日交易记录。每日的交易记录先经过日交易记录编码器得到其特征向量,​ 再输入到循环神经网络中。我们采用预测编码的思想:循环神经网络接受若干天数据后,对未来进行预测,即利用一个分类器将正确的下一时刻的数据从负样本中分辨出来。最后,从已经训练好的循环神经网络的各时间点上的隐状态构建该名投资者的深度画像,用于后续无监督聚类/​半监督分类的分析模型。下面逐一对模型各个组成部件进行解释。\\   模型接收一个投资者的交易数据作为输入,投资者代码、股票代码、交易时间和交易属性作为每日交易记录。每日的交易记录先经过日交易记录编码器得到其特征向量,​ 再输入到循环神经网络中。我们采用预测编码的思想:循环神经网络接受若干天数据后,对未来进行预测,即利用一个分类器将正确的下一时刻的数据从负样本中分辨出来。最后,从已经训练好的循环神经网络的各时间点上的隐状态构建该名投资者的深度画像,用于后续无监督聚类/​半监督分类的分析模型。下面逐一对模型各个组成部件进行解释。\\
   1)日交易记录编码器\\   1)日交易记录编码器\\
-  日交易记录编码器如图4所示。给定一个投资者某一天的日交易记录e={(code〗_i,attrs〗_i )}_(i=1)^M,其中code〗_i为交易的股票,attrs〗_i∈R^m为对应的m维属性,我们将其编码为一个固定长度的向量。第一步对单笔记录(code〗_i,attrs〗_i)进行特征表示。首先股票代码通过嵌入层Emb.映射为其向量表示,原始属性向量经过全连接层FC也得到一个向量,将这两个向量拼接后通过全连接层FC得到该条记录的特征表示x_i。如此可以将e中每笔记录都进行特征表示。之后我们将x_i通过自注意力机制进行汇总:\\ +  日交易记录编码器如图4所示。给定一个投资者某一天的日交易记录e={(code<​sub>​i</​sub>​,attrs<​sub>​i</​sub> ​)}<sub>i=1</​sub><​sup>​M</​sup>​,其中code<​sub>​i</​sub>​为交易的股票,attrs<​sub>​i</​sub>​∈R<sup>m</​sup>​为对应的m维属性,我们将其编码为一个固定长度的向量。第一步对单笔记录(code<​sub>​i</​sub>​,attrs<​sub>​i</​sub> ​)进行特征表示。首先股票代码通过嵌入层Emb.映射为其向量表示,原始属性向量经过全连接层FC也得到一个向量,将这两个向量拼接后通过全连接层FC得到该条记录的特征表示x<​sub>​i</​sub>​。如此可以将e中每笔记录都进行特征表示。之后我们将x<​sub>​i</​sub>​通过自注意力机制进行汇总:\\ 
-s_i=attention(x_i,​x_c ),\\ +{{ :​service:​techmag:​201906_035:​1.png |}} 
-a_i=softmax(s_i ),\\ +  其中,attention函数采用内积注意力attention(x<​sub>​i</​sub>​,x<​sub>​c</​sub> ​)=x<​sub>​i</​sub><​sup>​T</​sup>​ x<​sub>​c</​sub>​x<​sub>​c</​sub>​为自注意力模块的参数。最后得到的向量x即可作为该日交易记录编码后的特征向量。本框架提出的日交易记录编码器,可以有效处理变长序列,同时为不同的股票,用注意力机制动态地赋予不同的权重,再进行融合,生成有效的日交易记录特征表示。\\ 
-x=∑_i▒〖a_i⋅x_i 〗,\\ +{{ :​service:​techmag:​201906_035:​7.jiaoyibianmaqi.png |}}
-  其中,attention函数采用内积注意力attention(x_i,x_c )=x_i^x_cx_c为自注意力模块的参数。最后得到的向量x即可作为该日交易记录编码后的特征向量。本框架提出的日交易记录编码器,可以有效处理变长序列,同时为不同的股票,用注意力机制动态地赋予不同的权重,再进行融合,生成有效的日交易记录特征表示。\\ +
 <WRAP centeralign>​ <WRAP centeralign>​
 图4 日交易编码器(Emb.表示嵌入层,FC表示全连接层) 图4 日交易编码器(Emb.表示嵌入层,FC表示全连接层)
行 89: 行 86:
 2)预测编码器\\ 2)预测编码器\\
   预测编码器如图5所示,包括编码器和生成器两部分。编码器部分为通过日交易记录编码器得到的特征向量,经GRU架构的循环神经网络得到隐状态:\\   预测编码器如图5所示,包括编码器和生成器两部分。编码器部分为通过日交易记录编码器得到的特征向量,经GRU架构的循环神经网络得到隐状态:\\
-h_0=0,\\ +{{ :​service:​techmag:​201906_035:​2.png |}}
-h_i=GRU(x_i,​h_(i-1) ),\\+
   其中,h_i为第i时刻的隐状态。\\   其中,h_i为第i时刻的隐状态。\\
   在获得当前时刻的隐状态后,根据预测编码的思想,需要对未来信息进行预测,即模型应能够从真实的下一时刻输入和负样本中正确判别下一时刻的样本。训练目标定义为最小化交叉熵损失函数:\\   在获得当前时刻的隐状态后,根据预测编码的思想,需要对未来信息进行预测,即模型应能够从真实的下一时刻输入和负样本中正确判别下一时刻的样本。训练目标定义为最小化交叉熵损失函数:\\
-min⁡〖L_1=-E_s [log⁡P(x_t ​|h_(t-1) ) ]〗.\\ +{{ :​service:​techmag:​201906_035:​3.png ​|}} 
-  考虑到证券市场中的数据本身具有较强的时间依赖性,随机抽取的负样本容易被识别,即分类器可以很容易的将正负样本分辨开来,模型不能得到有效的训练。故我们采用生成对抗网络的思想生成高质量的负样本。生成器G(h_(t-1),​z)为一个多层全连接网络,接收上一时刻的状态h_(t-1)作为输入,生成有时间依赖性的样本;此外,生成器还接收噪声向量z以保证生成样本的多样性。我们将生成器产生的样本作为负样本一同输入到判别器中,帮助模型更好的训练。\\ +  考虑到证券市场中的数据本身具有较强的时间依赖性,随机抽取的负样本容易被识别,即分类器可以很容易的将正负样本分辨开来,模型不能得到有效的训练。故我们采用生成对抗网络的思想生成高质量的负样本。生成器G(h<​sub>​t-1</​sub>​,​z)为一个多层全连接网络,接收上一时刻的状态h<​sub>​t-1</​sub>​作为输入,生成有时间依赖性的样本;此外,生成器还接收噪声向量z以保证生成样本的多样性。我们将生成器产生的样本作为负样本一同输入到判别器中,帮助模型更好的训练。\\ 
-图5 预测编码器\\+{{ :​service:​techmag:​201906_035:​8.yucebianmaqi.png |}} 
 +<WRAP centeralign> ​ 
 +图5 预测编码器 
 +</​WRAP>​ 
    
 3)投资者深度画像生成表示\\ 3)投资者深度画像生成表示\\
   给定生成的投资者深度画像,分析模型如图6所示,基于类别型生成对抗网络构建判别式投资者聚类模型,该模型完全可微,梯度可以回传给画像生成模型,进行调优。首先,通过无监督模型对投资者进行聚类,并由领域专家对结果进行核对,确认后可构建投资者画像模板库,并将其作为有标签数据,反馈给模型,继而将模型转换为半监督分类模型,提升判别性能。该方法领域专家仅需对模型识别的结果进行核查,大大减轻了领域专家标注标签数据的负担,提高了标注效率。\\   给定生成的投资者深度画像,分析模型如图6所示,基于类别型生成对抗网络构建判别式投资者聚类模型,该模型完全可微,梯度可以回传给画像生成模型,进行调优。首先,通过无监督模型对投资者进行聚类,并由领域专家对结果进行核对,确认后可构建投资者画像模板库,并将其作为有标签数据,反馈给模型,继而将模型转换为半监督分类模型,提升判别性能。该方法领域专家仅需对模型识别的结果进行核查,大大减轻了领域专家标注标签数据的负担,提高了标注效率。\\
 +{{ :​service:​techmag:​201906_035:​9.huaxiang.png |}}
 +<WRAP centeralign> ​
 +图6投资者深度画像分析模型
 +</​WRAP>​
  
- 
-图6投资者深度画像分析模型\\ 
    
  
 ===== 四、应用案例分析 ===== ===== 四、应用案例分析 =====
-  近年来,在经济、金融全球化的大背景下,大量资金的积累逐步加快。同时,游资对各国经济的影响越来越大。游资为获取高额收益,采取一些有害市场正常运作的操作、手段,对我国的经济造成了一定的冲击,所以加强对这些游资的监管是十分有必要的。 +  近年来,在经济、金融全球化的大背景下,大量资金的积累逐步加快。同时,游资对各国经济的影响越来越大。游资为获取高额收益,采取一些有害市场正常运作的操作、手段,对我国的经济造成了一定的冲击,所以加强对这些游资的监管是十分有必要的。\\ 
-传统的人力监管手段,从识别游资、核实其危害市场的行为,到最终对游资账户作出监管处罚等,需要时间成本和人力成本。我们将上述提出的模型应用于游资账户分析。\\+  传统的人力监管手段,从识别游资、核实其危害市场的行为,到最终对游资账户作出监管处罚等,需要时间成本和人力成本。我们将上述提出的模型应用于游资账户分析。\\
   游资账户,是指通过单个账户或账户组操纵大量资金,凭借资金优势,扰乱正常的交易秩序,操纵证券市场的账户。游资账户主要有如下三方面的特点,收益高、敏感度高、流动性高。上述特点在交易过程中体现为交易金额巨大,对行情掌握情况好并且根据行情快速反应、进行交易,交易集中在较短的时间段内。其中,流动性强主要表现在这类账户的交易行为具有短期性,在一至两个交易日或一周之内快速进出,常见的操作如打板。综合游资的上述特点,根据实际交易中出现的情况,可将游资账户按图7所示整理为四类——拉抬打压、虚假申报、对倒对敲和涨停板大额申报。并参考证监会行政处罚决定,选取可以反映其特点的相关指标作为模型输入。\\   游资账户,是指通过单个账户或账户组操纵大量资金,凭借资金优势,扰乱正常的交易秩序,操纵证券市场的账户。游资账户主要有如下三方面的特点,收益高、敏感度高、流动性高。上述特点在交易过程中体现为交易金额巨大,对行情掌握情况好并且根据行情快速反应、进行交易,交易集中在较短的时间段内。其中,流动性强主要表现在这类账户的交易行为具有短期性,在一至两个交易日或一周之内快速进出,常见的操作如打板。综合游资的上述特点,根据实际交易中出现的情况,可将游资账户按图7所示整理为四类——拉抬打压、虚假申报、对倒对敲和涨停板大额申报。并参考证监会行政处罚决定,选取可以反映其特点的相关指标作为模型输入。\\
-图7游资账户分类\\ +{{ :​service:​techmag:​201906_035:​10.youzizhanghu.png |}} 
- +<WRAP centeralign>​  
 +图7游资账户分类 
 +</​WRAP>​ 
  
   本文使用2015年前3季度的游资账户进行实验,共计游资交易序列数据1493条,另从全市场抽取其他9000个账户作为非游资账户。在对数据进行一定的预处理后,首先,采用二分类问题——游资和非游资账户的识别,说明投资者画像生成算法的有效性。利用提出的DL4Profiling模型,训练得到账户深度画像,随机抽取p%数据作为训练集,(100-p)%的数据作为测试集,结果如表4所示。\\   本文使用2015年前3季度的游资账户进行实验,共计游资交易序列数据1493条,另从全市场抽取其他9000个账户作为非游资账户。在对数据进行一定的预处理后,首先,采用二分类问题——游资和非游资账户的识别,说明投资者画像生成算法的有效性。利用提出的DL4Profiling模型,训练得到账户深度画像,随机抽取p%数据作为训练集,(100-p)%的数据作为测试集,结果如表4所示。\\
- +<WRAP centeralign> ​ 
- +表4 DL4Profiling模型识别游资账户效果 
-表4 DL4Profiling模型识别游资账户效果\\+</​WRAP>​ 
 +{{ :​service:​techmag:​201906_035:​11.moxingshibie.png |}}
  
   上表给出测试比例在20%、40%、60%和80%时训练集和测试集的准确率(Accuracy)、F1分数和AUC分数。从上表可以看出,实验结果具有一定的稳定性,评价指标的波动不大,训练集数值略大于测试集数值,但差距不大,说明模型结果具有一定的泛化性能,且评价指标数值都在一个较高的值,说明本文模型具有良好的预测效果。\\   上表给出测试比例在20%、40%、60%和80%时训练集和测试集的准确率(Accuracy)、F1分数和AUC分数。从上表可以看出,实验结果具有一定的稳定性,评价指标的波动不大,训练集数值略大于测试集数值,但差距不大,说明模型结果具有一定的泛化性能,且评价指标数值都在一个较高的值,说明本文模型具有良好的预测效果。\\
-图8给出了p=50时的ROC与PRC\\ +  图8给出了p=50时的ROC与PRC\\ 
-图8 ROC曲线和PRC曲线\\+{{ :​service:​techmag:​201906_035:​12.roc.png |}} 
 +<WRAP centeralign> ​ 
 +图8 ROC曲线和PRC曲线 
 +</​WRAP>​ 
   ​   ​
   从ROC曲线可知,本文中提出的DL4Profiling模型,作为一个二分类器具有相当好的效果,曲线十分逼近左上角,说明该模型对正负类的区分具有良好的可分性。在游资和非游资账户混杂的情况下,该模型能够正确判别账户是否为游资,具有较低的误判率。鉴于游资账户在总账户量中占比较少,本文绘制PRC曲线作为参考。PRC曲线十分逼近右上角,说明准确率和召回率均具有良好的效果,在游资和非游资账户的分类上,该模型在各个类别上均有良好的可分性。\\   从ROC曲线可知,本文中提出的DL4Profiling模型,作为一个二分类器具有相当好的效果,曲线十分逼近左上角,说明该模型对正负类的区分具有良好的可分性。在游资和非游资账户混杂的情况下,该模型能够正确判别账户是否为游资,具有较低的误判率。鉴于游资账户在总账户量中占比较少,本文绘制PRC曲线作为参考。PRC曲线十分逼近右上角,说明准确率和召回率均具有良好的效果,在游资和非游资账户的分类上,该模型在各个类别上均有良好的可分性。\\
行 124: 行 134:
   此外,我们用分析模型实现对游资账户的聚类,模型的输入仍为投资者的交易序列。由于游资账户并不局限于前文提及的4类,还可能存在一些潜在但未被发现的游资类别,我们选择聚为5个簇,希望聚类的结果能与本文之前的4类游资账户分类相对应,并在此基础上把剩下一个簇作为全新的第5类游资账户。在实际应用中,我们可以将其作为新游资账户类型的检测标准。\\   此外,我们用分析模型实现对游资账户的聚类,模型的输入仍为投资者的交易序列。由于游资账户并不局限于前文提及的4类,还可能存在一些潜在但未被发现的游资类别,我们选择聚为5个簇,希望聚类的结果能与本文之前的4类游资账户分类相对应,并在此基础上把剩下一个簇作为全新的第5类游资账户。在实际应用中,我们可以将其作为新游资账户类型的检测标准。\\
   由于每个投资者账户存在多天交易记录,每天也有若干笔交易,为便于分析聚类的结果,我们在前面所用的15个业务指标(当日最大成交占比、当日买/卖价格贡献度等)的基础上,计算投资者在所有交易记录上各指标的8个统计量,作为汇总的特征。包括所有交易记录中各指标的平均值、方差、最小值、最大值、25分位值、50分位值、75分位值和非零比例。最终得到15*8=120个特征作为一名投资者的全局特征。\\   由于每个投资者账户存在多天交易记录,每天也有若干笔交易,为便于分析聚类的结果,我们在前面所用的15个业务指标(当日最大成交占比、当日买/卖价格贡献度等)的基础上,计算投资者在所有交易记录上各指标的8个统计量,作为汇总的特征。包括所有交易记录中各指标的平均值、方差、最小值、最大值、25分位值、50分位值、75分位值和非零比例。最终得到15*8=120个特征作为一名投资者的全局特征。\\
-  我们将聚类结果用如下的方式进行可视化展现:以数值大小为依据按照颜色作为区分进行绘制,蓝色表示数值小,红色表示数值大,颜色越深,表示数值的绝对值越大,绘制成n_i×120维的矩阵(n_i表示第i个簇中账户的个数),行表示账户(每个簇中为n_i个账户),列表示特征(120个),120列中,先以7个统计量为一组,1-105列表示15个特征各自的平均值、方差、最小值、最大值、25分位值、50分位值和75分位值,15个特征的顺序为当日最大成交占比、当日买价格贡献度、当日卖价格贡献度、当日对倒购买次数、当日对倒购买总量、当日对倒卖出次数、当日对倒卖出总量、当日总成交量、当日总撤报量、当日撤报比、当日购买点、当日购买申报量、当日购买成交量、次日卖出申报量和次日卖出成交量。最后的106-120列表示以上述15个特征为顺序的用户特征值非零比例。以这样的排布方式构成120列,结果如图9所示:\\+  我们将聚类结果用如下的方式进行可视化展现:以数值大小为依据按照颜色作为区分进行绘制,蓝色表示数值小,红色表示数值大,颜色越深,表示数值的绝对值越大,绘制成n<​sub>​i</​sub>​×120维的矩阵(n<​sub>​i</​sub>​表示第i个簇中账户的个数),行表示账户(每个簇中为n<​sub>​i</​sub>​个账户),列表示特征(120个),120列中,先以7个统计量为一组,1-105列表示15个特征各自的平均值、方差、最小值、最大值、25分位值、50分位值和75分位值,15个特征的顺序为当日最大成交占比、当日买价格贡献度、当日卖价格贡献度、当日对倒购买次数、当日对倒购买总量、当日对倒卖出次数、当日对倒卖出总量、当日总成交量、当日总撤报量、当日撤报比、当日购买点、当日购买申报量、当日购买成交量、次日卖出申报量和次日卖出成交量。最后的106-120列表示以上述15个特征为顺序的用户特征值非零比例。以这样的排布方式构成120列,结果如图9所示:\\ 
 +{{ :​service:​techmag:​201906_035:​13.keshihuajulei.png |}}
 <WRAP centeralign>​ <WRAP centeralign>​
 图9可视化的聚类结果 图9可视化的聚类结果
 </​WRAP>​ </​WRAP>​
    
-簇1 簇2 簇3 簇4 簇5\\ 
- 
   从上面的结果可以看出,我们能够通过颜色直观发现不同类之间的区分点,在行开头、中间和结尾的列中,能够观察到不同簇各自的颜色特点,即特征的数值特点。\\   从上面的结果可以看出,我们能够通过颜色直观发现不同类之间的区分点,在行开头、中间和结尾的列中,能够观察到不同簇各自的颜色特点,即特征的数值特点。\\
   以簇2和簇3为例(如图10)。簇2在结尾表现出的红色,在对应的特征值非零比例指标上和其他簇形成区分,在次日卖出成交量非零比例这一项上,簇2的均值为68.53%,而其他簇的均值为36.14%,远低于簇2的值,这一特征值可用来表示该账户当日买入次日卖出同一股票的比例,此处对其命名为次日卖出率。簇2次日卖出率远高于其他簇,在这项指标数值特点与涨停板大额申报类游资账户相对应,可以断定簇2对应涨停板大额申报类游资账户。\\   以簇2和簇3为例(如图10)。簇2在结尾表现出的红色,在对应的特征值非零比例指标上和其他簇形成区分,在次日卖出成交量非零比例这一项上,簇2的均值为68.53%,而其他簇的均值为36.14%,远低于簇2的值,这一特征值可用来表示该账户当日买入次日卖出同一股票的比例,此处对其命名为次日卖出率。簇2次日卖出率远高于其他簇,在这项指标数值特点与涨停板大额申报类游资账户相对应,可以断定簇2对应涨停板大额申报类游资账户。\\
-  簇3在中前部分表现出的蓝色,在对应的当日对倒购买次数、当日对倒购买总量、当日对倒卖出次数和当日对倒卖出总量指标上和其他簇形成区分,簇3在这四项指标上的均值为33次、7.24×106股、35次和7.45×106股,而其他簇在这四项指标上的均值为16次、3.12×106股、21次和3.51×106股,簇3在这四项指标数值特点与对倒对敲类游资账户相对应,可以断定簇3对应对倒对敲类游资账户。\\ +  簇3在中前部分表现出的蓝色,在对应的当日对倒购买次数、当日对倒购买总量、当日对倒卖出次数和当日对倒卖出总量指标上和其他簇形成区分,簇3在这四项指标上的均值为33次、7.24×10<​sup>​6</​sup>​股、35次和7.45×10<​sup>​6</​sup>​股,而其他簇在这四项指标上的均值为16次、3.12×10<​sup>​6</​sup>​股、21次和3.51×10<​sup>​6</​sup>​股,簇3在这四项指标数值特点与对倒对敲类游资账户相对应,可以断定簇3对应对倒对敲类游资账户。\\ 
-图10 放大后簇2和簇3的可视化结果\\ +{{ :​service:​techmag:​201906_035:​14.fangdahouculei.png |}} 
-  +<WRAP centeralign> ​ 
-簇2                     ​簇3\\+图10 放大后簇2和簇3的可视化结果 
 +</​WRAP>​ 
 + 
   聚类得到的四个簇对应于四类游资账户,剩下的簇5被认为是潜在的新一类的游资账户或是具有交叉行为即多种游资行为的游资账户。此外,几类簇在区分点上常有交叉现象,如簇1在当日撤报比指标上数值高于剩下三类簇,并接近簇4,为21.7%,这个现象与拉抬打压类游资账户和虚假申报类游资账户具有交叉的情况相符,也说明了本文中对簇定性分类的可信性。\\   聚类得到的四个簇对应于四类游资账户,剩下的簇5被认为是潜在的新一类的游资账户或是具有交叉行为即多种游资行为的游资账户。此外,几类簇在区分点上常有交叉现象,如簇1在当日撤报比指标上数值高于剩下三类簇,并接近簇4,为21.7%,这个现象与拉抬打压类游资账户和虚假申报类游资账户具有交叉的情况相符,也说明了本文中对簇定性分类的可信性。\\
   根据上述聚类结果,通过计算信息增益给出各类在属性值上有别于其他类的取值范围,选取具有代表性的结果以投资者画像的方式呈现,如图11所示。\\   根据上述聚类结果,通过计算信息增益给出各类在属性值上有别于其他类的取值范围,选取具有代表性的结果以投资者画像的方式呈现,如图11所示。\\
 +{{ :​service:​techmag:​201906_035:​15.touzizhehuaxiang.png |}}
 <WRAP centeralign>​ <WRAP centeralign>​
 图11投资者画像 图11投资者画像
阅读
service/techmag/201906_035/06.1565846923.txt.gz · 最后更改: 2019/08/15 05:28 由 -