用户工具

站点工具


service:techmag:201906_035:07

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
service:techmag:201906_035:07 [2019/08/14 08:53]
- 创建自 wiki:newitem 的表单
service:techmag:201906_035:07 [2019/09/11 09:30] (当前版本)
-
行 1: 行 1:
 ====== 舆情指数与期货行情关联性分析 ====== ====== 舆情指数与期货行情关联性分析 ======
-简要介绍本目 +本文选自[[service:​techmag:​201906_035:​start|《交易技术前沿》总第三十五期文章(2019年6月)]] 
-{{tag>}}+{{tag>​舆情指数、期货行情}} 
 +<WRAP centeralign>​ 
 +林瑞涵 / 大连商品交易所 飞创公司 创新实验室 linruihan@dce.com.cn\\ 
 +刘一宁 / 大连商品交易所 飞创公司 创新实验室 liuyining@dce.com.cn\\ 
 +</​WRAP>​ 
 +  摘要:随着网络的快速发展,互联网逐渐取代传统媒体,成为期货投资者获取信息、感知市场环境变化的主要途径。而各大搜索引擎公司推出的舆情指数产品能够及时的反应人们对不同概念的关注程度。分析网络舆情与期货行情的关系有助于市场管理者及时掌握期货价格变动原因,有效进行市场监管。本文针对期货市场提出了一种基于舆情指数的行情趋势分析模型。模型采用基于TF-IDF的舆情关键字提取方法,通过计算不同舆情指数与行情的关联关系构建舆情指数特征,并采用特定机器学习算法分析相关品种的行情趋势与舆情指数的关联关系。实验中,本文使用百度舆情指数,以国内大豆期货品种为例,分析2018年1月至6月的国内黄大豆1号主力合约次日结算价涨跌情况,结果表明模型得出的次日行情分析结果与实际行情的吻合度达88.6%。\\ 
 +  关键字:舆情指数 期货 行情 百度指数 趋势分析\\ 
 +===== 一、概述 ===== 
 +  随着国内期货市场规模的不断扩大,价格分析作为经济决策和风险管理的重要手段,得到市场管理者与市场参与者的广泛关注。传统的分析方法将历史行情与现时行情进行拟合来判断未来行情的发展趋势。这种方法认为现时行情的发展趋势将与历史上类似行情的发展过程相吻合。然而,行情的发展并非历史的单重复,对期货市场而言,不同时期的市场环境各不相同,判断行情趋势需考虑多种环境因素对行情发展的影响。增强多种市场环境因素的综合分析能力,能够帮助市场管理者及时掌握市场环境变化情况,提高市场监管能力。\\ 
 +  近年,随着网络的快速发展,互联网逐渐取代传统媒体,​成为期货投资者获取信息、感知市场环境变化的主要途径。搜索引擎作为查询信息的主要手段,被人们广泛用于检索各自关注的关键信息。基于搜索引擎数据制定的舆情指数,能够很好的反映一定时期人们对不同概念的关注程度。例如,2004年世界最大的搜索引擎公司,谷歌公司推出谷歌趋势(Google Trends)产品,其提供了对某一关键词在特定时间段内通过Google搜索引擎被查询的频率。随后百度、搜狗、360等国内搜索引擎公司也相继推出了功能相类似的搜索指数产品。由于投资者对特定市场的舆情关注程度往往与市场行情有关,许多研究者开始关注舆情指数对预测市场行情趋势所发挥的作用。T. Preis等<​sup>​[1]</​sup>​研究发现利用谷歌趋势可以对金融市场的交易行为进行量化。Hamid等<​sup>​[2]</​sup>​利用谷歌趋势预测股票行情的走势。洪涛<​sup>​[3]</​sup>​利用百度指数对住房价格的预期与实际价格的波动进行了分析。孟祥兰等<​sup>​[4]</​sup>​通过百度指数分析投资者的情绪对市场行情走势的影响。\\ 
 +  然而,当前的舆情指数产品主要依赖特定关键字查询相关指数,对期货市场来说,单一品种涉及的上下游商品种类繁多,供需关系复杂,只依靠简单的关键字检索,很难获得与市场行情相关度高的舆情指数。为此,如何获取舆情指数所需的关键字组合,以及对多个舆情指数的进行整合,成为亟待解决的问题。\\ 
 +  为解决上述问题,本文针对期货市场提出了基于舆情指数的行情趋势分析模型。模型采用基于TF-IDF的舆情关键字提取方法,根据不同舆情指数与行情的关联关系,定义舆情指数特征,并采用特定机器学习算法对相关品种行情趋势与舆情进行关联分析。实验中,本文以百度指数<​sup>​[5]</​sup>​为舆情指数来源,以国内大豆期货品种为例,对2018年1月至6月大连商品交易所黄大豆1号主力合约进行分析。实验结果表明,本文模型得到的次日行情趋势分析结果与实际行情具有较高吻合度。\\ 
 +===== 二、模型定义 ===== 
 +==== (一) 舆情关键词提取 ==== 
 +  本文采用了TF-IDF关键字提取方法<​sup>​[6]</​sup>​,对大量互联网文本数据进行分析,提取与特定品种关联性较高的关键字,并以此关键字为基础,采集舆情指数信息。实验中,本文使用了新浪财经、中国证券网、全景网、国际金融报、和讯网、中国粮油网、期货日报、金融界、新华网等70家金融期货相关网站采集的期货类新闻为处理对象,提取黄大豆1号合约相关的关键字信息。TF-IDF计算方法如下 :\\ 
 +  词频(Term Frequency,TF):\\ 
 +<WRAP centeralign>​ 
 +{{ :​service:​techmag:​201906_035:​1_.png |}} 
 +</​WRAP>​ 
 +  TF表示关键词w在文档Di中出现的频率。其中,N<​sub>​i</​sub>​为关键词w的在文档Di出现次数,|Di|为文档Di中所有词的数量。\\ 
 +  逆文档频率(Inverse Document Frequency,IDF):\\ 
 +<WRAP centeralign>​ 
 +{{ :​service:​techmag:​201906_035:​2_.png |}} 
 +</​WRAP>​ 
 +  IDF反映关键词的在不同文本中的分布程度,如果一个词在越多的文本中出现,则IDF值越低;反之,则IDF值越高。其中,N<​sub>​D</​sub>​为文档总数,I(w,Di)表示文档Di是否包含关键词,若包含则为1,若不包含则为0。\\ 
 +  则,关键词w的TF-IDF值为:\\ 
 +<WRAP centeralign>​ 
 +{{ :​service:​techmag:​201906_035:​3_.png |}} 
 +</​WRAP>​ 
 +  在实际使用中,本文首先根据期货品种名称对文本集中的品种相关文章进行筛选,在经过筛选的文章中,计算各词语的TF-IDF值,选取TF-IDF值最高的50个词作为舆情指数的查询关键词。\\ 
 +==== (二) 舆情指数特征 ==== 
 +  品种的不同舆情关键字获得的舆情指数与行情趋势的关系各不相同。例如,对黄大豆1号而言,直观地看,关键词“大豆”和“豆粕”与豆一行情的关联度显然高于“农业”和“经济”等关键词。但是,大多数关键词与行情趋势的关系很难人为界定,因此,需要定义一种方法来确定每个关键词在行情分析中发挥的作用。\\ 
 +  本文采用皮尔森相关系数判断关单个键字与行情的一致性。皮尔森相关系数是用来反映两个变量线性相关程度的统计量<​sup>​7</​sup>​。具体计算如下: 
 +<WRAP centeralign>​ 
 +{{ :​service:​techmag:​201906_035:​4_.png |}} 
 +</​WRAP>​ 
 +  其中,皮尔森相关系数r的值为样本点集合X与Y的协方差和标准差的商。考虑到各关键词舆情指数波动与行情变化可能存在先后关系,本文采用滑动窗口方式考察关键字舆情指数与行情变化的先后关系。具体方法是,本文将关键词w的T日舆情指数与T+NT<​sub>​w</​sub>​日行情分别计算皮尔森相关系数,得到关键词w舆情指数与延迟〖NT〗_w天的行情相关度,其中,NT<​sub>​w</​sub>​为大于等于1的值。实验中,本文选取NT<​sub>​w</​sub>​∈[1,​10],并对每个关键词取得相关性最高的延迟天数的舆情指数作为下一步机器学习算法的特征值。\\ 
 + 
 +==== (三) 机器学习模型 ==== 
 +  本文最终目标是根据相关舆情指数,分析品种未来价格趋势的变化。根据单个关键字所取得的舆情指数虽然能够在短期内与行情保持较高相关性,然而因为影响品种价格的因素并非唯一,单个关键字的舆情指数波动很难与行情保持长期一致。为此,本文提出采用机器学习方法融合多个关键词的舆情指数用于分析行情变化趋势。\\ 
 +  在上一节中,本文介绍了计算关键词的相关系数和选取舆情指数的时间偏移量的方法。在使用机器学习算法时,文选取K个与品种行情相关度最高的关键词舆情指数组成每日舆情指数特征值向量,本文的优化标是通过机器学习算法确定不同特征值权重,最终使得价格分析误差最小:\\ 
 +<WRAP centeralign>​ 
 +{{ :​service:​techmag:​201906_035:​5_.png |}} 
 +</WRAP> 
 +  其中,m为样本个数,MSE为分析值与实际值的均方误差,最小化MSE可获得各个舆情指数的权重值。\\ 
 +  实验中,本文使用经典的机器学习算法对模型参数进行求解,其中包括线性回归NT<​sup>​[8-9]</​sup>​、SVR<​sup>​[10-11]</​sup>​、Boosting<​sup>​[12]</​sup>​和随机森林<​sup>​[13]</​sup>​算法。\\ 
 + 
 +===== 三、实证分析 ===== 
 +==== (一) 数据来源 ==== 
 + 
 +(1) 百度指数\\ 
 +  国内的百度搜索引擎可谓家喻户晓,如图1所示,截止2018年7月,百度搜索引擎在全网、PC端及移动端均占据70%以上的市场份额,在国内搜索引擎市场占据了绝对的覆盖率与权威性,因此本文利用百度公司推出的百度指数产品作为分析研究关键词搜索量的数据源。\\ 
 +{{ :​service:​techmag:​201906_035:​20190823180928.png |}} 
 +<WRAP centeralign>​ 
 +图1 中国搜索引擎市场份额 
 +</​WRAP>​ 
 +  百度指数提供3种维度的搜索量数据,分别是全网搜索量、PC端搜索量、移动端搜索量。不同关键词在PC端和移动端搜索量比例不尽相同,本文只针对全网搜索量进行分析研究。在百度指数研究过程中发现,在新年、国庆等长假期间及前后,百度指数的日内搜索量会大幅降低,并且呈现年度周期性变化,这与长假期间人们减少对手机和电脑的依赖这一客观情况相符合。本文通过网络爬虫从百度指数中采集2018.01.19-2018.06.21自然日的日内搜索量。\\ 
 +(2) 行情数据\\ 
 +  国内大豆期货于2003年在大连商品交易所(简称DCE)挂牌上市,分为黄大豆1号和黄大豆2号(品种代号a、b),其中a品种代表非转基因大豆、b品种代表转基因大豆。我国主要生产非转基因大豆,而转基因大豆更多依赖进口。本文主要分析研究国内短期大豆期货价格的趋势,因此选择黄大豆1号作为本文的研究对象,时间区间选择了2018.01.19-2018.06.21的100个交易日黄大豆1号主力合约结算价数据。\\ 
 +(3) 数据预处理\\ 
 +  百度指数统计的时间区间是所有自然日,而行情数据的时间区间是所有交易日。在将百度指数数据与行情数据导入模型前需要将自然日与交易日进行时间对齐。自然日是交易日与节假日的合集,如果直接剔除自然日中的节假日部分会将节假日期间网络搜索量对行情的影响一并剔除,这样做显然降低了模型的整体准确度。通过观察百度指数发现,大部分关键词对应的百度指数周末搜索量小于交易日搜索量,而在一些特殊的周末,搜索量的剧增也会体现在下一交易日的行情中,因此本文的时间对齐方式使用周末及节假日搜索量与前一交易日搜索量进行比较并取较大者作为前一交易日的搜索量数据。\\ 
 +  不同关键词对应的百度指数搜索量可能有数量级之间的差别,一些热门关键词的日均搜索量可以达到10000+,而一些行业内关键词的日均搜索量只有100+。这种数量级之间差别会影响模型的稳定性与准确性。为了提高模型的稳定性,在数据进入模型前需要对搜索量数据与行情数据进行归一化处理,即对原始数据进行线性变换,即对于任意x∈X,经归一化变换得:\\ 
 +<WRAP centeralign>​ 
 +{{ :​service:​techmag:​201906_035:​6_.png |}} 
 +</​WRAP>​ 
 +  实验中,本文分别对各个关键字的百度舆情指数及交易时间区间内的行情数据进行归一化变换。\\ 
 +==== (二) 关键词提取 ==== 
 +  从70家金融期货相关网站采集了96273篇新闻,其中大豆相关新闻1248篇。对这些新闻文章进行分词处理,并利用TF-IDF方式提取出大豆相关的关键词。\\ 
 +<WRAP centeralign>​ 
 +表1 大豆类文章词频前40名 
 +</​WRAP>​ 
 +{{ :​service:​techmag:​201906_035:​1.dadouleiwenzhangcipin.png |}} 
 +<WRAP centeralign>​ 
 +表2 金融类文章词频前40名 
 +</​WRAP>​ 
 +{{ :​service:​techmag:​201906_035:​2.jinronglei.png |}} 
 +<WRAP centeralign>​ 
 +表3 TF-IDF结合筛选后前40关键词 
 +</​WRAP>​ 
 +{{ :​service:​techmag:​201906_035:​3.tf.png |}} 
 + 
 + 
 +  结合宏观因素及百度指数所提供的关键词的日内平均搜索量(日搜索量>​500),最终选择了22个关键词:大豆、黄大豆、大豆期货、大豆价格、期权、转基因、饲料、豆油、豆粕、蛋白质、玉米、玉米价格、水稻、高粱、棕榈油、中粮、农村、农民、美国、巴西、阿根廷、关税。\\ 
 +==== (三) 关键词滑动区间计算 ==== 
 +  通过滑动窗口计算关键词与行情间的皮尔森相关系数,表4中列出了关键词、延迟天数、相关系数最大绝对值及相关性方向。\\ 
 +<WRAP centeralign>​ 
 +表4 关键词滑动区间统计结果 
 +</​WRAP>​ 
 +|关键词|延迟天数|相关系数|相关性方向| 
 +|大豆|2|0.6403|正向| 
 +|黄大豆|2|0.4515|正向| 
 +|大豆期货|2|0.2566|正向| 
 +|大豆价格|2|0.8059|正向| 
 +|期权|9|0.5483|正向| 
 +|转基因|1|-0.1715|负向| 
 +|饲料|10|0.471|正向| 
 +|豆油|9|0.4014|正向| 
 +|豆粕|4|0.5883|正向| 
 +|蛋白质|1|0.5625|正向| 
 +|玉米|1|0.3048|正向| 
 +|玉米价格|10|0.3241|正向| 
 +|水稻|1|0.5956|正向| 
 +|高粱|10|0.4514|正向| 
 +|棕榈油|1|0.4184|正向| 
 +|中粮|1|0.1288|正向| 
 +|农村|7|0.1731|正向| 
 +|农民|1|0.4454|正向| 
 +|美国|1|0.5344|正向| 
 +|巴西|1|-0.0974|负向| 
 +|阿根廷|1|-0.11|负向| 
 +|关税|9|0.4897|正向| 
 + 
 +  从表4中发现,关键词的百度指数与行情间的相关性各不相同,相关性较强的关键词对行情分析更有帮助。实验中,对22个关键词按照相关系数绝对值降序排列,分别取相关系数的前20个、前15个、前10个、前5个和前1个5组舆情指数组合进行实验。\\ 
 + 
 +==== (四) 行情分析效果 ==== 
 +<WRAP centeralign>​ 
 +表5 各模型MSE结果 
 +</​WRAP>​ 
 + 
 +|算法|MSE(前20)|MSE(前15)|MSE(前10)|MSE(前5)|MSE(前1)| 
 +|线性回归|0.2387|0.0261|0.0292|0.0236|0.0171| 
 +|SVR|0.0477|0.0393|0.0367|0.0276|0.0195| 
 +|Boosting|0.0272|0.0288|0.0274|0.031|0.0343| 
 +|随机森林|0.0312|0.0341|0.0321|0.0314|0.0277|
  
-<​WRAP ​center round important 60%+  本文采用五折交叉验证法,对各机器学习模型进行训练,训练使用的数据为2018.01.19至2018.06.21期间百度指数与黄大豆1号行情,对不同组的训练数据分别进行线性回归、SVR、Boosting、随机森林进行模型训练,并统计了测试集的平均MSE。如表5所示,实验结果表明,除SVR算法之外,其它算法结果随舆情指数特征向量的变化不大,其中线性回归和Boosting算法MSE较小;SVR算法结果随舆情指数特征长度不断缩小,说明当特征向量较大时,SVR算法分辨有用特征的能力较弱。\\ 
-这是一个页面模板,编写新页面前请务必阅读[[wiki:​newbie:​start|编写须知]]。+<​WRAP ​centeralign
 +图2 机器学习算法趋势分析准确度
 </​WRAP>​ </​WRAP>​
-===== 二级标题 ​ ===== +{{ :​service:​techmag:​201906_035:​6.jiqixuexi.png |}} 
-\\ +  本文同时检验了模型利用舆情指数判断行情趋势的能力。本文使用T日的舆情指数数据对T+1日的行情结算价相比T日结算价涨跌进行判断,如果T+1日结算价大于T日结算价,则为上涨,否则为下跌。实验结果如图2所示,采用Boosting算法对行情分析判断的准确率最高,最高判断准确率达88.6%。值得注意的是,随着使用的舆情指数个数的增长,Boosting算法的准确率不断提高,然而当舆情指数个数增长超过15时,算法的准确率达到稳定。原因之一是尽管本文使用了20%的测试数据,但是因为样本数量有限,算法每分析正确一个样本要求准确率提升较为明显;更多的是由于Boosting算法整合多个弱分类器,能够较好的分辨舆情指数中的有用特征与干扰,当增加的舆情指数相关性与品种相关性较低时,对模型的影响十分有限。\\ 
-\\ +===== 四、研究结论 ​===== 
-==== 三级标题 ​===+  舆情信息作为期货市场投资者决策的重要依据,能够对其投资行为产生直接的影响。网络舆情指数作为搜索引擎公司基于大数据统计发布的量化指,反映了一段时期内互联网用户对特定概念的关注程度。理解舆情指数与期货行情之间的联系,有助于监管部门针对重大舆情事件及时采取措施,防范系统性风险的发生。\\ 
-\\ +  本针对期货市场提了基于舆情指数价格分析模型。首先,采用基于TF-IDF的舆情关键字提取方法提取期货类新闻关键词;其次,以提取的关键词为基础,借助搜索引擎提供舆情指数构建针对单一期货品种的舆情指数特征;最后,本文采用多种经典机器学习模型结合舆情指数特征对期货行情趋势进行分析实验结果表明,使用舆情指数对大豆1号T+1交易日的结算价进行分析判断,分析吻合度达88.6%。\\
-\\ +
-=== 四级标题 ​=== +
-\\ +
-\\ +
-== 五级题 == +
-\\ +
-\\ +
----- +
-===== 参考档  ===== +
-最后请列所有参考公开资料URL+
  
  
- +===== 参考文献 ===== 
 +[1] T. Preis, H.S. Moat, H. Eugene Stanley, Quantifying trading behavior in financial markets using Google Trends, SCci. Rep. 3 (2013) 1684, doi:​10.1038/​srep01684.\\ 
 +[2] A. Hamid, M. Heiden.Forecasting volatility with empirical similarity and Google Trends, J. Econ. Behav. Org. 117 (2015) 62–81.\\ 
 +[3] 洪涛,​厉伟. 基于网络搜索数据的住房价格预期与实际价格波动分析. 统计与信息论坛,​2015(11):​49 - 53\\ 
 +[4] 孟祥兰,​胡杨洋,​孟雪井. 基于文本挖掘和百度指数的投资者情绪指数研究. 宏观经济研究,​2016(01):​144 – 153\\ 
 +[5] 李敏,​陈尚义,​林仕鼎. 百度的大数据实践. 金融电子,​2013(06):​35 – 36\\ 
 +[6] 黄承慧,​印鉴,​侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法. 计算机学报,​2011(05)\\ 
 +[7] 梁吉业,​冯晨娇,​宋鹏. 大数据相关分析综述. 计算机学报,​2015(09):​1 – 18\\ 
 +[8] 代亮,​许宏科,​陈婷,​钱超,​梁殿鹏. 基于MapReduce的多元线性回归预测模型. 计算机应用,​2014(07):​1862 – 1866\\ 
 +[9] 汪奇生,​杨德宏,​杨建文. 基于总体最小二乘的线性回归迭代算法. 大地测量与地球动力学,​2013(12):​112 – 120\\ 
 +[10] 孙轶轩,​邵春福,​计寻,​朱亮. 基于ARIMA与信息粒化SVR组合模型的交通事故时序预测. 清华大学学报,​2014(03):​348 – 353\\ 
 +[11] 黄磊,​舒杰,​姜桂秀,​张继元. 基于多维时间序列局部支持向量回归的微网光伏发电预测. 电力系统自动化,​2014(03):​19 – 24\\ 
 +[12] 董乐红,​耿国华,​高原. Boosting算法综述. 计算机应用与软件,​2006(08)\\ 
 +[13] 王奕森,​夏树涛. 集成学习之随机森林算法综述. 信息通信技术,​2018(02):​49 - 55\\
  
阅读
service/techmag/201906_035/07.1565772788.txt.gz · 最后更改: 2019/08/14 08:53 由 -