用户工具

站点工具


service:techmag:201906_035:09

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

service:techmag:201906_035:09 [2019/08/14 08:54]
- 创建自 wiki:newitem 的表单
service:techmag:201906_035:09 [2019/08/19 09:40] (当前版本)
-
行 1: 行 1:
 ====== 深度学习技术在上市公司公告知识提取中的应用 ====== ====== 深度学习技术在上市公司公告知识提取中的应用 ======
-简要介绍条目 +文选自[[service:​techmag:​201906_035:​16|《交易技术前沿》总第三十五期文章(2019年8月)]] 
-{{tag>}}+{{tag>云应用}} 
 +<WRAP centeralign>​ 
 +何曾樑、陈春燕/​上证所信息网络有限公司\\ 
 +孙晓飞、周明昕/​香侬科技\\ 
 +</​WRAP>​ 
 + 
 +  摘要:2018年仅沪市上市公司就发布近18万份公告,大量的上市公司公告给市场各参与方带来了很大的工作量。随着科创板的推出,上市公司的公告数量将更快地增长,这又会加大监管机构、投资者有效获取公告信息的难度。上证所信息公司结合业务经验和技术优势,积极探索金融科技在行业的应用。现基于深度学习算法,对PDF格式的上市公司公告进行解析,抽取核心信息,该算法测试最高达到98.78%的信息抽取准确率,具备推广应用的可行性。在此对项目的实施方法和经验进行梳理、总结和分享。\\ 
 +  关键字:上市公司公告;深度学习;PDF解析;表格抽取;知识提取\\ 
 + 
 +===== 一、项目背景 ===== 
 +  随着中国现代金融市场的不断发展,上市公司公告成为了上市公司信息披露的主要载体。2018年沪市上市公司发布近18万份公告,海量的上市公司公告给中小投资者、机构带来了较大的阅读工作量,因此市场更加重视提升上市公司公告的处理效率。近年来金融科技的不断发展,为自动化处理非结构化的上市公司公告提供了可行的方案。目前很多解决方案都以模板为基础对上市公司公告进行处理,这种处理方法在灵活性和准确性上仍略有欠缺。上证所信息网络有限公司与香侬科技在模板化处理方法的基础上进一步优化,项目以股东大会决议公告、董事会决议公告、股东大会召开通知、利润分配实施公告、债券付息公告、债券摘牌公告为例,利用深度学习技术处理上市公司公告,从不同类别的公告中,抽取出关键的结构化信息,例如从各公司的董事会决议公告中,抽取出董事会召开日期、届次、公司全称、通过决议、否决决议等重要信息点,从而实现数据从非结构化到结构化的转换。\\ 
 +<WRAP centeralign>​ 
 +图1 上市公司公告结构化示意 
 +</​WRAP>​ 
 + 
 +===== 二、解决方案概述 ===== 
 +  本次知识提取任务属于字段信息抽取。解决方案的核心思路是通过数据标注来训练端到端(end-to-end)的深度学习模型,在文章中抽取目标字段。依靠标注数据,避免使用人为制定的规则,可以得到准确率更高、泛化能力更强的模型。另一方面,这种第三方标注的方法,与原先基于模板的知识提取解决方案相比,有效解耦了技术和业务,使得两方面人员更好的关注自身领域。解决方案流程图如下:\\ 
 +<WRAP centeralign>​ 
 +图2 解决方案流程图 
 +</​WRAP>​ 
 +  PDF解析:由于文件格式主要为PDF,本项目采用香侬自主研发的PDF解析工具,识别PDF中文字、段落、标题、图表,完备地还原PDF中的内容。\\ 
 +  数据标注:通过与算法平台深度耦合的标注平台和标注工具,实现小样本的快速标注,人工仅需在机器返回的结果上进行纠错,提高了标注效率,实现了数据标注、存储、模型调用的一体化。标注平台提供多种数据种类、格式的标注,包括文字、表格以及图像的标注。\\ 
 +  信息抽取:基于已经标注好的数据,利用信息抽取平台进行端到端的深度学习模型训练,抽取目标字段。该平台主要包含两个二级模块:基于图表的字段信息抽取、基于文字的字段信息抽取。\\ 
 +  深度学习调参框架:深度学习框架的作用是提高开发效率。通过香侬自主研发的深度学习框架实现两项基本功能:(1)对硬件GPU集群进行调度;(2)采用AutoML的思想,自动调节神经网络模型结构与参数。深度学习框架与信息抽取平台耦合,针对标注的数据,自动寻找、训练最适合的模型。\\ 
 +===== 三、方案分析 ===== 
 +==== (一)PDF解析 ==== 
 +  本项目中的PDF解析工作是通过香侬PDF解析平台完成。该平台集成了多种功能(例如:PDF解析、表格抽取、段落识别、数据图表检测、篇章结构分析、文档语义分析),能够快速、准确地将PDF文档中的内容抽取成用户可操作的半结构化数据/​结构化数据/​Excel表单,用于后续的算法分析。PDF解析平台针对金融文本的常见问题进行了优化和增强,适用于年报、研报、公告、财报等金融文本格式,以及A股、港股、美股等多种PDF文档。\\ 
 +<WRAP centeralign>​ 
 +图3  PDF解析平台展示 
 +</​WRAP>​ 
 +  PDF文档内容识别的过程分为四个步骤:\\ 
 +  基础解析:解析PDF文档,获取PDF里的文字内容信息并渲染每一页为图片。\\ 
 +  段落合并:将文字合并成文本行,将文本行合并成段落。\\ 
 +  表格抽取:采用目标检测算法识别PDF中的有线表格、无线表格。\\ 
 +  篇章结构分析:根据文体的特点,分析PDF在文档语义层面上的章节、标题、标题层次、段落层次、表格上下文、标题过渡、段落照应等内容。其中,篇章结构是指文档各部分之间的组织和安排。\\ 
 +<WRAP centeralign>​ 
 +图4 PDF解析流程 
 +</​WRAP>​ 
 +1、PDF文档基础解析\\ 
 +  基础解析是整个PDF文档内容识别的基础,输入PDF文档,输出PDF文档中每一页里每一个字的内容、位置信息,和该页渲染出来的图片。\\ 
 +<WRAP centeralign>​ 
 +图5 PDF基础解析流程 
 +</​WRAP>​ 
 + 
 +  目前市场上公开且成熟的PDF解析工具有很多,但效果都不甚理想。本项目采用香侬科技自主研发一套基于高性能PDF格式文档解析库的方法。PDF文件格式由文本与二进制内容组成,其中文本部分为页面描述语言PostScript,二进制内容为经过压缩编码之后的数据流。SPDF读取PDF文件内容,根据PostScript语法使用文档解析库的词法分析器将PDF分解成基本词法Token,使用语法分析器分析出抽象语法树AST,并解码数据流得到绘图指令、绘图数据与文本内容,最后采用文字渲染引擎(FreeType与Harfbuzz)进行图片渲染,准确得到所有字符的字体、字号与位置信息。\\ 
 +2、PDF文档段落识别与合并\\ 
 +  段落合并模块使用神经网络语言模型,基于文本Embedding嵌入式特征向量以及字体、字号、位置信息等各类布局特征,根据文本自身的语法模式,得到页面中每两个文本行合并的概率。文本行合并模型基于自然语言处理顶级会议EMNLP的文本流畅度分析模型 (Li and Jurafsky, EMNLP 2017. Neural Net Models for Open Domain discourse coherence [1]),通过生成模型(generative model,基于文本前一句话生成后一句话的概率)与判别模型(discriminative model,判别两句话应否合并)的ensemble最终选出一系列概率最大的Sentence Pairs,采用连通图算法进行合并。\\ 
 +3、PDF文档表格识别\\ 
 +  表格识别主要有以下9个步骤:\\ 
 +  渲染:使用香侬自主研发的SPDF格式解析器渲染PDF为三通道图片。\\ 
 +  旋转矫正:解决扫描图片倾斜一定角度的问题。\\ 
 +  盖章去除:解决扫描件上覆盖的盖章、指纹、水印等问题,基于Residual Net参差卷积神经网络为骨干网络的Faster RCNN [2] 目标检测算法。\\ 
 +  背景颜色消除:消除表格中自带的背景色(如灰色/​蓝色/​黄色的背景颜色)。\\ 
 +  二值化:将三通道RGB图像转换为单通道灰度图,再转换为二值化图像。\\ 
 +  直线抽取:识别表格线,使用优化的Hough变换与Line Segment Detector[16]等算法,在O(n)时间复杂度内抽取输出表格线。\\ 
 +  表格框架识别:采用目标检测卷积神经网络检测出表格特征点,再使用Integral Image积分图在O(n)时间复杂度内将特征点进行归类。\\ 
 +  文本行检测:采用基于深度学习的文本行识别Connectionist Text Proposal Network [3] 进行文本行检测。采用DCNN+RNN+CTC Loss的方式,提取文本行特征序列并进行识别,再使用基于Sequence-to-Sequence的校正模型进行后处理改错[4]。\\ 
 +  表格文字填充:通过位置信息判断便可将文本内容与相对应的单元格关联在一起。\\ 
 +==== (二)数据标注 ==== 
 +  标注人员根据任务需求,定制学习数据获取与标注加工方案,使用香侬自主研发的文本标注系统(业务管理平台、多种易用的标注工具及任务辅助工具)完成一站式的数据标注任务。\\ 
 +1、数据标注流程\\ 
 +  数据标注涉及三个方面的管理,即数据集管理、标注项目管理、数据质量管理。\\ 
 +<WRAP centeralign>​ 
 +图6 数据标注流程 
 +</​WRAP>​ 
 + 
 +==== (三)数据集管理 ==== 
 +  数据集管理分为数据导入与格式转化、文本格式清洗两个步骤。将PDF文件导入文本标注系统,并将导入的数据集统一处理为后续格式。数据集管理提前去除冗余信息,对有效的文章段落结构进行切分归类,将有效信息锁定在更精准的范围内,使得数据标注的定位更加准确。\\ 
 +==== (四)标注项目管理与抽取标注工具 ==== 
 +  采用深度学习模型和主动学习技术提高标注效率。首先通过大规模语料进行自然语言的模型预训练,然后再针对具体任务进行微调,提高模型的预测精度,实现了机器预测后人工审核和确认的过程,这样大大缓解标注的人力工作。标注项目管理包括任务管理平台、管理员管理后台、数据规范管理系统。\\ 
 +<WRAP centeralign>​ 
 +图7 标注管理流程 
 +</​WRAP>​ 
 + 
 +  在初始化阶段随机从无标签数据集中选小部分样本标注,将此作为初始训练集建立模型,按特定查询策略从无标签数据集中选择样本标注,并将已标注数据加到标注数据集中,循环训练模型直至达到标准。以最少量的精准数据得到最大化的模型效果,大幅度地降低人工的标注成本,节省项目时间。\\ 
 +==== (五)数据质量管理 ==== 
 +  通过使用香侬文本标注系统包含的业务管理和辅助工具,实现考核准入机制、多重数据人工审核质检机制、人工智能辅助审核数据等环节,保证数据质量,最终可为算法训练提供正确率高达99.9%以上的精准数据。\\ 
 +<WRAP centeralign>​ 
 +图8 数据质量管理流程 
 +</​WRAP>​ 
 +==== (六)信息抽取 ==== 
 +  信息抽取主要依赖于三个方面:​(1)大规模语料的预训练,提高算法的泛化能力以 ​     及先验知识;(2)文字的信息抽取;(3)表格的信息抽取。\\ 
 +==== (七)大规模语料预训练 ==== 
 +  结合香侬多机分布式数据采集平台采集的多领域权威网站资讯、覆盖最全更新最及时累计超过数十亿字的金融领域新闻、超过300万份的A股上市公司公告文本信息、百万份券商研究机构分享的研报文本信息等高质量金融领域专业文本信息,与互联网新闻、百度百科、中文维基百科等通用领域文本信息组合,总共数据量为36亿(3.6billion)个汉字。此训练模型在64块GPU集群进行并行训练。预训练对算法结果影响显著,将准确率从97.4%提升至98.7%。\\  
 +==== (八)文字信息抽取 ==== 
 +  文字信息抽取流程主要包含以下关键技术:命名实体识别、关系抽取、事件抽取,完成非结构化数据到结构化信息的转换。\\ 
 +  1、香侬Glyce-Bert词向量 [5][6]\\ 
 +  香侬Glyce根据字形获得汉字语义,其特点包括:\\ 
 +  ■使用历史汉字:通过运用不同历史时期的中文字符,在语义上更为全面的涵盖了语义信息。\\ 
 +  ■加入图像分类损失函数:​ 使用图像分类作为附加的损失函数,进一步减少过拟合。实验表明使用Glyce词向量,在信息抽取下游任务中提升各项指标。\\ 
 +  ■通过将Glyce词向量与Bert预训练进行有机融合,使得任务效果得到进一步提升。通过将字形向量与Bert预训练得到的向量的最下面一层进行融合,经过数个transformer,并修改预训练中的Loss,减少过拟合,使得字形信息得到有效利用。\\ 
 +  在标注数据比较少的情况下,单用BERT(准确率96.9%)的结果并不如BiDAF(准确率97.7%)[7],QANet(准确率96.4%)的结果也不如BiDAF [7]。QANet虽然在SQUAD数据集上效果远超BiDAF,但因其参数量大,所以在小数据集上结果并没有BiDAF健壮。最好的结果来自于BERT+Glyce(准确率98.7%)向量的结果。\\ 
 +<WRAP centeralign>​ 
 +图9 Glyce-Bert词向量模型 
 +</​WRAP>​ 
 + 
 +2、香侬实体-关系抽取(Entity-Relation Extraction)\\ 
 +  香侬实体-关系抽取(Entity-Relation Extraction)用于获得命名实体之间的语义关系,形成关系三元组。这是NLP领域里面的一个标准任务,在ACE04、ACE05、CoNLL04均有标准数据集竞赛。传统三元组抽取包括两个子模块:实体抽取与关系判别。近年来将两个子模块进行耦合,​ 两个模块在神经网络的有监督学习下分享参数 (例如:Miwa and Bansal, ACL2016. End-to-end relation extraction using lstms on sequences and tree structures[9];Ye et al., ACL2017, Jointly extracting relations with class ties via effective deep ranking[10])。针对此类问题,香侬科技定义命名实体和关系,并行训练两类模型:(1)基于LSTMs的实体识别模型;(2)基于transformers实体间的关系判断类别。采用Transformer-XL[11],引入递归机制,对hidden states更正。\\ 
 +  除了监督学习之外,金融文本中的关系语义复杂、种类多变,需要对训练数据进行增强。弱监督是一种行之有效的数据增强办法,但是如何控制弱监督的数据质量又是另一个难题。基于UCSB自然语言处理组William Wang Yang教授的文章 (Qin et al., ACL2018, DSGAN: Generative Adversarial Training for Robust Distant Supervision Relation Extraction [12]), 通过对抗学习的办法选择弱监督的训练数据,这样可以减少数据噪音,为监督训练提供了有效的数据补充。\\ 
 +3、基于强化学习的多轮实体-关系抽取\\ 
 +  传统关系三元组抽取大多基于pipeline形式,分为实体抽取和关系判别。这样的方案可以完美解决简单的三元组关系,但是解决复杂的问题则力不从心。原因主要来自于两点:(1)很多复杂的数据结构没法通过三元组来表述;(2)传统的实体抽取-关系判别解决方案对于某些情况效果很差,比如两个实体相距太远、一句话里面包含多个关系。\\ 
 +  最近前沿研究的进展主要包含两个方面,第一类是运用强化学习将实体与关系抽取耦合(比如来自清华大学黄民烈老师组的Feng et al., AAAI2019, Relation Mention Extraction from Noisy Data with Hierarchical Reinforcement Learning[13])。第二类是将信息抽取变成machine comprehension任务(来自华盛顿大学自然语言组和AI2的Levy et al, 2017, Zero-shot relation extraction via reading comprehension[14];​ 来自Salesforce人工智能实验室Richard Socher组的McCann et al.,2018 The natural language decathlon: Multitask learning as question answering[15])。\\ 
 +  香侬科技综合两类思路,提出了Entity-Relation Extraction as Multi-turn Question Answering 的解决方案。算法将信息抽取转变成多轮问答的模式,然后运用在对话领域(dialogue)里面slot filling的方法,抽取相应的信息。为了避免pipeline模型的错误累积 ​ (error propagation),​ 算法使用强化学习中的REINFROCE模型对多轮问答模型进行统一优化。\\ 
 +==== (九)基于表格信息抽取 ==== 
 +  很多结构化信息的答案蕴藏在表格中,所以在算法中建立端到端的表格抽取模型非常重要。表格信息抽取分为两部分:​ (1)表格分割及单元格特征建立;(2)表格相关信息抽取。与文本不同,表格单元格的特征表示并不直观,而且涉及各种形形色色的情况,比如某一单元格的字头信息并不在对应的行或者列内等。下面我们分别介绍实现这两部分的相关算法。\\ 
 +1、表格抽取之表格分割与单元格特征建立\\ 
 +  首先提出“最小单元格”的概念,将非结构化表格转化为结构化表格。基于最小单元格分割后,用深度学习的方法提取各最小单元格特征。\\ 
 +  表格全局特征:使用CNN卷积神经网络提取全表格特征。对单个单元格进行标记,使得CNN卷积不仅包含全局表格特征,也包含相应单元格特征。\\ 
 +  单元格二维位置信息编码:​ position embedding。\\ 
 +  单元格文字特征:用transformers获取单元格内文字特征。\\ 
 +  表格上下文特征:通过将全文转换成dom_tree格式,用LSTM提取上下文信息。\\ 
 +  结合以上信息便可以得到相关单元格的特征表示。具体解析如下:\\ 
 +<WRAP centeralign>​ 
 +
 +</​WRAP>​ 
 +  表格全局特征提取:为了充分利用表格中字体、字号、颜色等诸多图形信息,CNN架构结合了Residual Network、ShuffleNet、Inception Network等多种业界最优模型的子结构,组成了参数量小、表达能力强的表格单元图形特征抽取网络,将每个“最小单元格”从图像处理的角度转化为图形编码。其中Residual、Shuffle、Inception子结构如下图所示。\\ 
 +<WRAP centeralign>​ 
 +图11 Residual  
 +</​WRAP>​ 
 + 
 +<WRAP centeralign>​ 
 +图 12 Inception ​  
 +</​WRAP>​ 
 + 
 +<WRAP centeralign>​ 
 +图 13 Shuffle 
 +</​WRAP>​ 
 + 
 +  表格分割:表格分割使用了当前计算机视觉领域实例分割任务中最优的模型Mask-RCNN。该模型不但能对“最小单元格”进行“聚类”,还能进行分类,即判断某些被聚为一簇的单元格属于表头或内容。Mask-RCNN使用ROI Align技术对每个可能的分割候选框进行特征提取,并在此基础上进行分类与坐标回归。\\ 
 +  二维位置编码:不同于常见NLP领域内的一维信息,由于表格是二维的,因此算法分别对行和列的位置进行positional encoding,并加以拼接得到每个“最小单元格”的二维位置编码。具体地,\\ 
 +<WRAP centeralign>​ 
 +PE(pos,​2i)=sin(pos/​〖10000〗^(2i/​d_model ) ) 
 +</​WRAP>​ 
 +<WRAP centeralign>​ 
 +PE(pos,​2i+1)=cos(pos/​〖10000〗^(2i/​d_model ) ) 
 +</​WRAP>​ 
 + 
 +  这种编码方式一方面很好地表示了表格单元之间的相对位置,另一方面赋予了模型泛化至不同表格大小的能力。\\ 
 +2、表格抽取之表格抽取答案\\ 
 +  在利用Self Attention将表格数据编码后,得到了一个N*d维的矩阵,其中N表示共有N个单元格,d表示embedding维度。同时,利用Glyce-Bert模型,得到问题的向量化表示。\\ 
 +  至此,算法可以将表格和问题都表示成了embedding的形式,并保留了其与原始cell或word的映射。在此基础上,利用前文提到的其他阅读理解模型,对该问题进行求解。值得一提的是,在该问题中,起始位置只能是单元格的坐标,而不能是单词的起始位置。\\ 
 +==== (十)深度学习算法平台 ==== 
 +  随着深度学习理论的快速发展,应用于生产环境的工具越来越多,高效易用的深度学习平台也显得尤为重要。深度学习的应用正向着需要更多、更高维的数据,使用更大规模的神经网络的方向发展,强大的算力成为了深度学习应用的发动机。目前深度学习开发中面临GPU计算资源分散、使用效率低、资源空闲、多任务管理复杂、分布式训练配置复杂、不易伸缩等问题。为了解决如上问题,提供高效的算力管理以及可便捷地构建扩展性和兼容性良好的应用,项目采用了香侬科技开发的深度学习调度管理平台(Shannon PAI),提高了任务实现的效率。\\ 
 +  平台完全基于微服务架构,所有的平台服务和AI任务均在容器中运行,无论是在Ubuntu裸机集群还是在云服务器上,可通过脚本方式实现快速部署,灵活扩展。同时也使其能够支持多种不同类型的AI任务,如CNTK、TensorFlow、PyTorch等不同的深度学习框架。此外,通过自定义Job容器可支持新的深度学习框架和其他机器学习、大数据等AI任务,提升了平台未来的通用性。平台主要实现两大功能:\\ 
 +  支持分布式调度。平台AutoML可以在单机上完成试验,也支持两种分布式调度方案:(1)GPU远程服务器。通过SSH控制多台GPU服务器协同完成任务,并能够规划每个任务所需要的GPU数量;(2)平台直接调度。通过深度学习平台,任务可以在独立的Docker容器中运行,并支持多种复杂的运行环境。在计算资源规划上,不仅能指定GPU资源,还能限定CPU和内存等资源。\\ 
 +  支持超参的搜索。当前,大部分自动机器学习服务与工具都是在某个任务(比如图片分类)上使用。优势在于普通用户只要有标记数据,就能训练出一个高质量的平台,不需要任何模型训练方面的知识。但这需要对每个训练任务进行定制,将模型训练的复杂性包装起来。本次项目通过指定模型训练代码及超参范围,以及平台提供的AutoML进行超参搜索,从而获取最优结果。\\
  
-<WRAP center round important 60%> +===== 四、公告知识提取结果及分析 ===== 
-是一个页面模板编写新页面请务必阅读[[wiki:​newbie:​start|编写须]]。+  本项目通过上市公司三类公告的处理,实现了一整套完整的基于上市公司公告知识提取的解决流程,包括PDF解析、数据标注、信息抽取到深度学习框架的调参,通过反复调优,最终达到了最高98.78%的准确率。\\ 
 +  项目组选取了当前较为常用的三类公告作为本次知识提取的目标,从提取的难度由易至难分别选择了三类公告开始尝试。\\ 
 +  1.股东大会-董事会决议公告:提取知识点包括公告发布主体(上市公司实体)、会议召开届次、召开日期、议案选取、否通过等,属于公告格式较为固定,且变化较小的公告。此类公告从训练到提取的结果来看都取得了较好的效果。\\ 
 +  2.股东大会通知公告:提取知识点较多,除了上述基本信息外,还涉及到了上交所各平台投票时间等信息的提取,此类信息在公告中出现的位置和说明方式均不固定,使用传统的提取方案会有定的困难。本次项目通过深度学习的泛化能力取得了较传统手段更优的结果。\\ 
 +  3.利润分配实施公告:此类公告属于较为复杂类型的公告同一类公告中既有上市公司权益分配、利润转增又有债券付息、兑付或摘牌等情况,对于不同类型的公告提取的知识点要求各不相同。在信息提取通过对公告的分类,大大优化了信息提取的准确性,最终取得了较好的提取效果。\\ 
 +  经评测三类公告的信息提取准确率如下表:\\ 
 +|#​|公告类型|测试样本数量|提取准确率| 
 +|1|股东大会-董事会决议公告|51|98.78%| 
 +|2|股东大会通公告|35v93.55%| 
 +|3|利润分配实施公告|46|95.11%| 
 +<WRAP centeralign>​ 
 +表1 三类公告的信息提取准确率|
 </​WRAP>​ </​WRAP>​
-===== 二级标题 ​ ===== 
-\\ 
-\\ 
-==== 三级标题 ==== 
-\\ 
-\\ 
-=== 四级标题 === 
-\\ 
-\\ 
-== 五级标题 == 
-\\ 
-\\ 
----- 
-===== 参考文档 ​ ===== 
-最后请列出所有参考的公开资料的URL。 
  
 +  从测试结果分析,第一类公告的内容相对较为固定,因此在公告的提取中取得了较好的结果。第二和第三类公告在实际的业务中由于初始样本的数量较少,项目组通过对历史公告数据进行了变形并添加了部分可能发生的业务场景参与训练,最终通过调优后也获得了较好的提取效果。
 +除了准确率外,相比于常规技术实现,此方案在开发工作量上也具备规模效应。模型的泛化效果相对较好,处理的公告类型越多,需要投入的边际开发工作量占比越低,主要工作量将转换为只需数据标注,不再需要代码的大量开发。流程有较强的复制能力,特别适合处理上市公司公告这类多样化的文本。在处理效率上,PDF解析采用分布式架构,解析的算法经过充分的优化,单页解析时间小于10毫秒,深度学习框架对NLP模型进行了适配,能够最高效地发挥GPU的运算能力,可批量处理公告,大大优化了资源配置。\\
 +===== 五、总结 =====
 +  本项目是上证所信息网络有限公司和香侬科技结合业务场景优势和技术优势在深度学习方面的共同探索。项目取得了最高98.78%的知识提取准确率,在公司公告摘要的制作和处理中起到了较好的辅助作用,验证了深度学习在知识提取中的应用前景,也为类似的业务提供借鉴和参考。\\
 +===== 六、参考文献 =====
 +[1]Li and Jurafsky. Neural Net Models for Open-Domain Discourse Coherence. EMNLP2017.\\
 +[2] Ren et al., Faster r-cnn: Towards real-time. NIPS2015.\\
 +[3] Shi et al.,2017. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE transactions on pattern anal- ysis and machine intelligence.\\
 +[4] Ge et al. Fluency boost learning and inference for neural grammatical error correction. ACL2018. \\
 +[5] Devlin et al., Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv:​1810.04805\\
 +[6] Wu et al., Glyce: Glyph-veors for Chinese Character Representations. arXiv:​1901.10125.\\
 +[7] Seo et al., Bidirectional attention flow for machine comprehension. arXiv:​1611.01603\\
 +[8] Yu et al., Qanet: Combining local convolution with global self-attention for reading comprehension. ​ arXiv:​1804.09541.\\
 +[9] Miwa and Bansal.End-to-end relation extraction using lstms on sequences and tree structures. ACL2016.\\
 +[10] Ye et al., Jointly extracting relations with class ties via effective deep ranking. ACL2017.\\
 +[11] Dai et al., Transformer-XL:​ Language Modeling with Longer-Term Dependency\\
 +[12] Qin et al., DSGAN: Generative Adversarial Training for Robust Distant Supervision Relation Extraction. ACL2018\\
 +[13] Feng et al., Relation Mention Extraction from Noisy Data with Hierarchical Reinforcement Learning. AAAI2019\\
 +[14] Levy et al, Zero-shot relation extraction via reading comprehension. arXiv:​1706.04115\\
 +[15]McCann et al., The natural language decathlon: Multitask learning as question answering. arXiv:​1806.08730\\
 +[16] Von et al., LSD: a fast line segment detector with a false detection control. IEEE transactions on pattern analysis and machine intelligence.\\
  
-  
  
阅读
service/techmag/201906_035/09.1565772846.txt.gz · 最后更改: 2019/08/14 08:54 由 -