一、人工智能在基金宣传违规检测方面的应用初探

1.当基金宣传监管遇上人工智能

近年来,中国金融科技快速发展,已经成为全球最活跃的金融科技市场,而金融科技的快速发展客观上也促进了监管科技的发展。在基金销售领域,近几年线上化的趋势愈演愈烈,如何通过人工智能等新技术赋能基金宣传监管,成为了一个有价值的课题。

基金宣传监管的紧迫性

今年以来,公募基金总规模不断刷新历史新高,年内规模已超三万亿,增幅超过20%[1]。行情火热的同时,风险也埋伏其中——基金销售过程违规的乱象频频出现,涉及基金机构包括基金公司、代销银行及第三方代销机构。其中第三方代销机构的情况最为惨烈,据不完全统计,今年在130多家第三方代销机构中,有7家被暂停业务。公募基金的销售不但牵涉到基金公司的利益,同时还涉及投资者的利益,因此规范行业发展、强化行业监管迫在眉睫。

制度建设的完善必不可少。无论是今年监管部门颁布的《严格规范宣传推介行为,促进权益类基金健康发展》通告和《公开募集证券投资基金销售机构监督管理办法》文件,还是《新广告法》及《中华人民共和国证券法》等法律法规,都严格规范了基金线上销售的行为。

然而在制度的监管实施层面,由于线上销售的互联网特殊属性,存在以下问题:

  • 宣传渠道多,监管难覆盖

线上销售宣传过程涉及两大类平台,一类是持牌机构的宣传平台,如基金公司官网及基金公司App等,这类平台有专门的审核机制,较少出现违规的基金广告;另一类是非持牌的互联网平台,以各类流量平台(抖音、微信公众号、支付宝小程序等)为代表,由于缺乏针对行业的审核机制,基金广告的合规性难以保证,导致这类平台成为宣传违规的重灾区。

  • 数据量庞大,监管难到位

线上销售涉及各类互联网流量平台,这类平台无时无刻不在产生新的数据,同时宣传内容形式多样,不但有传统的文字、图片,甚至还有短视频和直播等内容,加之各类运营活动的火爆,监管部门通过传统手段进行监管的成本急剧上升。

  • 内容更新快,监管难及时

由于互联网的传播特性,一张宣传图片可能在短短几秒内被上百万人浏览,一场理财直播可能有数万人同时观看,监管部门发现违规内容的时候,可能已经造成了恶劣的影响,甚至给投资者造成了不可挽回的经济损失。当传统的监管手段已经无法应对当前的基金线上销售现状,是否可以通过人工智能技术寻求新的解决方案呢?

人工智能的科技浪潮

以深度学习为主的人工智能应用技术涵盖了视觉、自然语言处理和语音三大领域。

视觉领域是三大领域中发展最早也最为成熟的领域,其主流技术包括人脸识别、图像识别和文字识别等。传统的特征工程方式已经被深度神经网络所取代,未来的研究方向主要有两类,一是理论研究方向,如通过数据生成技术实现视觉模型的终生学习(Lifelong Learning)等;另一类是技术应用方向,如针对特定的硬件环境进行应用性研究和提高特定领域的识别精度及效率等。

自然语言处理领域包含自然语言理解(如文本分类、命名实体识别和机器阅读等)和自然语言生成(机器翻译和问答系统)两大类技术。这几年该领域技术爆发得益于预训练语言模型的出现。在进行大规模无监督语料训练后的模型,能够通过输出层的调整及少量标注数据的微调,取得优秀的准确率,大大降低了标记数据量的门槛。未来这一领域的发展趋势是结合领域需求的具体解决方案及自然语言处理结合知识图谱的各类应用落地。

语音领域以语音识别技术为代表。在语音识别技术领域,近几年以CTC和Sequence-to-Sequence为代表端到端技术解决了输入序列(语音)的长度远大于输出序列(字符)及数据对齐等问题,使得一般场景下的语音识别任务准确率已经达到了98%以上,目前的研究趋势是远场化(远距离语音识别)和融合化(多轮交互及多人对话)。

三大领域的人工智能技术能够在近十年内取得飞速发展及落地应用,离不开移动互联网技术带来的海量数据及云计算技术带来的计算性能提升。同样,深入到特定领域,如金融领域乃至于基金违规领域,想要有效地将各类深度学习技术进行应用落地,还需要具备良好的数据建设基础。

目前国内金融行业的数据建设已经进入了金融科技阶段,数据的作用逐步由支撑业务发展转变为引领业务创新。同时,中央印发的《关于构建更加完善的要素市场化配置体制机制的意见》正式将数据列为新型生产要素、银保监发布的《中国银保监会办公厅关于开展监管数据质量专项数据治理工作的通知》要求加强金融机构的数据治理。种种迹象均显示,近年金融行业的数据建设飞速发展,使金融领域的人工智能应用成为了可能。

2.人工智能在基金宣传违规检测的应用探索

基金宣传违规检测的重点在于检测各类宣传文本、宣传图片、宣传短视频及宣传直播的内容合规性。基金宣传违规检测划分为三大流程,分别为预处理、知识库构建及违规分析。下面将针对这三个流程,分析有哪些通用领域的人工智能技术能够进行迁移及应用。

预处理

宣传短视频及宣传直播中,主要内容由主播进行口述,视频画面中可能会出现少量文字内容辅助观众理解;宣传图片中,如基金宣传图、基金经理宣传图等、核心内容主要由文字进行展示;而宣传文字中,直接采用文字进行内容展示。由此可以发现,虽然宣传数据多,但是基金宣传的过程中,还是以语言为主体(可能会有少许广告涉及对图像或画面的理解,这类占比较少,暂不考虑)。

因此,可以考虑通过深度学习中的文字识别及语音识别技术将内容转化为文本序列,再对文本序列进行进一步的分词处理。

由于短视频及直播的语音识别特点多为近场语音识别、低噪音且多为独白,使用通用领域的语音识别模型已经能够满足需求。如果主题专业性较强,涉及专业词汇较多,可以考虑模型中融入热词词典技术,通过上传基金领域相关词汇,以提高专业词的识别率。

而对于宣传图片的文字识别场景(流媒体可通过截帧的方式作为图片处理),由于宣传图中以印刷体为主、大部分文字呈横向分布及文字较少出现扭曲、转置等视觉变化,亦可使用通用领域的文字识别模型进行文字识别。对于图片文字中出现的分段文字,可以考虑结合文字识别结果的位置信息进行区域内文字拼接,以降低后续文字处理的难度。

由于自然语言处理中大部分任务都需要分词,因此还需要使用分词模型对前面得到的文字序列进行分词处理。通用领域的分词模型(如开源的jieba分词)已经较为成熟,但为了解决基金领域中的专有词汇分词问题,可在构建基金领域的专有词词典,并且添加基金名、基金经理名等信息至词典,以增强分词的准确性。

知识库构建

存在夸大宣传和发布虚假信息等是基金违规的重灾区,该类违规的判定需要真实数据的对比才能判断,因此我们可以通过构建基金领域的知识图谱,实现各类基金信息的真实性判别。

基金信息、基金经理信息、基金数据等内容,均为公开的结构化信息,可以使用网络爬虫技术进行数据爬取,采集至本地,并定期进行数据更新。对于获取成本高的数据,可以考虑调用专业的金融数据服务接口。

对于采集得到的数据,根据结构化内容,构建实体对关系及试图属性关系。再使用Neo4j等图数据库,进行多关系图的存储。在该步骤中,还会涉及到实体对齐、属性对齐及冲突消解等内容,需要通过各类文本预处理技术进行处理,以提高知识图谱的准确性及可靠性。

图数据库除了可以使用图搜索算法加速计算以外,还能用于后续构建问答系统、推荐系统或风控系统,相比于传统数据库,具备更强的人工智能应用拓展性。

违规分析

违规分析是将法律法规通过技术方案实现合规性检测,针对不同的法律法规,有不同的技术实现方案。以《公开募集证券投资基金宣传推介材料管理暂行规定》为例。第十五条涉及敏感词(安全、无风险等),可以使用构建违规关键词词典、再通过词检索的方式进行违规词的检索;第四条中涉及基金合同生效时间与业绩的计算规定,可以通过提取数据中的基金名称,再使用知识库中的基金基本数据进行比对判断;第五条、第六条及第十五条中,规定了宣传表达的真实性及准确性,则需要对数据进行信息抽取,再与标准数据进行核实分析来进行合规性判断。

为了对预处理后文本序列中的信息进行进一步提取,可使用信息抽取技术中的命名实体识别及关系抽取技术。

命名实体识别的目的是识别并提取文本段中的特定类别的实体信息。在基金宣传违规检测任务中,常见的实体类别包含基金代码、基金名称、基金公司名称、基金经理姓名、基金奖项名称及基金净值信息等。对于规律性强的实体,可以采用正则表达式进行实体识别。而对于变化较多、格式不定的实体,由于缺乏公开的标注数据集,要通过人工标注构建训练集的方式,进行模型的训练。在这个过程中,可考虑采用基于预训练模型(如google开源的中文BERT模型或熵简科技开源的金融领域的FinBert模型),通过在模型输出层拼接CRF输出层后,使用小规模标注数据进行模型微调。

在得到命名实体识别的结果后,还需要提取实体间的关系,根据前面实体的定义,可知实体间的关系有限,因此可将关系抽取细化为限定区域的关系抽取任务。考虑人工标注成本的高昂,在此,可以使用半监督学习,通过知识图谱中的实体关系作为种子模板,结合少量的人工标注,使用Bootstrapping及远程监督学习的方式进行关系抽取。

除了上述将命名实体识别与关系抽取分布的方式,还能考虑实体与关系联合抽取的方式,通过共享模型参数的方式,降低任务分离带来的误差积累。

在实体与关系均抽取完毕后,可对知识图谱中进行实体检索,并根据实体关系进行实体间关系或实体属性的校对,如果出现不一致的情况,可认为是存在基金违规的风险。

3.基于人工智能的基金宣传违规检测解决方案

在对基金宣传违规检测的流程进行了分析后,下面将针对现有的基金违规监管热点,分析基金宣传违规检测平台的整体架构和搭建思路。

结合人工智能的违规检测的方法只解决了违规识别的问题,针对基金违规监管的痛点,我们设计了基金宣传违规检测平台,希望通过大规模网络爬虫的方式,结合人工智能违规审核模型,实现基金网络宣传数据的自动化采集及风险评估,并对违规结果提供实时提醒和统计功能,实时监测网络上基金宣传广告的违 规情况。平台的整体架构如下所示:              

图片

按照系统流程,可以将整体划分为三个阶段,分别为数据采集阶段、违规分析阶段及数据展示阶段。下面将分别叙述各个阶段要点。

数据采集阶段

针对现在基金线上销售的特点,平台的待采集数据类型分为基金图文宣传及基金流媒体(包含直播与短视频)宣传。

对于基金图文宣传,主要包括基金公司官网、App、微博或微信公众号上发布的基金广告,这类广告以文字或者图片为主。这类数据分布的范围广、类型杂,是投资者接受基金信息的主要渠道。

对于基金流媒体宣传,主要包含如淘宝直播等理财直播渠道及抖音等短视频平台,以流媒体数据为主。理财直播和短视频是近期兴起的新型宣传方式,由于其新颖性和实时性,导致监管部门难以对其进行有效的监管。

两类宣传途径,由于数据格式的不同,将采用不同的采集方式进行采集。

基金图文宣传数据分为web端和移动端。对于web端的数据,可考虑通过Scrapy爬虫框架或Selenium自动化测试工具进行混合采集;对于移动端的数据,可以考虑通过Fiddler抓包或Appium自动测试工具进行混合采集。

基金流媒体宣传数据以流媒体的形式推送到直播平台或流量平台上,可考虑通过http/https流量嗅探进行m3u8流媒体文件的获取,并通过后续的解析及拼接,转化为视频数据进行处理及存储。

在采集的过程中,还会采集到非广告数据、同时,对于采集的广告数据,我们也希望后续能够有更有针对性的进行分类分析,因此还可以在该步骤融入深度学习的分类模型,对采集的文字、图片数据进行分类(如图片数据可以分为基金宣传图和基金经理宣传图等等)。当数据采集分类完毕后,将存储在平台本地的持久化存储模块中。

违规判别阶段

违规检测作为一个独立模块,输入部分划分为文字数据、图片数据及视频数据,输出则为各条数据对应的违规项及违规细则。违规判别所涉及的方法及相关技术在第二章已经进行了说明,这里不着重描述。

违规判别的基本逻辑,是将各种形式的数据转化为文字数据后,通过文本结构化的形式,与知识库的内容进行比对。对于视频类的数据,可考虑通过图片帧抽取与语音识别结合的方式,进行判别。但针对一些特殊的违规情景,如判断数据是否存在抹黑他人行为、或数据是否包含风险提示等,可以结合其违规的特征,构建专家系统进行判别。而对于一般性的涉黄涉政等内容检测,由于不是我们检测的重点,可以借助外部的内容检测接口来实现。

数据展示阶段

在对宣传数据进行了违规审核后,将结果以监控大屏或统计报表等方式提供给用户。该过程为一般的图表展示、报表生成及通知告警功能,在这里不作为重点说明。

最后,由于平台的违规检测模型是基于人工智能模型所设计,因此需要新数据进行模型的反馈迭代。该功能可以通过加入检测结果的人工修正来实现。平台将人工审核的结果反馈到后台,经过二次审核后,整理成为标注样本的一部分,加入模型进行迭代,不断提高平台的检测准确性。

4.未来展望

基金宣传违规检测过程涉及大规模的数据采集及深度学习模型的建模工作,这两个过程都涉及大量的工程化内容。在对数据进行一定规模的采集后,可以分析网页结构信息,构建智能网页解析工具减少人工采集的成本。而在模型构建过程中,可以考虑使用更多的半监督学习技术,结合平台的人工标注及平台的人工审核反馈,构建高置信度的标注小样本集,通过数据生成技术,生成广泛的样本集合,以降低人工标注的成本。至于知识图谱部分,则可以作为基础数据建设,不断迭代增大,后续基于知识图谱构建更多样的应用生态体系。

二、全链路监控和金融系统运维的结合

1.问题背景

全链路监控的起源(痛点分析)

定义:全链路监控又名分布式监控系统,全链路追踪系统,是一种帮助开发工程师和业务分析人员实时定位发现问题,定位问题并及时提供数据支持解决问题的一个工具性平台。

起源:扎根于互联网的从业者们都知道,互联网中不同的应用服务之间互为关联,通常需要按照不同的纬度进行拆分,一次请求往往需要涉及到多个服务的支持。而由于不同的模块之间通常由于公司的组织架构和业务部分需求的不同而不同,这也就导致有可能不同的应用之间使用不同的开发语言进行编辑,可能将业务分别部署在上千台的服务中,需要辗转横跨多个平台的数据中心进行交互数据就会产生无数条交错的链路。

这就好像多辆汽车在高速公路穿插来回,从不同的起点或相同的起点去到不同的终点或同样的终点,而每一辆车的行进路线和速度,质量,颜色,款式都会有不同,我们需要有一个“摄像机”去抓拍每一辆车所经过路线时的情况并且实时得知每一辆车的参数指标,方便分析每一辆车的行进路线方向和是否有“危险驾驶”以及“违规驾驶”的行为,一旦出现了这些行为之后我们可以及时对问题车辆进行警告和定位,对出现问题的“车辆”进行捕捉问题及时通知告知“交警”并且辅助“交警”提供数据进行分析判断和追责。

 


近年来,各大券商虽然重金投入自家APP的研发和升级,用户体验出现明显提升,但是APP宕机的情况却也不断发生。例如近期的某券商App宕机一事一度登上了微博热搜,行情一火爆,券商交易系统就屡屡发生拥堵。据了解,自今年7月多家券商宕机后,不少券商开始尝试做服务器、软件系统的扩容,将核心系统进行分布式改造,以从根本上解决系统的压力问题,提升APP的稳定性。为了应对互联网特性的与日俱增,策略将调整为「快速交付」与「快速排障」,并针对其开展全维度的执行。为了实现「快速交付」对系统拆分实现松耦合,系统却越来越多,链路也随之加长。为此,我们需要一个可以能够帮助开发工程师以及业务人员理解系统发生的行为以及分析性能问题的全链路监控工具,以便发生故障的时候,能够快速定位和解决问题并提供数据分析支持辅助诊断和决策。

假设我们有下列需求,那么我们就需要全链路监控:

服务耗时很长,告诉我耗在哪个接口或系统

观察代码执行,针对特定的方法入参

跟踪调用链路,展现出方法具体的逻辑、时序等

全链路监控的实现思路 

  • 整体实现思路
图片

监控数据源:产生并记录监控数据。具备产生、记录监控数据能力的系统、工具、服务、设备统称为监控数据源。本方案主要包括前端监控数据,应用相关监控数据,基础设施相关监控数据,业务流程相关监控数据。

监控数据收集:从各处收集监控数据。数据收集模块根据数据源的特点,通过不同方式将监控的数据源进行收集汇总成统一的格式,发送到大数据平台进行处理计算。

监控数据计算:实时、批处理进行监控数据计算、分析、存储。通过使用阳光云提供的大数据计算能力,将汇总的监控数据进行实时或定时计算、分析、统计,最终将结果持久化到数据库中,供前端数据展示使用。

监控数据展示:对监控数据进行大屏展示,供运维人员实时监控系统健康状态,通过告警推送(包括多告警源接入、告警设置、告警通知等功能),及时提醒运维人员处理系统问题。

  • 四大功能模块:

1) 埋点与生成日志

埋点即系统在当前节点的上下文信息,可以包括并分为 客户端埋点、服务端埋点,以及客户端和服 务端双向型埋点。埋点日志通常要包含以下内容traceId、spanId、调用的开始时间,协议类型、调用方ip和端口,请求的服务名、调用耗时,调用结果,异常信息等,同时预留可扩展字段,为下一步扩展做准备;

造成性能负担:一个价值未被验证,却会影响性能的东西,是很难在公司推广的

因为要写log,业务QPS越高,性能影响越重。通过采样和异步log解决

2) 收集和存储日志

主要支持分布式日志采集的方案,同时增加MQ作为缓冲;

每个机器上有一个 deamon 做日志收集,业务进程把自己的Trace发到daemon,daemon把收集Trace往上一级发送;

多级的collector,类似pub/sub架构,可以负载均衡;

对聚合的数据进行 实时分析和离线存储;

离线分析 需要将同一条调用链的日志汇总在一起;

3) 分析和统计调用链路数据,以及时效性

调用链跟踪分析:把同一TraceID的Span收集起来,按时间排序就是timeline。把ParentID串起来就是调用栈。抛异常或者超时,在日志里打印TraceID。利用TraceID查询调用链情况,定位问题。

 依赖度量:

强依赖:调用失败会直接中断主流程

高度依赖:一次链路中调用某个依赖的几率高

频繁依赖:一次链路调用同一个依赖的次数多

  离线分析:按TraceID汇总,通过Span的ID和ParentID还原调用关系,分析链路形态。

  实时分析:对单条日志直接分析,不做汇总,重组。得到当前QPS,延迟。

4).展现以及决策支持

通过数据分析,将不同的数据信息进行搜集,清洗,计算并汇总到数据可视化平台,并且通过数据化分析提出建议性报告给到相关人员进行产出

给客户带来的价值分析 (着重)

  • 传统的监控工作痛点

1) 维护工作复杂

除了客户端的SDK和探针外,一套全链路监控方案在服务端有计算组件、存储组件、展示组件,都需要单独进行维护。以Jaeger为例,仅在数据存储方面需要维护一套独立的Elasticsearch集群,需要投入很大的工作量。

2) 缺少高可用保障

开源全链路监控方案并没有完整的高可用机制,当某个组件出现故障,例如服务器宕机的时候,无法自动恢复,需要人工介入进行解决,在这个过程中正常的监控会受到影响。

3) 无法支撑大规模场景

当接入的应用数量达到上千个之后,开源全链路监控方案会暴露出各种性能问题,需要开发者修改源代码进行针对性的优化。

4) 影响正常业务

如果SDK/探针存在设计上的缺陷,有可能导致应用出现不可预知的故障。这种情况极为罕见,但一旦发生,后果会非常严重,这种情况下一般也只能等待开源社区将问题修复后才能恢复使用。

  • 全链路监控平台带来的价值

1) 省却人工定位问题时间成本

通过全链路监控平台自动监控自动数据统计并给予可视化显示错误异常等信息,一步定位问题所在

 2) 低侵入性

监控系统应尽可能减少对业务系统的侵入,保持对使用方的透明性,减少开发人员的负担,降低接入门槛和难度,同时降低一定的开发成本。

3) 低性能影响

由于全链路监控系统需要对各种应用中间件进行日志数据采集,大多都需要在业务系统内进行“埋点”或放置agent,一般都是在核心业务流程。

因此应尽可能降低对业务系统造成的性能影响,一般来说,对CPU的耗用低于2%可以作为一个参考阈值。

4) 灵活全面的接入策略

灵活的监控配置策略,让业务方决定是否接入,以及收集数据的范围和粒度,并提供对应的技术方案保障监控策略生效。

5) 时效性

实时有效的监控数据展示功能,帮助相关人员理解系统行为,为流程、架构、代码优化,以及扩容缩容、服务限流降级提供正确客观的数据参考。

系统目标与功能设计

系统设计目标

1)效率要高:对服务性能影响小

2)对应用透明,侵入性小:服务开发者不需要知道跟踪系统的存在

3)能够大规模部署

4)实时监控系统:数据收集到数据展示之间时间尽量少(最好少于1分钟)。快速调试线上问题

2.系统设计功能


3.全链路监控解决方案

技术架构简述

整体架构分为五层:

1) 日志采集:应用落地日志,采集后上报

2) 预处理:对日志进行简单处理,做高时效指标分析预警再向后传递

3) 衍生计算:参考业务配置,对日志进行业务级计算处理,做高级别智能预警

4) 数据持久化:落地至数据库或其他介质

5) 前端展示:提供界面或者数据服务接口,并共享数据给其他系统使用

图片
图片

业务场景分析(着重)

  • 开户业务场景

开户业务是金融系统的重要业务之一,而一个开户业务则需要多方系统的配合,例如:App/H5录入信息->公安系统/国政通/人脸核验/活体检测->银行鉴权-〉数据落地到TA等,任何一方出问题,都会导致业务失败,此时一个直观的系统,可以快速定位问题。快速解决,避免用户流失。

图片

  • 申购业务场景

申购业务也是金融系统的重要业务之一,当市场交易火爆导致请求量大于容量限度,导致系统出现卡顿甚至宕机肯定是金融企业不希望看到的。

图片




三、金融智能综述

1.前言  

人工智能+金融(下称AI+金融)与金融科技的界定有所不同,金融科技指广义的新兴技术(大数据、云计算、区块链、人工智能)与金融业的结合,而AI+金融指的是通过人工智能核心技术(机器学习、知识图谱、自然语言处理、计算机视觉、语音识别)为金融行业的各类参与主体及业务环节赋能。两者虽有差异,但也不可分割:大数据提供了数据能力、云计算提供了计算能力、区块链确保了过程与数据的安全性。

AI+金融的主要应用场景为智能客服、智能投顾、智能投研、智能风控及智能营销等,下面将为大家分别介绍。

2.智能客服 

智能客服包括客服机器人、智能外呼、智能导航、智能运营监控和智能语音质检等。这里讨论的是与客户对话用的客服机器人。

智能客服机器人本质上是将人工智能中的聊天机器人技术应用于客户服务的业务场景之中。而一个完整的聊天机器人,主要涉及语音识别、自然语言理解、对话管理、自然语言生成和语音合成五个主要部分。

  • 而聊天机器人分为三种类型:

1) 问答型:用户提出一个问题,系统通过对问题额解析和知识库的查找来返回正确答案。

2) 任务型:由任务驱动的多轮对话,机器通过理解、主要询问、澄清等方式来确定用户的目标,再通过相应API调用来返回正确结果。

3) 闲聊型:指要产生有趣且有信息量的自然回复使人机对话可以持续进行下去。   

根据智能客服具体的不同业务场景,可以选择合适的聊天机器人。目前,问答型机器人最为成熟,其次为任务型,最后为闲聊型。

3.智能投顾 

智能投顾是指通过使用特定算法模式管理账户,结合投资者风险偏好、财产状况与理财目标,为用户提供自动化的资产配置建议。

  • 智能投顾的常规步骤如下:

1)可投资资产分析:

国外智能投顾的底层资产均为ETF,但国内由于牌照、市场覆盖及体量等问题,一般以公募基金为底层资产,结合客户的风险偏好和算法对市场的预判,为客户推荐一个公募基金组合。

2)市场分析:

使用机器学习来决定是否为客户的投资组合(protfolio)配置该市场。再根据研究的市场,使用量化投资来决定市场配置策略。

3)配置:

市场分析后,使用投资组合理论进行建模与调参。

4)再平衡:

最后,根据市场变化来改变投资组合中的配置,也就是再平衡。据不完全统计,国内宣称具有智能投顾或正在研发智能投顾的理财平台已经超过20家,并且陆续还有平台入场,这将是未来的一大趋势。

4.智能投研 

智能投研以数据为基础、算法逻辑为核心,利用人工智能技术由机器完成投资信息获取、数据处理、量化分析、研究报告撰写及风险提示,辅助金融分析师、投资人、基金经理等专业人员进行投资研究。

智能投研的产业链涉及数据的获取、处理及应用。上游是数据源,包含传统金融数据、爬虫数据及另类数据等;中游是数据的采集和标准化;下游是数据的需求方和应用场景,包括投资机构、监管部门及非金融机构等。智能投研行业的参与者包括传统的金融数据服务商、创业公司、互联网巨头及投资机构内部研发。

智能投研包含金融文本处理工具、一级市场数据库及二级市场数据库模式三种商业模式,过程涉及的工程化内容更多,对企业的数据获取及数据处理能力要求较高。

5.智能风控  

智能风控指依托于人工智能技术,通过网上公开数据、第三方数据或平台积累的数据,来形成不同主体的用户画像及信用评估,进而应用于信贷、防欺诈、异常交易监测等领域。

按照应用场景,智能风控可分为信用卡信贷领域、零售金融领域、公司金融领域及监管科技领域;按照时间,可分为贷前、贷中及贷后阶段,每个阶段都涉及对应的模型。

  • 按照应用的细分金融行业,智能风控也有不同的应用:

     银行业:用于信贷、反欺诈、关联分析;

     证券业:用于异常交易行为、违规账户侦测;

     保险业:用于风险定价、反欺诈与智能理赔。

当前市场上的智能风控大多还是基于规则组合、条件筛选来实现风险预警,通过半自动化的方式来辅助人的判断。由于机器学习模型的不可解释性,为其应用于风险审核及侦测等场景造成了困难,人工智能在这一方面的应用尚有较大空间。

6.智能营销 

智能营销主要通过人工智能等新技术的使用,对于收集的客户交易、消费、网络浏览等行为数据利用深度学习相关算法进行模型构建,帮助金融机构与渠道、人员、产品、客户等环节相联通,从而可以覆盖更多的用户群体,为消费者提供千人千面、个性化与精准化的营销服务。

具体来说,智能营销是推荐系统的一种,在金融推荐系统中,三大主体分别为金融用户、金融咨询及金融产品。

金融机构可以获得较多的用户和金融产品数据,但是也并不完整。在用户、媒体和金融服务机构之间,没有任何一方可以完整地拥有一个用户的资金、投资行为、行业资讯、金融产品等数据,也无法拥有精准推荐的金融服务能力,为该用户提供真正适合他的综合金融服务。因此一个适合金融领域的大数据推荐系统,需要以标签系统、用户画像、用户行为分析和金融知识图谱作为基础,配合推荐引擎,才产生更大价值。

因此如果想构建金融推荐系统,首先需要解决的就是数据缺乏问题以及各类数据有效标签。


[1] 基金销售热潮中违规宣传和合规问题,遭深圳证监局处罚警示https://tech.sina.com.cn/roll/2020-09-18/doc-iivhvpwy7486393.shtml

以上内容摘选自《2020年资产管理及财富管理互联网零售年鉴》


免责声明:
以上数据均来自平台公开数据,因统计时间不同,数据会略有差异,我们力求客观公正使用网络工具,但对数据的准确性和完整性不作任何保证,文章中的信息或所表达的意见仅供参考。如数据有遗漏或有任何需求,请关注道乐科技微信公众号后台留言或发送邮件至research@szltech.com联系我们。

了解更多资讯请关注道乐科技公众号

0