幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

金融知识图谱的应用与探索

  导读:今天的分享分为以下几个部分,知识图谱的实现基础、理论基础和技术基础,还包括三个案例,跟金融都是相关的。
  01hr知识图谱的实现基础
  首先讲的是实现基础,这个时间轴贯穿于知识图谱的前世今生,发展到今天大概5060年,其中最早诞生的是语义网络。语义网络可以理解为,现存的词汇都是可以串联起来的,比如说麻雀是鸟,朱鹮也是一种鸟,朱鹮又是国家一级保护动物,一级国家保护动物包括扬子鳄、大熊猫。大熊猫本身又是哺乳动物。这样就可以对某一领域的知识甚至是全领域的知识,可以通过网络的方式进行链接,这样就构建了一个语义网络,它是对知识表示的奠基。
  到了80年代,人工智能领域又把哲学中的本体论引入进来,刚才讲到的麻雀、鸟和朱鹮等等,需要标识哪些是主体,这样就引进了本体论。接下来互联网的诞生,从万维网诞生到超文本的链接,像维基百科,使得互联网把数据链接起来,出现了数据链接这样非常重要的跨越。
  这样非常重要的三段历程,语义网络本体论,以及从文本链接到数据链接,成为构成知识网络的基础。Google在2012年推出了全世界第一款知识图谱的产品。
  google对于知识图谱有一个非常重要的定义,thingsnotstrings。过去人们通过搜索引擎获取大量信息,其中相当多是我们不想要的,当然也包括广告,甚至有一些噪音。比如搜索贵州茅台,实际上关注的是这只股票,希望在检索的时候更精准的告诉我们想要的,不要有太多臃肿的知识。Google在自己的知识图谱里就是这样去构建的。ppt右下角,在检索贵州茅台,会有一个简单的知识库的总结,包括实时股价,归属,总资产规模,包括子公司等等。更加精准定义我们想要的东西,展现字符串背后隐含的对象和事物。我们的目标就是洞察语义。
  02hr知识图谱的理论基础
  知识图谱中很重要的一点就是知识,知识从何而来。过去知识的获取主要有三种方式。第一种是进化,更多的是人与自然的互驯,在相互驯化的过程中,适者生存,把最先进的知识传承下去。第二种是经验,经验是日常生活中司空见惯的方式,例如一朝被蛇咬,十年怕井绳,这就是一个典型的经验。第三种是文化传承,从古代的图腾到近现代的文字、书籍和影像资料等,更广泛的让我们获取知识和传承知识的方式。
  到了近现代,除了前三种方式之外,又有了计算机这种新的方式,计算机能帮我们获取知识、存储知识、传播知识、理解知识。理解知识就是广义上讲的机器学习,包括人工智能。
  在计算机去发现知识的方向,过去被广泛研究的主要是五种方式。第一种方式是填补现有知识的空白,比如填字游戏,根据字母的排列关系把答案填补上去。第二种方式是模仿大脑,例如现在比较火的神经网络,用机器去构建神经元。第三种方式是模拟进化,主要用在机器人的领域,让机器人通过自学习自迭代的方式去成长。第四种方式是系统性的减少不确定性,说白了就是统计学,ppt右上角是典型的贝叶斯定理。第五种方式是注意新旧知识之间的相似性,类似svm,精准的去找到一个二分类的方法。
  做一下总结,发现知识有五种方式,相对应的是五大学派。统计学就是贝叶斯学派,svm就是类推学派,模拟进化就是进化生物学学派,模仿大脑的就是联结学派,神经网络分支。填补现有知识空白是符号学派。其中的理论依据,还是根据基础学科去做借鉴,比如说统计学、心理学、生物学、脑科学和哲学,同样用到了很多算法,比如贝叶斯分类器,内推学派主要是svm内核机,进化学派主要是遗传编码,神经学派主要是反向传播,符号学派是逆向演绎。
  对应的应用场景,统计学用在风险控制的场景,支持向量机用在推荐类的场景,生物学主要是机器人场景,神经网络用在深度学习,符号学派有很多专家系统的应用。
  关于五大学派,有一本书叫终极算法,不同的学派在某个领域去解决不同的问题,有没有一种终极算法把这五个合并在一起?可以参考下这本书。
  五个学派,模仿人的大脑,模仿人的心,模仿人的智。其实知识图谱关注的是人类的语言思考以及推理,如何通过机器的方式来实现,构成了知识图谱的理论基础。
  03hr知识图谱的技术基础
  刚讲了理论基础,这里讲讲技术,这里用了nlp的图片,知识图谱主要还是在自然语言处理的领域。
  这是我总结的知识图谱全栈,从底层到上层有四层。
  最底层是理论层,理论层就是刚才提到的几个比较关键的点,比如说本体论、语义网络、语义超链接、数据链接以及知识库。
  在数据层,举例的都是一些通用的数据源,比如说freebase,这个是google收购了,knowledgevault,这个是google开放的知识图谱库,包括维基数据,imagenet等,这些都是公开的,大家从网上能够查到。
  实现层,大概分成六个步骤,分别是知识获取、知识抽取、知识融合、知识存储、知识推理、知识建模和知识发现,知识获取是获取外部数据的方式,包括爬虫和实时入库的技术方法;知识抽取就是,对三元组进行知识的抽取,包括实体抽取、关系抽取和属性的抽取;知识融合就是,抽取出来之后,存在很多的数据冗余和噪声,要去做实体的消歧,数据的整合;知识存储,刚才讲了,实际是要构建一个三元组RDF的数据结构,如果把所有的顶点和边构造出来之后,要对他进行图数据库的存储;知识推理,刚才也讲到了,如果要做一些深层次的知识问答,就要做很多的训练,无论有监督的还是半监督的;知识建模更多的是去理解语义,涉及到属性的映射,实体的连接;知识发现,两大主要的应用是知识的检索和知识的问答。这些构建了知识图谱的实现层。
  再往上就是应用领域,大概分成两个方向,一个是通用领域,比如搜索引擎、机器人和物联网等等。在专业领域基本都是行业,例如交通、能源、金融,包括医疗健康。
  刚才讲的是技术的全栈,这里是解决方案构建的实现路径。首先就是知识的采集和获取。现在的数据无非两块,内部数据和外部数据。对于外部数据,入库后要做知识的抽取,主要是对三元组的抽取,实体关系和属性的抽取。对抽取的知识可以去构建一个简单的搜索引擎应用。把自然语言处理结合进来之后,就要对知识进行消岐和补全,如果有一些行业属性数据,要从这里去做补全。融合之后的数据,首先放在类似ES的存储里边,通过知识表示,一方面去构建搜索引擎,再一个就是结合知识推理,对知识问答类的应用去产品化,例如siri、微软小冰和小米音箱。在知识推理这块,更多的用到了符号学和类推学的算法去实现。对知识表示化后的数据进行深加工,去做关系抽取、属性映射、实体连接,可以把顶点和边全部结构化,存储在图数据库里。构建了自己的图数据库,可以为行业做一些专用的知识图谱,比如企业族谱、证券的智能投研和监管科技。
  刚才提到了知识图谱的一些数据源,这里也摘录了一些信息,比如freebase,Google的knowledgevault等。
  刚才讲了知识图谱的构建步骤,对几个比较抽象的步骤做展开。第一个就是知识抽取,知识抽取就是自然语言理解和知识表示的结合。刚才提到了自然语言处理两个非常重要的步骤,第一个就是文本的预处理,涉及到数据的清理、降噪、数据的集成、数据的离散化;第二个步骤,就是做分词、做标注,更深入一点的是做语法的解析和依存度的解析,这个层面实现后做三元组的抽取。把关系、实体和属性抽取出来。再后边就是知识表示,实现关系、实体和属性之间的关联,构建三元组。
  刚才多次提到三元组,到底什么是三元组,一部分是一些概念、实体、语义、内容、属性。我们对于语言的理解,主要还是通过主谓宾的方式去构建,主谓宾就是典型的一个三元组,把它应用到知识图谱就是RDF。RDF有非常多的构建方式,下面举了两种例子。一种是实体、关系、实体的方式,一种是实体、属性、属性值的方式。举个例子,某某法人京东,构建了一个非常简单的三元组,可以理解某某是京东的法人。
  举一个小的案例,这是我们帮一个券商做的企业族谱,如何把上市公司任职的高管关系全部遍历出来,从源数据库抽取三张表,分别是高管信息表、任职表、公司信息表。这样就可以把对应的高管字段、高管任职的字段以及所在的公司属性字段抽取出来,构建成高管任职关系的三元组。
  某某和所有有资金关联的公司,全部都在上面,有些是法人关系,有些是财务投资,有些是并购,有些是控股。
  这是我们帮券商做的应用,每个人都有自己的股票app,当我们去购买某一个个股的时候,个股对应的公司所在的行业,对应的关联公司,以及个股所在的板块,板块对应的上市公司个股,都可以构建为知识图谱通过app推送给客户。假设用户购买的是苏宁云商个股,可以看到行业属性里,会把京东个股关联进来,它们都属于互联网电商行业。苏宁物流这块就会跟顺丰关联起来。苏宁本身所处的板块有家电背景,会跟美的、格力关联,蓝色的是关联公司,橙色的是产品,绿色的是上游,棕色的是下游。
  前面讲了知识抽取和知识表示,这里简单讲一下图数据库。最近两年图数据库非常火,像neo4j、Stellardb、GraphX、TITAN、OrientDB。图数据库是知识图谱非常重要的技术架构,对图数据库的存储、检索要求越来越高,希望更多去兼容sql语法。现在很难去构建多层属性,更多的去平铺,平铺开之后有个问题,点和边会非常的多,现在遇到一些案例,上百亿个点,上千亿条边。海量的数据,计算引擎怎么设计,比方说现在比较好的分布式计算架构是不是能更好的去优化,包括点边是否能实现增删改查,对图的遍历能否做到秒级返回,这是我们关注的一些点。
  这里对图数据库的存储结构做简单的展示,目前主流的图数据库是通过RDF的方式去构建,GraphX把顶点和边分别存储,属性和属性值和点边产生依赖。TITAN把顶点、边和属性全部拆分开去构建。Neo4j是RDF去构建,通过指针跳转的方式去连接,各有千秋。
  04hr案例分享
  最后一部分讲下案例,今天来的很多讲师来自一线互联网公司,更多关注的是搜索引擎和知识问答这些方面,星环是专门做企业级市场的公司,更多关注的是企业级知识图谱。
  第一个例子是银行的案例,银行信贷里担保链的分析。用户检索出目前某一个授信企业客户目前的信贷状况,可以看到信贷的不良率、是否有违约以及逾期的状况,这是一个非常基础的信息报表的展示。当我们发现该企业有疑点的时候,就可以去检查它某一次的授信里面的关联关系。比如该次授信,企业的担保人是不是存在一些问题。右边的知识图谱中,红色是我们查阅的实体,实体与它产生的担保关系就可以全部遍历出来,和给该企业做担保的上级是否存在担保关系。这样全部都能遍历出来,在遍历出来的图谱可以看到企业是不是存在闭环,或者出现双向或者交叉的图形。在过去,人工的方式很难做到,尤其一些体量比较大的银行,企业的经营范围面向全国的时候。目前构建企业担保类的知识图谱非常快,遍历一个大企业能做到小时级。
  这是一个监管科技的应用,这是我们帮银监会去做的案例,在福建省银监做的银监眼的案例。福建省有七个地市,抓一些关键性的监控指标,比如存款指标、贷款指标以及不良率的指标、流动性指标。这是一个应急看板,可以看到有一些关键性的数据,比方说不良率、地区的存款分布、房产贷款,横坐标是地市。
  检索是相对比较复杂的,有疑点提示,指标概览,当我们去关注某一个疑点的时候,可以做一些筛选,像资金流向、资金空转、失信被执行等监管科技比较关心的指标,当我们去筛选的时候,把有疑点的一些企业和客户抓取出来。
  深入点击进去之后,就可以对该企业形成关系图谱,或者叫对公客户的客户画像。比方跟该企业相关联的交易关系,可以通过知识图谱展示出来。空心就是实体,绿色就是跟企业产生交易的,全部都是有向图,箭头指向就是交易的流向。
  第三个案例是证券,帮券商去构建的投研平台,当去搜索个股的时候,除了个股F10的信息之外,还会有研报信息和新闻热点信息都可以在看板展示。在左下方,帮助个股构建了四类图谱,第一个是公司图谱,主要对企业内部,跟企业相关的高管、法人以及股东关系。
  产业链图谱,包括物流、家电、电商等。还有所处行业都会做展示。
  跟投资相关会比较关注热度,第一个就是情感分析,比如雪球指数、新浪、股吧。红色表示反向,蓝色表示中性,绿色表示正向。
  右边是情感走势,可以看到个股在每一个互联网平台热度的变化。这就是智能投研的知识图谱。
  今天的分享就到这里,谢谢大家。
  阅读更多技术干货文章、下载讲师PPT,请关注微信公众号DataFunTalk。
  分享嘉宾:张秋剑星环科技金融事业部总监
  整理编辑:程峰
  内容来源:AI先行者大会《金融知识图谱的应用与探索》
  出品社区:DataFun
  分享嘉宾:
  张秋剑,星环科技金融事业部总监。上海师范大学计算机科学技术硕士,资深大数据专家和金融行业技术专家。现任星环科技金融事业部总监,大数据技术架构行业顾问专家,云析学院发起人,AICUG社区联合发起人,曾在IEEE等期刊发表多篇论文。目前主要为银行、证券和保险等行业客户提供大数据平台及人工智能平台的整体规划和项目建设等工作。
  活动推荐:
  关于我们:
  DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章700,百万阅读,14万精准粉丝。
  欢迎转载分享评论,转载请私信。

京东31亿北京拿地1。6万元平2月9日消息,北京规自委发布的消息显示,北京经济技术开发区亦庄新城0303街区地块,被北京越新房地产开发有限公司斩获,成交价31。12亿元,成交楼面地价合15988元平米。……图赤壁之战谁败了华容道上定三国如果说三国的烽烟战火是中国历史上的国家分分合合的常态,那么赤壁之战却是这段历史中最为传奇的一笔。这一场弱者与强者对决,不但是勇者的胜利,更是智者的胜利。三国的峥嵘岁月,永……未来可期人工智能绘画让每个人都成为艺术家在过去的2022年,人工智能发展之快,有些超过了我们的想象。他们从处理信息过渡到了创造内容,这些内容和真人创造一样真实,难辨真伪。他们能完成撰写邮件、翻译、甚至写代码等任务(详……图魔方教程激发个人潜力开展自我智力魔方,是一种能够激发人的智力的一款游戏,又称鲁比克方块。魔方有很多种,有三阶的,四阶的,镜面魔方,钻石魔方等等。常年玩魔方的人往往记忆力和想象力会比常人丰富。魔方教程,以……图朱元璋和马皇后的别样爱情为何会如此器重马大脚熟悉明太祖朱元璋的人都知道他是位厉害的帝王,但他有个致命的弱点就是怕老婆。朱元璋的妻子名叫马秀英,是出了名的大脚,后人称她为大脚马皇后。朱元璋和马皇后可以说是患难夫妻,在……小孩教育花费大,一岁送去学唱歌,卷不动了开篇藏头诗:养花天气暖如烘娃女游丝百尺丰太液池头春雨足卷帘人在镜台风我就在一四线城市,最近孩子都陆续开学了,碰到一个奶奶推着车子走着,看下朋友一岁……图简笔画人物欣赏教你3个绘画技巧对画画感兴趣的你,是否觉得油画和素描都太难,觉得自己学不会。那么今天告诉大家一种比较简单的绘画方式,那就是:简笔画。相比于油画那些,它确实简单了许多。很多人喜欢绘画,但油……怎么给视频进行配音?我只用这两个方法怎么给视频进行配音?我们在制作一些动画或者视频的时候,需要给视频进行配音处理,以此来对视频画面进行解说。一段好的配音可以让视频质量更上升一个层次。平时我们在剪辑一些视频和vlo……猫眼石手镯为什么能够受欢迎nbsp戴上它原来有这些功效近些年,戴猫眼石饰品的人越来越多,原来猫眼石除了好看之外,还有很多意想不到的功效,对我们的健康非常有好处。在众多的猫眼石饰品中,很多人喜欢戴猫眼石手镯。自古以来,我国就是……巴西电商2023年最畅销的25种产品2023往前冲吧,电商人!〔给力〕〔点亮平安灯〕2023年互联网上最畅销的前10大产品从电子产品到家具,包括家用电器,这些是2023年互联网上最畅销的10种产品:笔……兰州市文旅局开展游你游我志愿服务活动中国甘肃网3月30日讯据兰州晚报报道为营造文明和谐、安全有序的旅游环境,引导市民及游客文明旅游,3月29日,兰州市文化和旅游局在黄河母亲风景区开展文明出行游你游我志愿服务活动。……大美中国壮美广西0327丨清明将至明前茶香柳州仲春时节,融水苗族自治县和睦镇古顶光伏电站的一排排整齐有序的光伏电路板与蓝天白云、绿水青山及村庄、竹林等景色相互映衬,构成一幅绿色能源春日图。通讯员龙林智摄桂林……
秦殇Steam中文版目前仍在审核中解锁时间待定前几日我们报道了《秦殇》简体中文版将于12月29日正式上线Steam,但截至目前,在Steam商店页面,仍显示着即将推出的状态。随后我们便咨询了游戏客服,据官方客服回应表……曝光暴雷挤兑导致QC脱钩的中币交易所如今宣布正式跑路了这个中币交易所我之前就预警过,因为它挤兑导致QC脱钩,有很大的风险,有很大的跑路的可能,提醒投资者小心,注意防范,及早收手。果不其然,如今这个中币交易所真的是跑路了。而且……中国古代四大美男子(四)今天我们来说一说中国古代四大美男子中的最后一位卫玠。卫玠出生于晋朝是曹魏尚书卫觊的曾孙、太保卫瓘的孙子。卫玠的名气没有前面几位高,但他是那个时期是著名的清谈名士和玄学家,……1分惜败揪出最大水货,双外援坑惨刘维伟,合砍14分拖吴前后腿9899,常规赛前四的浙江稠州金租,在季后赛首场比赛就吃到了开门黑,一分惜败卫冕冠军广东宏远。不得不说,这一组对决是四场系列赛当中,双方实力最为接近,双方打到最后一个回合才分出……有一种痛,叫口腔溃疡!牢记这几招,或能促进口腔溃疡愈合口腔溃疡是一种比较常见的口腔疾病,在日常生活当中,很多人们也都将口腔溃疡称之为口疮。对于曾经患过口腔溃疡的朋友们来说,都清楚地感受过口腔溃疡所带来的疼痛感,这种疼痛感发作时毫无……詹姆斯哈登助攻数超越科比布莱恩特北京时间3月26日,NBA继续进行,费城数字人做客继续洛杉矶挑战洛杉矶快船,目前,数字人以45胜27负排在东部第3位,快船以36胜38负排在西部第8位。本场比赛前,詹姆斯……15年后再看史依弘,才明白离开李成儒,是最正确的抉择爱一个人是如其所是。如果一味地让自己喜欢的人做出各种改变和让步来配合自己的需求,这是自私,与爱无关。阿姨,你怎么就看上我爸了呢?你这么精致一个人,他配不上你。……住建部发声定调,旧改全面来袭,20年以上的老房子又吃香了吗?根据国家统计局公布的数据显示,截至2021年我国平均房价为10139元平方米,依旧在万元以上。很明显可以看出,虽然2021年下半年全国平均房价出现了下跌,但是最终2021年底的……春天要多吃这两种食物!延年益寿明目强身二月春风送美食撰文王云编辑保健君春雷响万物长微雨众卉新,一雷惊蛰始3月5日迎来惊蛰节气是仲春到来的标志其时天气回暖,万物复苏是万……黑白配怎么穿才好看?学会风格搭配技巧,轻松穿出时尚感在之前的文章《黑色不是百搭色、万能色和高级色!真正适合你的黑色应该这样穿》中,有解析过黑色不是适合任何人穿的,黑色不是百搭色,只适合深色型人、净色型人以及冷色型人。同时,也有阐……3选1!火箭选秀分析,三位潜力新星,会带来不同的前景文水清清选秀抽签大会上,火箭得到探花签位,斯通会如何使用三号位选秀权呢?三位潜力新星得到其中任何一位,都会给球队带来不同的前景。本届四位潜力新秀魔术和雷霆分别……日常见肖战!白衣少年还没看够牛仔战又来了,居然还有睡衣大片自从电视剧《梦中的那片海》杀青之后,已经有一段时间没有看到肖战的动态了,以至于连狗仔拍的肖战独自吃火锅的高糊图都能引起网友的热议,可见网友有多希望看到战哥的消息。或许是粉……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网