一朝爆发?解读知识图谱和图数据库的 2018
甜梨
阅读数:1942019 年 1 月 16 日
知识图谱最初是由谷歌提出的,用来优化搜索引擎的技术。而本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
随着人工智能技术的发展和应用,知识图谱在学术界和工业界都得到了重视,如今在智能搜索、智能问答、个性化推荐、内容分发等领域均有应用。那么,为什么知识图谱时隔多年才有突然“爆火”?目前知识图谱和图数据库的发展如何?2019 年知识图谱和图数据库又会有哪些新趋势呢?
为什么我们现在才需要知识图谱?
事实上,知识图谱早在 2012 年就已经提出,但是直到 2017 年,我们才看到一些应用。为什么知识图谱需要这么长的酝酿时间呢?这是由多种因素造成的:
- 感知复杂性:虽然 RDF 在概念上很简单,但是在学术界常常评价 "RDF 产生的文件并不接地气,而且很难达成统一的意见。”
- 需要更改后端:如果要实现知识图谱可视化,那么就必须采用一种新的后端形式或者是图数据库,而这对于企业、用户来说就意味着风险、不确定性、数据复制和 ETL 等工作。
- 软件不成熟:目前市面上存在的图数据库都有很大的局限性,要么不能分布式,要么使用繁琐,要么两者兼有。
- 目光超前或者目光短浅:企业或者用户并没有找准知识图谱的应用场景,有些人试图在一些没有必要应用知识图谱的场景中应用,结果不尽如人意,导致知识图谱的应用失去原动力;而另一些人则相反,他们完全忽略了知识图谱的作用,坚定的认为任何特定的业务级问题都可以通过使用传统技术和特定的 API 得到解决。
随着软件的逐渐成熟和视觉技术的发展以及企业和用户对应用场景的探索,知识图谱才渐渐找到了适合自己的发展之路。
2018 年知识图谱和图数据库市场亮点满满
前文我们提到了知识图谱现在在多个场景中都有应用,主要集中在社交网路、金融保险、零售广告、传媒通信等行业。国内的知识图谱玩家大致可以分为两大部分,一部分是互联网巨头入局,例如现在已发布的阿里商品知识图谱、腾讯云“星图”、百度“知心”等,另一部分是创业公司,如果百分点、明略数据、文因互联等。
为了避免与 BAT 等大厂直接交锋,国内的知识图谱创业企业往往是以垂直领域作为切入点,一部分企业专注于单一垂直领域,如聚焦金融领域的文因互联、智言科技等,还有一部分企业是涉足多个垂直领域,例如主攻公安、金融、工业等领域的明略数据。
如果我们把目光放到知识图谱的国际市场,那么也有亮点可挖掘:
1)巨头玩家入局:Amazon Neptune 和 Microsoft Cosmos
2018 年 5 月,亚马逊正式宣布图数据库 Amazon Neptune 全面上市,同时支持两种图形模型(RDF 和 Gremlin)。虽然,时至今日 Amazon Neptune 还没有一些突出的性能数据和使用案例,但是“亚马逊”这块金字招牌无疑会给 Amazon Neptune 在技术和生态方面增色不少,众多企业和用户都对 Amazon Neptune 充满了信心。
2017 年,微软推出了多模数据库 CosmosDB,并在之后对其进行了一系列的增强,例如支持 gremlin 和其他访问 API。
2)中坚力量的成长:Stardog 和 OnToText
Stardog 和 OnToText 都是企业级知识图谱领域的中坚力量,在 2018 年这一年中,Stardog 通过 300 万美元的追加共获得了 900 万美元的 A 轮融资。Stardog 具备高度的灵活性和可重用性,可以统一所有企业数据,包括各种类型的数据库和数据源。
2018 年 Ontotext 发布了 GraphDB 8.7 版本,归功于新插件的应用,该版本中增加了对知识图谱概念匹配的支持,在性能方面实现了在单个数据库实例中托管存储库之间高效的查询联合。
3)新玩家的迅速崛起:Tiger Graph 和 Dgraph
2017 年底,Tiger Graph 宣布完成了 3000 万美元的融资。2018 年 Tiger Graph 推出了云托管服务,并且使用了一种新的查询语言 GSQL,GSQL 将 SQL 风格的查询语法与 Cypher 风格的图导航语法结合在一起,并加入了过程编程和用户自定义函数。
Dgraph 是一个完全分布式的图数据库,其创造者与 Freebase(现为谷歌知识图谱的核心)的创造者为同一人,目前遵循 Apache 2.0 开源协议。
4)开源多模 DB 的成长与智能化:Arangodb 和 OrientDB
ArangoDB3.4 版本令人印象深刻,其在本地集成了完整的信息检索引擎和地理查询功能,以补充其本地的关系和图形功能。目前,Arango 遵循 Apache2.0 开源协议,同时也附带了一种类似 SQL 的查询语言。而 OrientDB 是 SAP 的一部分,其发布的 3.0 版本,主要关注性能改进和 Tinkerpop3 支持。
5)著名知识图谱的发布:refinitiv 和 bloomberg)
2018 年,Bloomberg 宣布提供接入企业用户,企业服务以传统 CSV 提供,同时也支持使用基于 RDF 的格式。Refinitiv 是一个金融实体及其关系的策划知识图,扩展了公共可用的许可知识图。
6)发展趋势:知识图谱兴趣满满,而图数据库意兴阑珊
如果整体来看,2018 年知识图谱和图数据库都处于上升态势。
谷歌趋势也证实了 DB-Engines 的趋势,知识图谱在两年前开始了稳步增长,在过去的 12 个月中,知识图谱的热度增加了 34%。
不过这种热度并没有延续到图数据库中,2018 年图数据库的增长趋势较为平缓。
7)知识图谱的应用和图数据库的发展息息相关
从上文中,我们看到知识图谱和图数据库都在上升态势,二者息息相关。目前企业使用知识图谱或图数据库的主要疑虑就都集中在“复制数据”(也称为 ETL)或者使用新的后端替换原来的后端。所以,接下来图数据库需要大步前进了!
2019 年,知识图谱和图数据库还需要继续加油!
虽然知识图谱和图数据库的市场份额还不够大,但是它们正处在上升期,技术也在稳步前进中,而且知识图谱能在以更低的成本和风险在生产中实现收益,所以在 2019 年中,大家还是要持续关注知识图谱。
- 如果您之前应用过“知识图谱”或者是“图数据库”,并且遇到过坑,那么,2019 年您可能需要继续关注它们,也许您之前遇到的坑都被填平了;
- RDF 的优势在于其提供了一个共享图形的标准,在没有 RDF 存储的情况下,很难使用 RDF 制作出好的作品;
- 简单的属性图方法(Neo4j、Tiger Graph 以及所有多模 DB)更接近于 JSON、GRAPHQL,也是大家真正想要的东西。
- 知识图谱并不只是由“存储”构成,如果要是完全替换现有的生产系统也是不太现实的,所以我们可以考虑以下做法:
- 创建 GraphQL API,使企业应用程序能够以“知识图谱”的方式使用数据;
- 通过某种工具直接连接到后端,并查看数据中已有的知识图谱。
参考链接:https://dzone.com/articles/my-list-of-7-great-2018-advancements-in-enterprise