Linked Data

关联开放数据项目组织(LOD)发布的数据云图可以发现网络上发布的关联数据集在飞速发展(如图) 。关联开放数据云是一个全球分布的数据网络,实际上,它可以看作一个跨越整个网络的数据库。关联数据云是从2007年约4000万个三元组表示的12个数据集扩展到截至2014年8月的570个数据集(其中政府领域有136个数据集,大多集中在欧美发达国家),这些数据集之间通过2909个RDF链接在数据层面上相互联系在一起。关联数据云图中的节点表示发布的数据集,节点的面积越大表示数据集中包含的三元组个数越多。数据云图中的节点间的弧表示两个数据集之间存在至少50个RDF链接,弧线越粗表示数据集间的链接越多,双向弧表示两个数据集相互使用标识符。汉语翻译是关联数据。关联数据主张数据就像目前网络上文档共享的方式那样共享数据,可以使用户在基于关联数据规则的数据网络上创建混搭应用。关联数据的一个主要优势就是分布式,允许用户发布自己拥有的数据,并被其他用户发现和重用。网络用户代理如浏览器、搜索引擎可以识别这种组合的,为用户提供可点击的链接,或者直接跳转到所需的文档。正是这种有标准语法的链接方法使得网络上的文档相互关联。关联数据的本质就是模块化的,不需要协调和计划通过RDF链接把不同的数据集联系起来,使得扩展已发布的关联数据是比较容易地,即使数据的定义和结构可能随时间而变化。
基础资料
  • 推出时间:2007年5月
  • 目的:构建一张语义数据网络
  • 简介

    前言

    Linked data 最早是在 2007 年 5 月,由 Chris Bizer and Richard Cyganiak 向 W3C SWEO 提交的一个项目申请 Linked Open Data Project 中提出来的。Linked data 提出的目的是构建一张计算机能理解的语义数据网络,而不仅仅是人能读懂的文档网络,以便于在此之上构建更智能的应用。Linked Open Data Project 的宗旨在于号召人们将现有数据发布成 Linked data,并将不同数据源互联起来。在过去的三年中,越来越多的数据提供者和 Web 应用开发者将他们各自的数据发布到 Web 上,并且与其它数据源关联在一起,形成一个巨大的数据 Web。截止 2009 年 7 月,已发布的 Linked data 规模为 6.726.000.000 个 RDF 三元组以及 148.948.000 个 RDF 关联关系,相比 2007 年 5 月的 500 million RDF 三元组以及 120,000 RDF 关联关系,增涨非常迅速。其数据领域涉及 Geographic Data,Life Sciences,Publications,User Generate Content,Media 等等。不仅仅是 Public Web,随着企业 2.0 的到来,企业内部也迫切需要越来越多的数据与 Web 上的数据关联,从而构建更好的应用与服务。而现有的数据,尤其是企业内部的数据,大多数存在于关系型数据库中,因此,本文挑选了一个目前应用较为广泛的工具 D2R,介绍如何使用它将关系型数据库的数据发布成 Linked Data。

    定义

    简单来讲,Linked data 即为一系列利用 Web 在不同数据源之间创建语义关联的最佳实践方法。这里的不同数据源,可以来自一个组织内部的不同系统,也可以来自不同组织的不同系统,它们的内容,存储地点以及存储方式都可以完全不同,但它们很可能存在着关联,例如:Amazon 上图书可能与 MySpace 上的人之间可能存在关联,因为图书的作者有可能在 Myspace 上注册账号。总之,Linked data 最大的特点便是将不同的数据关联起来。

    Linked data 包含一些基本原则:

    资源。在发布一个领域的数据之前,我们需要确定要发布的资源是什么。任何事物,只要你认为是有意义的,有被引用必要的,都可以称之为资源。

    资源标识。任何一个资源都用一个 HTTP URI(Uniform Resource Identifiers)来标识。之所有要用 HTTP URI 来标识,是希望数据能够通过 HTTP 协议访问,真正实现基于 Web 的访问与互联。

    资源描述。资源可以有多种描述,例如 HTML,XML,RDF 以及 JPEG文档。 Web 的文档主要通过 HTML 格式来表示,数据 Web 的数据主要通过 RDF格式(Resource Description Framework)来表示。RDF 将一个资源描述成一组三元组(主语,谓语,宾语)。

    例如:

    王老师 教授 英语课

    (主语) (谓语) (宾语)

    主语用来表示需要描述的资源,谓语用来表示主语的某个属性(例如:姓名,出生日期)或者某个关系(例如,雇佣,认识,教授等),宾语表示了属性的值或者关系的值。主语,谓语都需要要用 HTTP URI 来表示。宾语可以用 HTTP URI 标识另一个资源,也可以是字符串表示的文本。我们可以把主语看作是类资源,而将谓语看作是类资源的属性资源,宾语或者是类资源或者是文字型资源。根据宾语的种类,可以将三元组分为两类:文字型三元组以及非文字型三元组,第二种可以看作是类资源之间的关联。

    不管是HTML还是RDF,以下的关联数据四原则使得Web蓬勃发展:

    1、把URI当作东西的名字使用

    使用 URI 作为资源的标识,即网络上的任何事物或资源的标识 名称,如 HTML 文档、科研人员、国家等,都使用 URI 进行标识和定位,用于帮 助用户更直接的获取资源。

    2、为了让人们可以查找这些名字,使用HTTP URI。

    使用 HTTP URI 来标识资源,在网络环境下,数据 资源能够通过 HTTP 协议访问获取,真正实现基于 Web 的访问和互联

    3、当某个人查找某个URI的时候,以规范的标准(RDF, SPARQL),提供他有用的资料。

    当某个人查询一个 URI 时,使用 RDF 提供与当前资源相关的其他有用信息,为用户提供更 多有价值的关联资源。

    4、在提供他的资料里,给他指到别的URI的连结,使他可以发现更多东西。

    与更多相关资源的 HTTP URI 建立语义链接,提高用户 发现、获取和使用网络中潜在的相关信息资源的能力。

    应用

    1、政府部门

    在 2013 年美国环保署以 Callimachus 为主机,把拥有的数据发布为关联数据。这些数据包括美国环保署所管理的 130 万设施的数据信息,内容涵盖了干洗设备 到核电厂的设备的所有信息以及过去 25 年有毒化学物质排放报告。这些数据信息 通过链接与化学物质数据库、OpenStreetMaps、 DBpedia 等网络数据库的相关内 容关联起来。

    2、医疗健康

    Sentara 是美国一个区域性的医疗机构,它通过使用 Callimachus 开发了“天气 和健康”的 web 与手机应用程序。这个应用程序聚合了来自美国国家医学图书馆、国家海洋和大气局(NOAA),美国环境保护署和 DBpedia 的相关数据,通过为患者提 供有效的实时相关信息,更好地应对慢性病提高医疗效果,进而减少卫生保健不 必要的浪费

    首页
    科技
    #贵族
    最新入驻
    贾科莫·普契尼
    Caroline Lufkin
    翁建宇
    相关阅读
    RDMA
    内容词条·4417人浏览
    遥控车牌架
    内容词条·1290人浏览
    美时通
    内容词条·2359人浏览
    车牌固封装置
    内容词条·3268人浏览
    铲齿车床
    内容词条·7135人浏览
    仿形车床
    内容词条·1309人浏览
    • 网站地图
    • |

    Copyright 2023 fuwu029.com赣ICP备2022008914号-4