百度6月起全面实施实名制 搜索服务不强制要求

摘要:日前,百度发布公告称,应国家法律要求,6月1日起使用互联网服务需进行账号实名,用户必须绑定手机号完成验证。百度强调,搜索服务并不强制要求在登录百度账号的情况下使用。

蓝鲸TMT 刘敏娟

日前,百度发布公告称,应国家法律要求,6月1日起使用互联网服务需进行账号实名,用户必须绑定手机号完成验证。

此前,百度可以通过邮箱和手机号码来注册,而目前百度已经禁止使用邮箱注册账号。用户只能通过国内手机号注册。如果不绑定手机号实名认证,账号将在6月1日后被限制登录。

对此,百度今日回应称,账号实名是为配合6月1日起施行的《中华人民共和国网络安全法》,百度在内的网络服务提供方都必须在此日期之前,配合完成用户享受相关服务前的实名认证过程。

同时,百度强调,百度的搜索服务并不强制要求在登录百度账号的情况下使用,因此这项要求不会对网民使用百度搜索带来直接影响。

附百度关于账户实名制认证公告全文:

亲爱的百度用户:

近期,部分用户在使用多个百度产品时,看到了建议进行账号实名认证操作的提示,这是根据即将于6月1日正式施行的《中华人民共和国网络安全法》第二十四条的规定要求实施的:

网络运营者为用户提供信息发布、即时通讯等服务,在与用户签订协议或者确认提供服务时,应当要求用户提供真实身份信息。用户不提供真实身份信息的,网络运营者不得为其提供相关服务。

根据这一要求,包括百度在内的网络服务提供方,都必须在此日期之前,配合完成用户享受相关服务前的实名认证过程。事实上,很大部分的百度用户已经完成了实名认证的操作,并享受到了更优质、更有保障的网络服务。针对少数尚未满足实名认证要求的用户,我们会在大家登录百度相关平台进行相关服务使用操作时,清晰地引导您通过手机验证等便捷的方式快速完成实名制认证。

当然……

1、大家使用最多的百度搜索服务,并不强制要求在登录百度账号的情况下使用,因此这项要求不会对网民使用百度搜索带来直接影响。

2、为了大家在多个百度产品平台间转换时能更便利地获得服务,建议用户在实名认证后也在登录状态下使用百度搜索,以获得更个性化、更安全、更高效的网络服务。比如为您个性化定制的首页资讯服务,以及在登录后才能享受“百度网民权益保障计划”的保护。

“百度网民权益保障计划”由百度与中调协联合发起,网民登录百度账户点击搜索推广或带有V标识的结果,如因假冒官网、资质或钓鱼欺诈而蒙受经济损失,网民可向百度申请保障。

3、用户在账户实名认证后将享受更高等级的安全保护。我们将通过敏感数据加密存储、监控多层防御等技术手段和代码层面多重审计、安全测试等服务规范确保百度用户个人、企业信息得到有效保护,守卫您的信息安全。

如果用户在6月1日前未完成实名认证操作,在后续使用百度部分产品中发布信息、评论等相关功能时将可能受到限制,为确保您继续获得优质的服务体验,我们建议大家尽快完成实名制操作(为您的百度账号绑定一个手机号即可)。

虎博科技 获高榕资本投资 借助AI提供金融信息搜索服务

铅笔道获悉,6月5日,人工智能金融信息搜索引擎研发商“虎博科技”完成过亿人民币Pre-A轮融资,由新创建集团、高榕资本领投,新鸿基公司跟投。虎博科技致力于打造新一代的人工智能金融信息搜索引擎

虎博科技成立于2017年7月,是一家AI技术驱动的科技公司,将人工智能和深度学习等世界级领先技术应用于金融等行业。其产品面向C端用户,既包括金融机构相关从业人员,也包括广大个人投资者。

虎博科技创始团队在业内颇有盛名。创始人陈烨曾任美团点评高级副总裁,分管集团广告平台,助力集团年广告收入从千万提升至数十亿元。在此之前,他曾在美国的Microsoft、eBay和Yahoo担任主任科学家和研发总监等职位,成功实施过多个深具业界影响力的人工智能系统。联合创始人John Canny是麻省理工学院计算机专业博士,加州大学伯克利分校计算机系教授。

区别于传统金融信息平台的产品形态,虎博科技通过深度学习、自然语言处理等技术,提供一问一答、一键秒回的金融信息智能搜索,提供精准、实时的金融信息。虎博科技站致力于站在人工智能的最前沿,通过技术驱动和颠覆性的产品设计大幅度提升分析师获取数据和信息的效率,降低普通个人投资者获取专业知识的门槛。

编辑 |南柯

优质项目“融资首发绿色通道”:创业者请加微信F2358974923,务必注明项目名称;或发送BP至fuwenxue@pencilnews.cn。

如需转载文章请联系铅笔道微信客服号:铅笔道大芯芯(微信id:qianbidao2017)获取授权资质,否则我们将依法追究相关责任。

中国搜索 政务搜索服务平台 上线

新华社北京1月22日电(记者高亢)记者从中国搜索获悉,中国搜索22日在京正式发布了“政务搜索服务平台”。平台将依托大数据和人工智能技术,助力电子政务智能化创新。

互联网快速发展,政府网站已成为信息化条件下政府同群众密切联系的新桥梁、打牢政府施政民意基础和社会基础的新渠道、网络时代政府履行职责的新平台。面对智能化、移动化、数据化的互联网新浪潮,如何提升智能化水平,更好服务群众和企业成为电子政务发展的新课题。

据中国搜索副总裁邵军介绍,中国搜索“政务搜索服务平台”是一套搜索引擎智能解决方案,能够对政府网站内文字、图像、音频、视频等数据进行高效安全的站内搜索服务。平台充分发挥大数据、智能化技术积累,支持基础搜索、搜索直达、高级搜索、运营管理、内容过滤、敏感词过滤、黑名单管理、系统监控、日志统计分析、权限管理等一体化全业务功能。

据介绍,平台从今年1月起开始全面试运行,将推出基础会员服务,对各级政府网站全部免费,对贫困地区政府网站提供全程技术辅导和定制开发服务。

“随着政务搜索服务平台的普及,有望促进‘群众少跑腿、信息多跑路’,不断提升各级政府网站建设集约化、管理规范化、服务便利化水平。”邵军说。

据了解,中国搜索是新华社、人民日报、中央电视台、光明日报、经济日报、中国日报、中国新闻社等七家主流媒体共同打造的媒体平台,也是主流媒体主办的唯一搜索引擎。(完)

百度回应网信办搜索服务规定:加强自身管理 欢迎网民举报

新浪科技讯 6月25日上午消息,国家互联网信息办公室6月25日发布《互联网信息搜索服务管理规定》,国家互联网信息办公室有关负责人表示,出台《规定》旨在规范互联网信息搜索服务,促进互联网信息搜索行业健康有序发展,保护公民、法人和其他组织的合法权益,维护国家安全和公共利益。百度方面其后向新浪科技发表针对《规定》的回应:百度搜索将切实依照网信办相关法律法规加强自身管理,同时欢迎广大网民随时监督举报。

百度方面还表示,网民通过百度搜索到不良互联网信息,可进入百度用户服务中心http://help.baidu.com进行投诉,我们将及时予以处理。面对当下互联网信息存在的海量冗杂、良莠不齐等问题,百度将致力于与政府机构、广大网民以及社会各界共同努力净化网络环境,坚持为网民提供客观、公正、权威的搜索结果。

国家互联网信息办公室有关负责人介绍,搜索引擎在对网上信息进行整合、方便用户查阅方面发挥了重要作用,但同时也存在不少问题。部分搜索结果含有谣言、淫秽、色情、暴力、凶杀、恐怖等违法信息;部分搜索结果有失客观公正,违反行业道德和规范,误导和影响公众判断。这些问题破坏了网络生态,扰乱了互联网信息传播秩序,侵害了公众利益,广大网民深恶痛绝,呼吁尽快出台信息搜索服务的有关管理规定。

今年5月,因为青年魏则西死亡事件,百度一度被推上舆论的风口浪尖。其后,网信办联合多部委入驻百度进行调查,并约谈了百度董事长李彦宏。在多部委入驻检查并下令整改后,百度于今年5月24日宣布整改完成。

百度搜索整改结果为:1)新上线页面在推广信息数量、商业推广标识等方面均做出重大调整。2)严格限制商业推广数量 所有页面均低于30%,即每页不超过4条推广广告。3)下线2518家医疗机构 撤除疾病搜置顶推广。4)加强资质审核标准。目前,百度在中国占据了70%以上的搜索市场份额。

值得一提的是,国家网信办此次还表示欢迎网民的监督检举,并公布了举报渠道:互联网违法和不良信息举报中心网址:www.12377.cn,举报电话:12377,举报邮箱:jubao@12377.cn。(李根)

百度回应网信办搜索服务规定:加强自身管理 欢迎网民举报

新浪科技讯 6月25日上午消息,国家互联网信息办公室6月25日发布《互联网信息搜索服务管理规定》,国家互联网信息办公室有关负责人表示,出台《规定》旨在规范互联网信息搜索服务,促进互联网信息搜索行业健康有序发展,保护公民、法人和其他组织的合法权益,维护国家安全和公共利益。百度方面其后向新浪科技发表针对《规定》的回应:百度搜索将切实依照网信办相关法律法规加强自身管理,同时欢迎广大网民随时监督举报。

百度方面还表示,网民通过百度搜索到不良互联网信息,可进入百度用户服务中心http://help.baidu.com进行投诉,我们将及时予以处理。面对当下互联网信息存在的海量冗杂、良莠不齐等问题,百度将致力于与政府机构、广大网民以及社会各界共同努力净化网络环境,坚持为网民提供客观、公正、权威的搜索结果。

国家互联网信息办公室有关负责人介绍,搜索引擎在对网上信息进行整合、方便用户查阅方面发挥了重要作用,但同时也存在不少问题。部分搜索结果含有谣言、淫秽、色情、暴力、凶杀、恐怖等违法信息;部分搜索结果有失客观公正,违反行业道德和规范,误导和影响公众判断。这些问题破坏了网络生态,扰乱了互联网信息传播秩序,侵害了公众利益,广大网民深恶痛绝,呼吁尽快出台信息搜索服务的有关管理规定。

今年5月,因为青年魏则西死亡事件,百度一度被推上舆论的风口浪尖。其后,网信办联合多部委入驻百度进行调查,并约谈了百度董事长李彦宏。在多部委入驻检查并下令整改后,百度于今年5月24日宣布整改完成。

百度搜索整改结果为:1)新上线页面在推广信息数量、商业推广标识等方面均做出重大调整。2)严格限制商业推广数量 所有页面均低于30%,即每页不超过4条推广广告。3)下线2518家医疗机构 撤除疾病搜置顶推广。4)加强资质审核标准。目前,百度在中国占据了70%以上的搜索市场份额。

值得一提的是,国家网信办此次还表示欢迎网民的监督检举,并公布了举报渠道:互联网违法和不良信息举报中心网址:www.12377.cn,举报电话:12377,举报邮箱:jubao@12377.cn。(李根)

七麦科技挂牌新三板 成为移动应用搜索服务第一股

北京七麦科技股份有限公司在新三板挂牌上市,成为新三板移动应用搜索服务第一股。七麦科技旗下ASO100.COM,是专业的移动推广数据分析平台,支持PC、WAP、微信三平台无缝体验,提供全面的应用市场数据,搭建“竞品对比跟踪”、”关键字模拟分析”、”ASO排名分析”等高阶数据平台。

来源:创业邦

看见女客户洗澡怎么办?

一家世界著名的大酒店招聘经理,前来应聘的人非常多,老板想考考他们:“有一天当你走进客人的房间,发现一女客正在裸浴。你应该怎么办 ?” 众人都举手抢着回答,有的说“对不起,小 姐,我不是故意的。”有的说“小姐,我什么都没有看见。” 老板听后不停的摇头。 这个时候一个帅气的小伙子说了一句话,当场被录用了。你知道他说了什么吗?

你想到了吗?

打开微信,关注微信号:jrjnews2013,回复“洗澡”就知道答案啦

告诉你一个搜索服务优化方案 基于RDF的知识图谱管理

编辑|陈思 Natalie

2010 年 Google 利用知识图谱优化了其搜索服务以来,知识图谱得到了迅速发展。无论是工业界还是学术界,都出现了各种各样的知识库。为了灵活共享知识图谱,使其具有一定可读性,同时保证机器也能够方便理解知识,事实上,大部分开放的知识图谱,都是以 RDF 形式对外开放。那么什么是 RDF?RDF 有什么优点?我们整理了来自明略数据的 SCOPA 技术顾问邵蓥侠老师在大数据杂谈微信群做过的的分享:基于 RDF 的知识图谱管理,希望可以为你解答这些问题。

大家好,我是来自明略数据的邵蓥侠。今天我跟大家分享的主题是基于 RDF 的知识图谱管理。本次分享主要包括三部分内容,分别是 RDF 的基础概念、RDF 的查询技术和 RDF 的存储技术。

RDF 的基础概念

在具体介绍 RDF 相关的内容之间,我们先简单介绍下知识图谱与 RDF 之间的关系。从 2010 年 Google 利用知识图谱优化了其搜索服务以来,知识图谱得到了迅速发展。无论是工业界还是学术界,都出现了各种各样的知识库。

上图展示了多个典型的代表,例如 Yago,freebase,DBpedia,musicBrainz,pubMend 等。这些知识图谱为各类智能应用带来了大量结构化知识,像 Google 的 knowledge graph 包含 700 亿个事实 (facts)。

为了灵活共享上述知识图谱,使其具有一定的可读性,同时保证机器也能够方便理解知识,事实上,大部分的开放的知识图谱,都是以 RDF 形式对外开放。

以 DBpedia 为例,其官方文档里有这么一段话,“DBpedia 以 RDF 作为一个灵活的数据模型用来表示抽取的信息,并发布到网上”。下图展示了 DBPedia 知识库中以 RDF 表示的知识样例。

RDF 全称为 Resource Deion Framework,即资源描述框架。它最初是在语义网背景下设计出来,以三元组形式描述资源的一种数据模型。简单地,可以把 RDF 数据模型与关系数据库中的 Entity-Relationship 模型,或者面向对象语言中的类图等概念进行类比,都是对数据的一种抽象描述。

右图描绘出了 RDF 在整个语义网络技术栈中所处的位置,从中可以看出,RDF 主要负责数据交换,并通过 RDFS 能让机器理解网络中的数据真正的含义,而不仅仅是简单的字符串。

接下来介绍 RDF 相关的基础概念,也包括为什么是 RDF,RDF 的结构和基于 RDF 的知识表示等三部分。

什么是 RDF?

首先,从 RDF 的命名我们可以清楚的理解 RDF 的内涵。

  • R 代表 Resource,即资源,任何可以被唯一标识的对象,都可以称为资源。例如,网页、地点、人、事件、餐馆等;

  • D 代表 Deion,也就是说对资源的描述,包括资源属性的描述和资源间关系的描述;

  • F 则是指 Framework,即 RDF 为资源描述提供了描述的语言和模型。

举个具体的例子,为了让机器知道“哈利波特的作者是 JK 罗琳”这个事实,RDF 则提供了一套语言和模型来描述哈利波特是一本书,JK 罗琳是一个人,两种之间是被创作关系等。综上,RDF 就是一套为描述资源属性和关系提供语法和模型的框架。

RDF 结构

RDF 为描述资源提供的基本元素有 IRI,字面值和空节点 (blank node)。IRI 就是一个符合特定语法的 UINICODE 字符串,如

2019/20190426A/F0114368 ,

跟 URL 的形式比较类似。其实 URL 属于 IRI 的一种。

字面值可以理解为像时间、人名、数字等常量的表示,由字符串和表示数据类型的 IRI 构成。例如数字 1 的字面值可以表示为”1″^^xs:integer,其中 xs:integer 是表示整型数据类型的 IRI。

空节点是指没有 IRI 的匿名节点。一般是 RDF 内部使用的一个特殊结构,不可被引用。

RDF 中对资源的一个描述称为陈述 (statement),一般用 Subject-Predicate-Object(SPO) 三元组 (triple) 表示。

其中,subject 的取值可以为 IRI,blank node; predicate 取值为 IRI,object 的取值则是 IRI,blank node 和 predicate。

例如,“a person named Eric Miller”在 RDF 中基本形式为 (xs1:me, xs2:fullName, “Eric Miller”)。

一个 RDF 数据集由一组相关的三元组的组成。由于这个三元组集合可以抽象为一张 graph,因此也称为 RDF graph。

右图展示了一个简单的 RDF graph,记录了一个名叫 Bob 的人的出生年月、他的朋友和他喜欢的名画信息。对应的 RDF 三元组位于下方。

之前我们也看到了一些三元组的各种表示形式,下面具体介绍 RDF 几种重要的序列化表示形式,这些形式一来可以用于数据交换,二来也保证了可读性。

首先介绍 RDF 基于 XML 的表述语法,RDF/XML 语法是目前唯一个符合 W3C 标准的语法。

右图是一个简单的例子。为了避免数据中频繁出现冗余的字符串,一般可以定义一个简写的前缀表示形式,如这里的 xmlns:cd 表示 http://www.recshop.fake/cd#。

接下来每一个资源对应一个 < rdf:Deion > 标签,其中 rdf:about 给出了该资源的 IRI,也是三元组中的 subject。

< rdf:Deion > 标签里的其他子标签分别对应着 predicate 和 object. XML 形式紧凑,从图模型的角度分析,它是以顶点为基本单元进行 RDF graph 的描述。

另一种,流行且更常用的格式是 turtle 格式,它是 RDF 1.1 中的标准语法。Turtle 中直接以三元组形式进行表示,三元组中的 subject,predicate,object 之间用空格隔开,用”.”表示一个三元组的结束。

但是,为了对于同一个 subject 的三元组进行简化表示,允许 subject 的省略,同时三元组的结尾用”;”表示省略的 subject 同上一个三元组。

上一页中以 XML 表示的例子可以简化为如右图所示的 turtle 形式。相比与 XML 语法,省略了大量标签语言,使得文件内容更加简洁。

另外,还有两种表示形式,分别是 N-Triples 和 N-Quads。N-Triples 是 Turtle 的简化版,去掉了 Turtle 中的高级语法,一行就是一个 triple,没有简写的格式。因此,能够处理的 Turtle 的 parser 同样能够接受 N-Triples 的数据格式。

而 N-Quads 则是在三元组的基础上增加了一个维度,成为四元组。新增加的维度表示 graph name,即元组所属的 RDF graph 的名称,这就能够进一步区分 SPO,有利于进行数据融合和管理。

RDF 知识库构建

有了上述不同表示形式,那么接下来就是如何将文本数据或者是现实世界中的知识表示成 RDF 数据。这就需要 RDF 字典,即一般所说的数据的 schema。

例如,用 RDF 描述一本书,RDF 字典就需要定义一本书需要包含作者、书名、页数、出版时间、语言类型等。RDF 字典定义了数据建模的元数据项,这些元数据项主要包括两种类型 class 和 property。

Class 是指对象实例的集合,可以理解为面向对象编程里的 class;Property 还分为两种子类型:一个是表示 class 的属性 (attribute),另一个是表示多个 class 之间的关系 (relationship)。

另外,RDF 字典的定义自身也是一个 RDF graph。这也是说明 RDF 是自描述的数据模型,是一种 schema-free 的数据模型。

这张图清楚的展示了 class,attribute 和 relationship 三者之间的关系。第一层中的元素是 class,如 RegisteredOrganisation 和 Addrees;第二层则是 class 对应的实例,而实例之间的 site property 即为 relationship,地址实例 http://example.com/site/1234 的 fullAddress property 则是属性 (attribute) 类的 property. 简单的理解,一般情况下 attribute 类型的 property 的 object 是字面值;而 relationship 类型的 property 的 object 也是一个 IRI。

有了完整的 schema,用户可以方便的将现实中的知识映射成 RDF graph. 通过复用 RDF schema 有利于数据的开放共享,同时避免重复劳动。目前为止已经有许多定义好的 RDF 字典,不过英文的居多,例如 FOAF,schema.org 等。这个 2019/20190426A/F0114369 网站专门汇总了互联网上公开的 RDF 字典。

从去年开始,国内也开始关注这块内容的标准化,出现了 cnschema。Cnschema 主要针对 schema.org 进行翻译,同时结合中文特点进行定制和扩充,形成可复用的符合中文事实的知识图谱的数据字典。 通过复用 RDF 字典可以大大降低知识图谱构建的成本,同时也有利于形成数据的标准化。

当然,在现有的 RDF 字典无法满足我们的实际需求的时候,可以结合 RDF schema 和 OWL 两种语言进行字典的自定义。下图给出了一个样例,我们自定义了一个 PublicService 类。

RDF 的查询技术

目前,我们简单地介绍了 RDF 的基本概念、表示方法以及构建思路。接下来将介绍如何对构建好的 RDF 进行查询。本部分主要介绍 SPARQL 语言以及一些用户友好的查询思路,比如使用自然语言查询。

SPARQL 是针对 RDF 数据进行结构化查询的语言,类似于关系数据模型上的 SQL 语句,不同的是 SPARQL 查询中以 Triple Pattern 为基础构造查询条件,而不是针对行列的限制。自 2008 年 1 月起,SPARQL 也成为了 W3C 的标准。SPARQL 的提出一定程度上简化了 RDF 数据的访问,也为 RDF 的管理提供了一个统一的入口。

SPARQL 中查询类语句主要包括四种,分别是 SELECT,DESCRIBE,CONSTRUCT,AKS。

  • SELECT 是从 RDF 中选择出满足条件的资源或者属性;

  • CONSTRUCT 则是根据条件获取满足条件的 Triple 并以此生成一个新的 RDF 数据集;

  • DESCRIBE 则是获取用户输入的资源的所有属性描述;

  • ASK 则是 SELECT 的优化版本,它只检查是否存在满足条件的资源或者属性,但不需要全部找出。

另外,在构造查询的条件时,类似 SQL,可以使用常见的关键词对操作进行限制,比如 FILTER,OPTIONAL,LIMIT,ORDER BY 等。

这里我们展示了 SPARQL 查询的一个样例,“找出所有实体的 legalName”。

首先,与 RDF 序列化格式类似,为了简化书写,我们可以定义 IRI 的前缀,然后再书写具体的查询语句。

SPARQL 中查询的变量用“?<字符串>”的形式表示。

SELECT 关键词表示语句类型,其后跟着的事具体需要查询的变量,

WHERE 语句中则是具体的查询条件。

在 SPARQL 中,查询条件由 Triple pattern 定义。Triple Pattern 的书写格式类似 RDF 的 N-Triple 的格式,把未知的 SPO 用变量替代,其他元素即为 IRI,字面值和空节点。

接下来,我们来看看 SPARQL 查询的逻辑模型。

由前面关于 RDF 的介绍可以知道,RDF 数据集是一个 RDF Graph,即一个带标签的有向图。

WHERE 条件语句中的 Triple pattern 也对应了一个含有变量信息的 RDF graph,那么 SPARQL 查询问题就转化为了一个图模式匹配问题。

这里展示了一个具体的例子。左图是用 SPARQL 语句表示的“查询 card:i 认识的人的主页”,右图则是对应的一个模式图。

图模式匹配的算法根据不同的数据物理存储模型,具体的解决思路有两种。第一种是以图模型为基础的执行,就直接利用图操作解决图模式匹配问题;第二种则是以关系代数为基础的执行,利用 join 操作解决图模式匹配问题。具体的 RDF 存储思路再后续章节中介绍。

下面我们再来看看 SPARQL 的一些不足。

虽然 SPARQL 提供了一种结构化的查询接口,看似能够像 SQL 语句一样简洁,为 RDF 数据的管理带来真正灵活方便的接口。

然而,现实是残酷的。由于 RDF 是一种 schema-free 的数据组织方式,一个公开的 RDF 数据集涉及的数据字典往往规模庞大,命名复杂。

例如,Freebase 中就包含至少 7000 种关系。这直接提升了 SPARQL 的书写难度,是因为 SPARQL 在执行过程中,需要精确匹配这些字典和 IRI。

这里也有个例子,“查询 Godfather 这部电影的导演的其他作品”,左图是用户习惯书写的格式,而右图是在 dbpedia 上系统能够正确识别的查询。

两者虽然结构相似,但是使用的 IRI 的表述十分不同。实际要熟练快速的编写 SPARQL 语句,不仅要了解其语法,而且要对处理的 RDF 中使用的数据字典足够清楚。

为了解决这个问题,提升 SPARQL 的易用性,现在有不少研究工作期望提出用户友好的查询。让用户以更加简洁清晰的方式表达查询,系统自动的将其转化为标准的 SPARQL。这里举三个例子。

第一个是类 SPARQL 的查询。类似上一页 PPT 中图片所示,用户以 SPARQL 形式书写一个使用非标准数据字典的查询,系统通过匹配模型,自动的将相关表述映射到标准的数据字典上,这就避免了记忆大量数据字典的难题。

第二个工作则是基于 Example 的查询。很多时候,当查询 RDF 的知识图谱时,用户已经拥有几个预期的答案,想找到更加完整的答案集合。基于 Example 的查询则是通过收集用户预期的答案和不断的迭代最终推测出用户真正的查询,从而把其他满足条件的结果返回给用户。

第三个则是基于知识图谱问答系统常用的交互接口之一,即用户直接以自然语言形式输入查询条件,系统通过自然语言理解技术将非结构化的查询转化为 SPARQL 查询。上述三个工作都是对现有 RDF 查询技术的探索,期望能够找到更加用户友好的方式去使用 RDF 数据。

RDF 的存储技术

最后跟大家分享下,为了保证 RDF 的查询效率,如何设计相关的存储方案。

RDF 的存储方案主要有两大类:其一是基于 RDBMS 的存储方案,典型的系统有 Bhyper,Graphium RDF;另一个则是原生 (native) 的存储方案,根据 RDF 的数据访问特点而专门设计的存储方法。

第二类方案进一步可以分为以图数据模型为基础的存储方案和自定义数据存储格式的方案。前者的代表系统有 Trinity.RDF,Virtuoso.RDF;后者有 RDF3x,Hexastore,Jena TDB。

经典的基于 RDBMS 的存储方案其发展过程可以分为两个阶段:在早期,人们把 RDF 中的 Triples 当做一张完整的只有 SPO 三列的大关系表,并直接存储于像 MySQL,Postgresql 等 RDBMS 系统。

此法的优点是元组数据更新快,数据库 schema 简单,但不足是无法高效支持 join 操作,使得复杂的查询性能不佳。

后来,有研究人员将 RDF 中的 Triple 根据其 Predicate 值分类,将 predicate 一样的数据存储于同一个关系表,称为属性表。

此设计方案,在给定 predicate 值时,查询 subject 和 object 十分高效,但是数据库的 Schema 难以维护,数据库表的数目与 predicate 的种类成线性增长。

2008 年,Weiss 在前人的基础上,对上述方法进一步优化,主要是通过建立索引的方式来加速不同查询的效率。

作者根据 RDF 三元组的限制,对 SPO 的排列组合进行枚举,建立了 6 个索引,同时为每个索引中存储部分元组的统计信息加速查找。

此法的优点是 6 个不同的索引使得不同的查询模式可以选在不同的查询策略进行优化,缺点是直接利用 RDBMS 中的索引机制失去了针对 RDF 数据访问特性的细粒度优化的机会。

针对这些问题,Weikum 在 08 年提出了基于原生的数据存储格式的 RDF 管理系统,RDF3x。

作者根据 RISC 架构的设计思想,重新设计 RDF 管理系统,并开发了多个针对 RDF 的优化技巧,使得 RDF3x 成为当时单机性能最好的 RDF 管理系统。

RDF3x 沿用了传统数据库的查询优化思路,对用户的查询先通过优化器找到一个合适的执行计划,具体的 join 的顺序,然后再执行查询获得结果。

另外,RDF3x 采用了精心设计的多种索引结构来减少外存的 IO 操作,提升查询性能。

首先,RDF3x 将 RDF 中的一个 Triple 视为基础元素,把它作为一行数据进行存储。

其次,为了降低存储空间,提高访问效率,将 RDF 中的字符串统一映射为数字 ID,形成字典表。

最后,设计了 15 个压缩的聚集 B+-tree 索引。其中,6 个 SPO 排列组合的索引,支持完整的三元组的查找;6 个 2 维度的索引,支持部分元组信息和统计信息的快速查找,以及 3 个 1 维度的索引。Triple 在索引中以字典序进行管理,利用 merged join 可以进一步减少 IO 操作。

此图展示了 RDF3x 中对三元组的存储样例。一个原始的 RDF 数据集转化了一张字典表和一个 Triple 表。

此图展示了 RDF3x 中的 15 个索引 (左侧绿色的三角形)。每一个都是对一个特定模型的进行索引的压缩的 B+ 树。另外,为了实现数据集的更新,利用差分的方式对索引进行更新。

最后,介绍一个以图模型为基础的进行管理的分布式 RDF 存储系统,Trinity.RDF。

此系统是 MSRA 基于其内部的图数据库 Trinity 开发的一个分布式 RDF 存储引擎。

它把 RDF 作为带标签的有向图利用图划分技术分布式地存储于内存云中,具体的管理方式可以参考 Trinity 的技术文档。

在执行 SPARQL 查询,为了避免 join 操作,利用图的节点扩展的操作进行图模式匹配。

本系统主要通过减少中间结果规模及降低通信量来保证系统的查询效率。

右图展示了该系统中具体的分布式查询流程,当用户提交查询时,首先通过 String 服务器,将查询涉及的 IRI 映射为数字 ID,然后结合 RDF 的划分情况,利用代价模型,对 SPARQL 中的查询模式图进行合理切分,生成分布式的执行计划,交给 Trinity 的 worker 进行分布式的查询。

本次分享主要介绍了 RDF 在管理知识图谱方面的基本概念和技术。RDF 是目前开发知识图谱的常用序列化形式;SPARQL 作为 RDF 的标准查询语言,对于用户而言仍然不够十分友好,需要探索更加简洁方便的查询方式;针对 RDF 的存储,基本思路有基于 RDBMS 和基于 native 等两种存储方案。每一种方式都有各自的优缺点,需要根据实际情况进行选择。

问答环节

想问一下邵老师,现在开源的 RDF 存储数据库和 SPARQL 查询引擎都有哪些?有什么可以推荐的吗?

答:开源的单机 RDF 数据库推荐使用 Virtuoso.RDF 和 Jena,分布式的话,推荐北大 zou lei 老师团队开发的分布式 RDF 存储系统。

感谢分享,使用自然语言进行友好查询的优化方法同样适用于 neo4j 吗?

答:同样适用于 neo4j,但是 neo4j 的 cypher 查询语言没有 SPARQL 那么标准。对于自然语言转化出来的结构化信息到 cypher 的转换的方法需要重新设计。NLU 这块的工作是相同的。

RDF 现在存储的数据库通过今天的讲座听来是比较有限的,除了刚提到的还有其他的数据库么?

答:RDF 数据库其实很多,但是多数确实是学术界的产物。公开的成熟的不像 RDBMS 那么多。目前推荐尝试使用的是 virtuoso。

索引的问题,索引占据的空间是原数据的数倍,索引的查询有没有可能使用 ElasticSearch 而不是自己搭建 native 的系统?

答:RDF3x 从研究成果来看,通过压缩以后,索引空间与实际数据相当。使用 ES 肯定是一种方式,现在有集群资源的情况下,通过优化 ES 也可以获得不错的查询性能。

RDF 的数据库系统的数据灌入感觉是一个巨大的工程,这方面有什么解决方案没?

答: 数据灌入确实是个问题,目前我了解的并没有特别好的通用的方法。

明略采用 RDF 的 entity 和 edge 的数量级是多少?有一些问题:为什么不考虑类似 neo4j,OrientDB,Titan 这类的图库,而要采用 SparQL,是因为数据量很大?

答:为了更好的支持智能化应用,在明略关于 RDF 的存储管理是处于探索阶段。目前我们实际的 SCOPA 系统是采用了自研的蜂巢知识图谱数据库,并对外提供的是 native 的 API。

感觉 rdf 存储不如图数据库,那么用 rdf 的理由是因为通用,为了能更好的做进一步的处理与挖掘么?

答:对于行业领域,在没有复用数据字典的情况下,要取开发一个全新的 rdf 数据集确实代价比较高。采用 rdf 的好处是开放共享,有标准的访问接口,进而能够支持像推理和挖掘分析这样的应用。

中文的非结构化 Web 数据抽取成知识图谱相比于英语,达到同样的质量水平,是否需要更加复杂的算法设计或更大量级的数据 ?

答:结合我个人的实践体验来说,关键在于积累。中文 NLP 的积累比英文弱很多,从开源的组件和数据集就可以发现。开源的中文 RDF 数据几乎为 0,那就很难有复用或者扩充的机会。像英文的知识图谱也不是从 0 开始,RDF 中的 RDF Schema 是基于 OWL 扩充,同时开源的 RDF 数据集,如 dbpedia,在抽取的时候都会依赖 wordnet 这样的 ontology. 我个人的观点还是,积累上,导致现在想做一个不错的知识图谱成本太高。

“对于自然语言转化出来的结构化信息到 cypher 的转换的方法需要重新设计”,这个能举个例子?或者再详细解释一下?

答:这个我想表达的意思是虽然 NLU 的输出是一样的,但是转化为 cpyher 和 SPARQL,是两种不同的形式。因此在转化过程中,需要根据具体的语言表达特性进行特定的转化。目前,我个人是没看到比较好的通用的转化方法。

作者介绍

邵蓥侠,明略数据 SCOPA 技术顾问。北京大学博士后,主要研究方向包括大规模图计算优化、图挖掘应用以及复杂网络分析等,并在相关领域发表学术论文 10 余篇,包括 SIGMOD,VLDB,TKDE 等国际一流学术会议和期刊。曾获 2014 年 Google 博士奖学金、微软学者等称号。目前作为明略数据 SCOPA 技术顾问,主要参与图挖掘、图分析、知识工程等相关工作。

从逻辑回归到深度学习,点击率预测技术面面观

【CNUTCon 开幕倒计时】9 月 10-11 日,CNUTCon 全球运维技术大会即将在上海开幕,大会主题是“智能时代的新运维”,并特设“大数据运维”专场,更有 AIOps、SRE、DevOps 等最前沿和热门技术,已聚齐 Uber、BAT、华为、京东等公司一众大咖,倒计时 5 天,点击「 阅读原文 」了解全部日程!

互联网信息搜索服务管理规定

互联网信息搜索服务管理规定

第一条为规范互联网信息搜索服务,促进互联网信息搜索行业健康有序发展,保护公民、法人和其他组织的合法权益,维护国家安全和公共利益,根据《全国人民代表大会常务委员会关于加强网络信息保护的决定》和《国务院关于授权国家互联网信息办公室负责互联网信息内容管理工作的通知》,制定本规定。

第二条在中华人民共和国境内从事互联网信息搜索服务,适用本规定。

本规定所称互联网信息搜索服务,是指运用计算机技术从互联网上搜集、处理各类信息供用户检索的服务。

第三条国家互联网信息办公室负责全国互联网信息搜索服务的监督管理执法工作。地方互联网信息办公室依据职责负责本行政区域内互联网信息搜索服务的监督管理执法工作。

第四条互联网信息搜索服务行业组织应当建立健全行业自律制度和行业准则,指导互联网信息搜索服务提供者建立健全服务规范,督促互联网信息搜索服务提供者依法提供服务、接受社会监督,提高互联网信息搜索服务从业人员的职业素养。

第五条互联网信息搜索服务提供者应当取得法律法规规定的相关资质。

第六条互联网信息搜索服务提供者应当落实主体责任,建立健全信息审核、公共信息实时巡查、应急处置及个人信息保护等信息安全管理制度,具有安全可控的防范措施,为有关部门依法履行职责提供必要的技术支持。

第七条互联网信息搜索服务提供者不得以链接、摘要、快照、联想词、相关搜索、相关推荐等形式提供含有法律法规禁止的信息内容。

第八条互联网信息搜索服务提供者提供服务过程中发现搜索结果明显含有法律法规禁止内容的信息、网站及应用,应当停止提供相关搜索结果,保存有关记录,并及时向国家或者地方互联网信息办公室报告。

第九条互联网信息搜索服务提供者及其从业人员,不得通过断开相关链接或者提供含有虚假信息的搜索结果等手段,牟取不正当利益。

第十条互联网信息搜索服务提供者应当提供客观、公正、权威的搜索结果,不得损害国家利益、公共利益,以及公民、法人和其他组织的合法权益。

第十一条互联网信息搜索服务提供者提供付费搜索信息服务,应当依法查验客户有关资质,明确付费搜索信息页面比例上限,醒目区分自然搜索结果与付费搜索信息,对付费搜索信息逐条加注显著标识。

互联网信息搜索服务提供者提供商业广告信息服务,应当遵守相关法律法规。

第十二条互联网信息搜索服务提供者应当建立健全公众投诉、举报和用户权益保护制度,在显著位置公布投诉、举报方式,主动接受公众监督,及时处理公众投诉、举报,依法承担对用户权益造成损害的赔偿责任。

第十三条本规定自2016年8月1日起施行。

规范信息搜索服务 促进网络理性生长

国家互联网信息办公室6月25日发布《互联网信息搜索服务管理规定》(以下简称《规定》)。国家互联网信息办公室有关负责人表示,出台《规定》旨在规范互联网信息搜索服务,促进互联网信息搜索行业健康有序发展,保护公民、法人和其他组织的合法权益,维护国家安全和公共利益。(6月25日中国网信网)

“互联网+”暖风劲吹下,移动互联网已经塑造了全新的社会生活形态。中国互联网络信息中心(CNNIC)发布的第37次《中国互联网络发展状况统计报告》就明确显示,截至2015年12月中国网民规模达6.88亿,互联网普及率达到50.3%,半数中国人已接入互联网。另一方面,“互联网+”行动计划不断助力企业发展,互联网对于整体社会的影响已经进入到了新的阶段。

“互联网+”让各行各业感受到了新生力量,互联网大会让人们感知到了网络无限魅力。作为互联网重要组成部分,搜索引擎也已经成为了人们获取信息的重要渠道。只是网络空间的虚拟无状,又导致大规模“搜索”活动的集体无意识,背后甚至暗藏着叵测的居心和复杂的利益冲突。比如说,部分网络搜索结果就有失客观公正,违反行业道德和规范,误导和影响了公众判断。

国家网信办出台《规定》,就有助于破解信息搜索服务怪状。毕竟网络信息搜索是一个涉及法律、道德、科技的复杂议题,涉及到监管滞后、技术乏力、网站把关不严、用户法律意识淡漠等众多因素。此次国家网信办出台《规定》就明确了互联网信息搜索服务提供者的主体责任,以及互联网信息搜索服务监督管理执法部门的相应责任,有助于全方面规范网络信息搜索行为。

比如说,《规定》中就契合了民众呼声,明确强调互联网信息搜索服务提供者要建立健全信息审核、公共信息实时巡查等信息安全管理制度,不得以链接、摘要、联想词等形式提供含有法律法规禁止的信息内容;提供付费搜索信息服务应当依法查验客户有关资质,明确付费搜索信息页面比例上限,醒目区分自然搜索结果与付费搜索信息,对付费搜索信息逐条加注显著标识。

事实上,在网络深度融入经济社会发展和人民生活语境中,网络也已成意识形态斗争主战场,网络信息安全工作的重要性不言而喻。《中华人民共和国反恐怖主义法》第三章第十九条明确写道:网信、电信、公安、国家安全等主管部门对含有恐怖主义、极端主义内容的信息,应当按照职责分工,及时责令有关单位停止传输、删除相关信息,或者关闭相关网站、关停相关服务。

“网信”首次入法,已经凸显出国家对网信工作的高度重视。自中央网络安全和信息化领导小组和中央网信办(国家网信办)成立以来,提出“七条底线”,发布“微信十条”、“账号十条”、“约谈十条”,接连发起了“净网行动”、“剑网行动”、“护苗行动”等专项整治活动,通过依法治网有效推动着网络空间不断趋于清朗。而今出台《规定》,也是依法治网再加码。

当前网络世界与现实生活的边界已经越来越模糊,每一个接触网络生活的人都会不可避免地受到互联网的影响。规范互联网信息搜索服务,已不仅仅是为了维护自己和他人合法权益,更是为了在未来更好地享受到网络带来的自由与便利。希望《规定》出台能够激发信息技术中蕴藏的正能量,将网络治理法治化推向更深层面,进一步推动构建和平、安全、开放、合作的网络空间。(南方网李盈)

丁道师:对网信办 搜索服务13条 新规的3点看法

在各方的期待下,搜索引擎服务的相关法律规定比预想的更早出台。6月25日上午,国家互联网信息办公室6月25日发布《互联网信息搜索服务管理规定》。国家互联网信息办公室有关负责人表示,出台《规定》旨在规范互联网信息搜索服务,促进互联网信息搜索行业健康有序发展,保护公民、法人和其他组织的合法权益,维护国家安全和公共利益。

《新规》虽然在周六早上发布,但还是引发了业界极大的关注。事实上,不管是中国网民还是全球其他地区的网民,乃至各大科研机构、组织,通过搜索引擎查找资料都是获取信息的重要来源渠道,搜索引擎是互联网最重要的服务之一。如此重要的战略级服务,近几年高速发展,取得了巨大的成果,然而行业在高速发展的时候,相关企业却忽略了从技术、机制等方面对其平台的索引内容进行把控的责任,甚至为了谋取利益人为的进行搜索结果排序,进而为虚假信息提供传播的温床,极大的对网民获取信息带来了误解和困扰。

笔者注意到《规定》总共有13条,其中特别提到:互联网信息搜索服务提供者应当落实主体责任,建立健全信息审核、公共信息实时巡查等信息安全管理制度,不得以链接、摘要、联想词等形式提供含有法律法规禁止的信息内容;提供付费搜索信息服务应当依法查验客户有关资质,明确付费搜索信息页面比例上限,醒目区分自然搜索结果与付费搜索信息,对付费搜索信息逐条加注显著标识;不得通过断开