微软利用人工智能推出搜索新功能 让必应更聪明

北京时间12月14日早间消息,在旧金山举行的一场AI主题活动中,微软宣布一系列必应(Bing)更新,希望通过采用本公司的AI研究成果以及与Reddit建立新型伙伴关系,使必应变得更聪明。

该公司展示了将AI智能注入必应搜索引擎的具体方法,微软的一位高管重申,实际上,通过与雅虎缔结合作关系,必应搜索已被广泛应用,只是人们不知道而已,如今,美国三分之一的桌面搜索结果都是在必应上完成的。

这些更新的重点在于为用户带来更多会话式的、细致入微的答案。今天推出的新功能包括:智能搜索、智能图像搜索和会话搜索。

“在寻找信息方面AI已经功能强大,但如何让这些信息具有意义才是真正的挑战,”微软人工智能研究组的合作伙伴规划和设计项目经理克里斯蒂娜·拜耳(Kristina Behr)说。

除此此外,微软公司宣布与社交型新闻网站Reddit合作,以便后者能够更有效地利用必应搜索结果。Reddit联合创始人亚历克西斯·欧海宁(Alexis Ohanian)证实了这一消息。

“我们认为这是一个新的窗口,可以帮助人们发现新的社区,”欧海宁说。“我们可以使两个平台都运作得更好。”

双方的合作关系也将集中在从Reddit帖子中筛选详细的、高度本地化的信息汇集到必应搜索,以便为用户的搜索提供更详尽的答案。众所周知,Reddit的用户界面不够友好,因此,与微软的结盟可使Reddit的内容形式更为高效,是非常必要的。

必应在桌面搜索方面的地位可能比一些人的想象要高得多,但极少有人提及必应的移动搜索,以及如何将这些新功能整合到移动浏览器中。利用Reddit的数据,必应可以在移动领域走得更远。

信息流还是搜索 如何选择投放

现在信息流超越搜索成为大众推广首选,为了追求用户体验,其实很多浏览器已经开始禁止追踪功能,让技术上的精准营销成为一种障碍,为什么很多人开始的时候都是选择搜索,因为它的客户精准,主要都有需求的用户,而信息流只能针对一些范围,而且要成本低可能亲戚资金会比较高,是搜索投资的十倍或者不止。

但是针对精准,从微博粉丝通开始,到广点通、今日头条zaker、一点资讯、uc头条等等现在任何平台,只要你有浏览记录,只要有你的数据,他就能定位好用户是什么样的兴趣爱好,只是每个平台有不同的人群积累,例如很多生活类广告主以及收藏品广告主很倾向于微博这个平台,像一些服务号之类的就对朋友圈更热爱一点,哪怕是餐饮,都在朋友圈做广告。

“让能掏钱的人看到想看的广告”, 现在的信息流平台都已经个性化,从腾讯的大数据来看,每个id都代表着其背后有血有肉的用户,有个性、有趣味、有偏好、有其自己的消费选择。根据平时的社交关系、兴趣图谱、活跃程度、地域范围等等,经过大数据分析和挖掘,每一个账户ID都将拥有属于自己的属性标签。“28岁、二三线城市、女性、韩剧、育儿”、“38岁、一线城市、男性、篮球、自驾”……这类极具个性和身份特征的人群,现在各大后台基本上都可以设置了,如果还有内部提供的数据包,我相信推广广告,烧钱还是没问题的,几十万也是分分钟可以出去的。

我相信很多广告主,最重要的还是想怎么样才能真正的找到精准用户,这个问题其实并不困难,基于自身产品,广告主就应该有一个定位,适合什么样的人群,这些人群画像是一定要清晰的,其次,很多推广后台会有拓词包,利用后台工具,增加更多的人群,例如,茶叶,针对的是多大年龄的,30-50男性浏览什么样的文章?以及他们会关注什么,主要是什么人群,这些前期有一个概念,后面通过自身的客户积累,去不断地完善,我相信这样针对性的设置人群画像会更加有效果。

任何一个平台的推广不能亘古不变,要随时跟随市场的变化而变化,素材也是同样的,毕竟去吸引用户,那就要知道用户喜欢什么样的内容。

总之,社交媒体的信息流广告,不仅解决了原生的问题,还能为广告主搞定精准的难题,而在信息流广告产品方面,社交媒体也根据自身特色研发出了多条产品线。以国内来说,微信朋友圈广告、今日头条、广点通、新浪扶翼、网易等等目前很多平台还都可以满足很多广告主的需求,我相信第一个吃大闸蟹的人肯定是自己不一样的感受,想想那么多的用户没被洗过,那么恭喜你了,你可以虐千万遍。

六亲不认 的互联网时代 品牌怎么做搜索占位 才能让企业逆袭成功

互联网已经进入我们生活几十年,作为初创企业,在布局互联网的道路上,已经远远落后于同行业其他一线品牌,那么现在进入互联网,做品牌搜索占位,对刚走出襁褓的企业来说,还有用吗?

灵标(助企业品牌升级)几乎给了100%的肯定!

最近,根据权威媒体发布的《95后养成记》中显示,作为互联网的原住民,是移动互联网的天生使用者,互联网伴随着他们成长,影响着95后生活的方方面面,富足自信的95后们,自主选择的能力更强。

数据来源于网络

他们不会人云亦云,而是会在需要的时间点,上网搜索相关的品牌知识,用户口碑、体验、用更专业的思维,来选择自己心仪的品牌,追求物质和精神双丰收。

金庸在《笑傲江湖》里说:“这个世界在变,我们没有办法,只好改变自己。”现实中,我们也一样,只有顺应互联网的潮流,具备正确思路、长远规划、具备正确的价值取向,为企业做好品牌搜索占位,

在产品过剩和认知稀缺的时代,做好品牌成为企业的第一要务。市场竞争不是在于产品“好”与“不好”,而是看谁先进入消费者心智,得到消费者的认知和体验。我们可以知道的是,一个好品牌的基本要素是产品的质量和功能,但这并不是充分必要条件。品牌要想成为一个好品牌,必须走向目标市场、进行差异化定位、具备核心竞争力等要素,这样才能源源不断的为企业的持续发展助力。

古人云:“天道酬勤。”,但是现在这个时代,天道不一定酬勤,没有目标、没有方法的市场行为,即使一天24小时的努力,也是白费。一个品牌,不是自诩有多好,而是能给用户带去品牌价值,带去归属感,做起有效连接和生态系统。

在互联网时代,中小企业只有拥抱互联网,做好产品,讲好品牌故事做好品牌搜索占位,才能在消费升级的市场导向中,取得一席之地,满足消费者对品牌的新需求。

怎样在冬天熬下来,成为“剩者”,是企业的最终目标,中小企业正面临着国外强大品牌的挤压,国内市场的饱和。在如此环境下,他们正经受着前所未有的巨大考验,如何在低端、低价、低利润的情况下,做好品牌,提升品牌力,在互联网做好品牌搜索占位,以便在互联网中占据一席之地,赢得90/95甚至00后的芳心,是每一个创始人所要去思考的难题。

汤姆·比德斯在《追求卓越》一书中有说:“一个企业的规模不是看它的资产数量,而是看它能在多大程度上迅速、灵活、富有弹性的吸纳、消化企业边界各种资源,能有效地缩小新市场的进入成本和旧市场的退出成本。”互联网时代,做好品牌在主流搜索平台(百度、360、搜狗等)的搜索占位,变成了中小企业,进入互联网的第一要素。

传统营销在进一步被互联网的新型营销所冲击,雷军说:“站在风口上,猪都能飞起来。”很多中小企业就是在等待风口的时间里,逐渐被消耗,从而被更有思想的企业后来居上,成为它们的“下酒菜”。

作为创始人,我们不妨自己去创建一个“风口”,聚焦自身的优势,建立起企业的品牌强项,进入消费者的心智。

很多人都说互联网已经进入了下半场,流量红利已经消失,获客成本也在水涨船高起来,转化越来越难,与之相对应的是流失越来越快!怎么拉新、提升转化,除了在主流搜索平台做好品牌搜索占位,增加品牌的网络公信力外,还要加强口碑的宣传,这样做,无论是在留住老用户还是在拉新、转化上,都有意想不到的效果。

信息大爆炸的互联网时代,我们的精准信息获取越来越难,这样也导致品牌全网布局变得越来越重要,品牌搜索占位变成中小企业的必修课。

事实说明,中小企业要将互联网基因植入到企业的发展中,把品牌在互联网的占位,升级成企业的内功来修炼,扬长避短,充分吸收企业的外部和内部资源,这样,企业才在滚滚浪潮中,走得更远。

俄新西伯利亚打造首款 墓地搜索 应用

人民网莫斯科8月29日电(记者 华迪) 据俄媒今日消息,俄罗斯新西伯利亚将打造一款墓地搜索应用,初步计划耗资120万卢布(1美元约合58.6卢布),后续实施过程中投入可能还会增加。

据新西伯利亚市政府工业、创新和企业部副部长维图欣介绍,该款应用计划于年底前推出,届时每个市民都可以轻松通过该应用找到任何一块墓地。同时,通过应用还可以看到墓地的立体图景,包括每条大路和小路,以便使用者可以清晰、快速地定位。

据悉,类似应用在俄罗斯境内尚属首例。

作者:华迪

如何使用Elasticsearch构建企业级搜索方案

编辑|Natalie

说到搜索,大家第一印象一般都是像百度、Google 这样的互联网搜索引擎,这些搜索引擎主要通过网络爬虫抓取互联网上的数据,比如网页、图片、文档、音视频等,任何人都可以在上面输入关键词查询自己想要的信息。然而明略数据搜索技术专家陈智发将在今天的分享中告诉我们:搜索应用远不止查找网页和文件。

以下内容整理自 8 月 17 日 大数据杂谈微信社群内容分享。

大家好,我是明略数据的陈智发,很高兴今天能跟大家分享我们明略在企业级搜索服务方面的一些心得。

今天我想从以上四个方面内容展开介绍,首先对企业级搜索进行简单的介绍,然后重点讲一下我们的企业级搜索方案,最后会介绍一下语义分析在搜索方案中的运用和一些实际的案例。

企业级搜索简介

说到搜索,大家第一印象一般都是像百度、Google 这样的互联网搜索引擎,这些搜索引擎主要通过网络爬虫抓取互联网上的数据,比如网页、图片、文档、音视频等,任何人都可以在上面输入关键词查询自己想要的信息;而另一方面,平时大家关注得比较少的企业搜索,则是对企业提供一整套的搜索技术方案,它们处理的数据大部分是来自于企业内网,形式上跟互联网搜索的数据不太一样,可能包含内部文档、邮件、数据库、第三方办公软件,当然也可以包括外部的数据,而企业搜索的用户一般也只能在企业内网里使用这些搜索服务。

这里列出了几个比较知名的企业搜索服务商,比如 Google GSA, HP 的 Autonomy, 基于 Solr 的商业方案 Lucidworks,还有我们今天会介绍到的 Elasticsearch。所以无论是从数据还是使用方式上,互联网搜索和企业搜索都有着较多的不同点

互联网搜索与企业级搜索的区别还体现在其他几个方面:

  1. 数据获取方式和更新频率:

  • 互联网搜索需要爬虫去被动抓取,而爬虫覆盖到新的内容是需要一定的时间的,所以在数据的更新上往往不会那么及时;而企业搜索的数据一般是主动生成的,所以搜索服务很容易知道什么时候需要更新数据(要么是通过用户操作要么是 API 调用),数据的更新可以做到近实时的

  • 在数据完整性的要求上,互联网搜索很难也不可能覆盖到所有的公开数据,更何况由于暗网、政策和 Robots 协议的存在,互联网搜索本来就触及不了或不能显示某些数据,用户进行互联网搜索时如果找不到想要的信息也可以理解;反观企业搜索,处理过哪些数据都是计划内的,如果搜不到本应搜到的内容,用户可能会暴跳如雷。

  • 结果排序:互联网搜索的排序是以 PageRank 算法为基础的,而企业级搜索常常依赖于特定的业务逻辑

  • 权限:企业级搜索经常需要进行严格的权限控制,不该让用户看到的数据不能显示,而互联网搜索没有限制,即使有也是由于政策原因,与用户本身无关

  • 对抗博弈:由于互联网的内容有可能来自于有商业诉求的个人或群体,互联网搜索需要考虑如何对用户的搜索优化行为进行公平的评判(尤其是恶意作弊),而企业级搜索是企业自身控制可搜索内容不需要考虑

  • 用户在互联网搜索时是无法对搜索结果进行显式的控制的(但可以通过搜索引擎提供的个性化方案和点击流取得隐性的影响),而在企业内部,用户不但可以修改各种排序策略还可以做到直接控制显示的结果

  • 那么企业级搜索应该怎么去做呢?

    显然光靠技术是解决不了问题的,虽然我们有 Elasticsearch、Solr 这样的底层技术支持,但它们更多的还是作为技术人员的核心工具,单靠这些无法实现用户的业务价值。

    我们需要结合领域知识、用户的业务去搭建一个定制化的方案。

    在设计一个企业级搜索方案时,首先要了解清楚,我们要处理的数据内容是什么样的,用户是谁以及他们想要什么样的输出结果;在设计完方案后,需要持续收集来自用户的反馈,修正我们对领域业务的理解、调整数据架构、进一步改进搜索的相关度效果,从而形成一个良性的闭环。

    不同领域中的政企客户,很有可能会有不同的需求:

    比如在公共安全领域,搜索出来的信息一定要全(由于搜索不到影响破案那就麻烦了),且要求搜索结果尽量的准确,不相关的结果用户不希望看到(而不是放在靠后一点的位置),而且数据的更新一定要及时;

    而在新闻或论坛搜索里,用户需求可能更侧重于信息的覆盖面以及推荐内容的匹配程度上。

    由此可见,企业搜索的难点在于以下几个方面:需要支持多种数据接入方式,除了原始的数据内容之外,我们往往还需要对数据进行适当的清洗、治理,添加标记 (tagging),丰富数据,定义关联。作为服务提供商,我们的索引配置足够的灵活、支持根据业务和数据定义合适的索引结构(对结果排序同样重要)。

    基于 Elasticsearch 构建企业级搜索方案

    下面我们来看看怎么基于 Elasticsearch 构建企业级搜索方案

    在开始正题之前,我觉得还是先简单介绍一下 Elasticsearch 好让大家有个上下文。

    Elasticsearch(常简称 ES)是一个基于 Apache Lucene 的分布式搜索引擎,左边是 ES 大体上的架构,它在 Lucene 支持的功能之上,提供了在节点管理、节点发现、建索引、查询的功能,并提供了用户友好的 REST API。

    ES(实际上是 Lucene)建索引的过程如右图所示,把要建索引的数据从数据源抽取出来后,文本字段经过分词后变成一个个的词,最终这些词会存入一个大词典中排序编号,并且创建或更新每个词对应的倒排链,用户搜索时即可根据倒排链快速查找包含一个或多个关键词的文档。

    为了支持更多的业务场景,我们搭建了这样一套企业级搜索服务的整体架构:首先大家看右侧,是我们底层对接的搜索引擎,目前主要是 Elasticsearch,当然也正在接入 Solr Cloud。

    当初设计的时候就是考虑到我们服务的不同企业的平台环境中可能有的使用 Solr Cloud 有的使用 Elasticsearch,所以我们对通用的索引、查询功能进行了抽象和封装,使得底层引擎可以便于切换。

    抽象出来的核心搜索服务可以从两个方向看,向上的方向对应的是建索引的过程:

    • 虽然 Elasticsearch 可以通过 Beats 接入各种数据源,但出于可维护性和项目定制化、底层引擎去耦合等考虑,还是自己创建多种数据源连接器

    • 数据源从连接器输出后我们可以得到最原始的数据,之后可以在一个插件化的数据预处理流水线中进行多种处理,这一步对于搜索服务提供的整体功能至关重要,直接决定了我们搜索什么内容;

    • 经过处理的干净数据如何构建索引是由索引配置和索引模块决定的,在索引配置中,用户可以指定数据字段与索引字段的对应关系以及每个索引字段的具体索引配置(比如分词器等),而索引模块则根据索引字段的元属性创建 Elasticsearch 或 Solr 的索引配置,并根据索引配置为数据指定一个索引进行写入操作,还有索引别名的管理等等

    • 配置的内容以及应用相关的数据将由核心存储模块的元数据库进行统一管理自顶向下的方向对应的是查询的过程:

    • 系统会先对用户输入的查询内容(比如关键词)进行一系列的 NLP(自然语言处理)分析,比如搜索意图识别。当然其实这个 NLP 模块在预处理流水线也可以用到

    • 初步的查询分析结果还可以经过一个同样插件化的流水线过程进行进一步的处理,这个在后面会展开介绍

    • 排序模块负责在发送 Query 到底层引擎前根据用户配置的业务逻辑对查询计划进行一定的修改,也负责在结果返回后对排序的结果进行调整

    • 用户除了可以使用定制的搜索应用页面访问搜索服务之外,第三方应用也可以通过统一的 API 方式使用搜索服务,便于我们的合作伙伴进行集成。

    下面我们分模块介绍一下搜索系统各个部分。

    在给企业客户制定一套搜索方案时,需要先了解他们的数据种类和规模、以及业务模式等情况,从而可以设计好一个适当的索引分布方案。

    这里举两个例子:

    第一个例子是,对于数据规模相对稳定的情况,我们可以根据数据规模和现场的资源情况(比如服务器节点数,CPU 核数,可用内存资源等),智能地计算出一个合适的索引分配方案。

    比方说,有三类数据,人口的数据比较多,而手机和车辆的数据比较少,那么 Partition Planning 程序就会判断把手机和车辆的数据存放在一个 ES index 下(分属不同的 Type),并且只需要分配 4 个 shards(分块),而人口数据则需要单独创建一个 ES index,并且设置 10 个 shards,这样既充分利用了硬件的资源,同时也可以在性能和占用资源上取得较好的平衡(毕竟每个索引都要占用 cache 等资源,虽然使用多个 Type 也有一些不利的地方)

    第二个例子是,对于数据规模不稳定且随时间增长的场景,可以以一天或一周为单位创建索引(根据具体需求而定),而且往往可以把实时 / 在线的数据索引存放在在线查询集群里,而历史的全量数据进行存放在离线计算集群,一般来说在线查询集群保留半年或一年内的数据,并可以使用更高端的配置(如 SSD)进行加速。

    数据在两个集群中的分配可以有多种做法,简单的做法是半年数据可以同时写入在线和离线集群,然后定期删除(比如每天)在线集群中的过时数据。

    由于我们是一家企业服务提供商,在索引配置上,我们需要做一些权衡,既要满足项目实施团队容易定制的需求,同时也要尽量降低使用的门槛。

    因此我们对 ES 索引的配置项也做了一层抽象,把一些跟业务功能不太相关的配置项隐藏起来,只保留业务和项目人员比较容易理解的配置项。

    比方说,索引分词方案,我们会默认提供几种选择:不分词(即 keyword 分词)、按单字分词、按单词分词、混合分词(即按单字又按单词切分)。

    这些默认的选项能满足 80%~90% 的搜索需求,如果有定制需求,项目人员可以在这基础上自己扩展新的分词配置,一般来说是通过创建新的 TokenFilter 即可满足需求。

    每个字段的分词方案决定了它能够提供的业务功能,比如在高级检索中是否支持模糊匹配、是否支持关键字查询、是否可以作为排序字段和聚合字段等等。这些支持的能力通过接口反馈到我们的上层应用中。

    另外,还支持用户配置复合索引字段(即包含多个原始内容字段的索引)、全文索引字段(用于全文检索)和控制哪些字段进行高亮输出等等。

    在不同项目中,我们可能会遇到各种各样特定的功能需求,而我们需要为之提供特定的索引配置方案。

    举个例子,有些客户要求可以根据身份证号中的出生日期筛选人口数据,那为了完成这个功能,我们可以有两种方案:

    1. 使用 Elasticsearch 的通配查询,比如输入 19900203 可以获取正确的结果,但这样的查询性能是很差的,尤其是数据量大的情况下,因为要使用字符串匹配

    2. 第二种就是我们给定制一种新的分词方案,比如使用 Elasticsearch 的 Pattern Capture Filter,通过正则匹配把出生日期部分提取出来作为单独的 Term 进行索引,这样性能上会很好(尽管索引速度可能会受到一点点微不足道的影响)

    除了每个字段的索引配置,还有其他的配置内容,比如影响索引输出结果的停用词表(把“得”,“的”,“了”等无用词去掉),影响分词准确性的分词词典等。这些资源也可以由项目人员进行修改更新。

    在数据预处理方面,我们曾经考虑过多个方案:

    第一个是使用 Elasticsearch 的 ingest API,这种方案好处是不需要自己开发额外程序,但 ingest API 是基于脚本的,使用起来不是很灵活,并且如果语法或者逻辑上有问题也不方便调试,所以我们放弃了。

    第二个方案是我们可以去扩展 ES 的插件,这样会比使用 Ingest API 的脚本灵活,但需要部署到 ES 并经常维护时需要重启服务,对于我们的场景不是很适合,并且在 ES 里也很难调试。

    最后我们决定自己开发预处理程序,并做成可插件化,这样好处有很多,一是灵活且项目可以很容易去定制,二是不需要部署并重启 ES 就可以直接使用(因为是外部程序),三是我们控制能力比较强,可以在并行性能上做优化,同时也减轻 ES 的压力。最后就是我们可以做到与底层引擎解耦,便于集成其他引擎,比如 Solr。

    在预处理的过程里,我们预设了几种可用的处理插件,比如解析原始数据内容(比如文本内容抽取)、数据清洗操作(比如去重)、语言分析(识别数据所使用的语言种类)、通过 NLP 模块提取更有价值的信息,进行同义词扩展和拼音扩展等。在特定的业务场景里,项目人员也可以通过定制新的插件为索引的内容增加新的丰富信息。

    那么在查询(Query)处理方面,我们也可以通过多种不同的操作对原始查询进行修改 (rewrite):

    这里举了一个流水线的实例,首先查询内容经过语法分析,会分别分派到不同的处理器上进行处理,比如关键词中包含 * 或? 的字眼,我们会使用通配查询,对于包含逻辑操作符的查询我们会使用 QueryString 查询;

    对于普通的文本关键词查询,会经过一个搜索意图分析模块,智能判断用户想查找的大概率是什么目标,这个分析结果会对后续查询的逻辑和排序造成一定的影响(比如通过设置权重)。

    再者,通过结合用户的配置,可以识别出查询内容中包含的过滤条件项(比如“男性”)等,也可以进行查询阶段的同义词扩展,常见的场景就是对于行政区划地名会有不同的说法但其实指向的是同一个东西。

    查询流水线跟预处理流水线一样也可以扩展新的插件实现不同的逻辑,最终得到的查询会被发送到底层搜索引擎进行查询。

    搜索其实就是为了查找用户最想要的东西,那么搜索逻辑和相关度排序逻辑的结合就显得特别重要了。

    在企业级搜索中,搜索逻辑往往要与业务需求相结合。

    有些场景下,需要以字段为中心,即要求一个字段里必须包含查询的几个关键词;而在另外一些场景下则需要以关键词为中心,即用户只要求我输入的每个关键词都被命中了,不在乎是哪个字段命中。有些场景则需要结合两种思路才能得到合理的相关的结果。

    作为示例,我们在搜索服务中默认提供两种搜索模式——精确模式和模糊模式,在精确模式下,要去输入的内容都有匹配,这个模式适合那些要求结果比较准确,无关结果尽量少的应用场景;而模糊搜索则只要求一个或部分关键词命中即可,这样召回的结果会比精确模式多,但相对也不那么精确,命中的越多也会更相关。

    在排序方面,我们除了要考虑普通的文本匹配相似度之外(比如命中关键词个数、关键词在原文中距离、内容长度),经常还需要考虑其他的元属性(如日期、点赞数、评论数)。还可以考虑其他的业务规则。

    常用手段包括 field boosting(加权重),重排序、词组匹配和 Function score query等等

    对于查询结果,除了使用 Elasticsearch 自带的 Highlighter 之外,我们还曾经在一些项目上提取文本的核心摘要内容来对输出结果进行概括,这一块也包括在后面提到的语义部分内容中。

    客户的数据源有可能有多个来源,那么在展示结果的时候,我们支持对同源的结果进行聚合显示(单独查询)或者融合显示(多类结果合并排序)。

    前面提到,在企业级搜索中安全是很重要的因素,因此我们在输出结果时也会根据当前系统用户配置的角色权限来判断是否要过滤 / 脱敏某些数据内容。

    为了优化搜索效果,我们除了直接收集用户的评价之外,还需要通过程序化的方式收集用户的反馈,这属于搜索管理的一部分。通过结合 FileBeat、Logstash 和 Kibana,我们可以及时收集用户使用搜索的日志数据,并通过 kibana 的图形界面进行搜索点击结果的统计、性能的分析、badcase 的分析等等,通过分析日志可以改善我们的排序逻辑并形成正反馈。

    结合语义的搜索方案

    下面我们再介绍一下结合语义的搜索方案

    大家都知道,现在已经是语义的时代,Google 在推出知识图谱搜索的时候有一句话“Things, not strings ”,意思是我们要寻找数据深层的含义,寻找更深层的答案。

    我们认为目前搜索发展的方向是一个更广义的搜索,是要跟知识图谱结合起来的。传统的搜索虽然构建了索引帮助用户加速查找过程,但无法体现出数据的真正价值,因此语义搜索要解决的问题,就是更直接地给用户他想要的答案。而在广义搜索中,索引已经不仅仅是以倒排的方式存在了。

    目前我们的搜索服务可以作为其他应用的一个入口,通过支持自然语言的搜索,可以使用户更快地获取到他想要的知识结果,比如查找 2016 年 8 月到 9 月从北京坐火车去过石家庄的男性,这个查询经过我们的查询处理和意图分析后,会得到右上角这些细致的条件信息,并在搜索系统中执行这一复杂的查询。可想而知,如果使用传统的功能需要经过多少步骤才能得到这个答案。

    前面提到,我们会在数据预处理和查询预处理时进行一些智能的分析,这里会包括浅层和深层的语义分析,比如实体识别, 情感分析等,这些是用于丰富我们索引的数据,而深层语义分析则是可以帮助我们从原始数据中构建出一个具象的知识图谱。因此语义搜索,不单单是查询,也不单单是索引的问题。

    说到这一块,我们下周会有一个关于知识图谱和语义搜索的产品发布会,也欢迎大家关注哈。

    搜索案例介绍

    最后我们来介绍一下我们做过的一些案例吧。

    在公共安全领域,我们使用搜索来满足用户对知识图谱中的实体、关系和事件的查询,并支持多类数据的混合碰撞分析,前面提到的自然语言搜索就是在这个领域得到了较好的应用,因为数据本身比较复杂。而在社交分析领域,我们主要使用 ES 进行较多的数据聚合分析,前提也是做了比较多的浅层和深层语义分析;更常见的是,企业客户内部需要以搜索的方式查找内部的文档或者获取相关的文档内容。此外,在我们重点关注的公共安全领域,我们还通过搜索服务实现从人到案件,从案件到人,从案件到案件的案件比对系统,以及事件预警系统,给业务人员推荐有重点嫌疑的人和事。

    所以,搜索应用远不止查找网页和文件。

    问答环节

    ES 的 index 的 shard 数量怎么确定?单个 shard 大小不能超过多少?

    答:像我刚才提到,我们有一个索引分布的计算程序,通过指定数据规模和资源情况来计算,大概原理就是让每个 shard 能分到尽量多的计算资源,同时我们一般限制一个 shard 不超过 20GB。

    ES 是建一个大索引好,还是建多个索引;这两种方式如何权衡?

    答:ES 是一个分布式的方案,设计本意是充分利用分布式的性能,所以如果是大索引,也需要分成好多 shard,一个大索引好多 shard 跟好多个索引 + 较少的 shard,如果查询请求面向的数据范围是一样的,那其实没有太大区别。分成多个索引有一个好处,就是相当于分库了,比如人、车、手机三类数据分别用三个索引,那当你只想搜人的时候,是不需要搜其他两类的,而放在一个大索引会涉及到过滤其他数据,性能上还是会有损耗。

    基于语义的 ES,关于这个“语义”是如何定义的,是语义相关性,还是可推导的语义搜索?关于这个语义模型,是 offline training 还是 online trainning?

    答:我这里提到的语义,一方面是理解用户输入的内容从而自动地完成一个复杂的查询过程,另一方面是挖掘到数据里细粒度的有价值信息以及它们之间的关联; 2. 我们的语义模型更多的是 offline training。

    目前我们利用 ELasticsearch 做基于地理位置的搜索,但是 ES 的 geo 搜索特别差,请问一下,怎么有效地提高 ES 的经纬度查询?另外,贵公司有没有 geo_point 类似的 case?

    答: 我们目前也用了 ES 的 geo 搜索,但还没遇到特别差的情况(可能也跟具体项目的数据量有关),优化方式就要跟具体的数据情况和业务需求一起考虑了,可以考虑分库、二次过滤之类的方案;有的,前面我介绍时提到过地图搜索的业务功能。

    我现在搞一套拼音搜索,想利用 ES,但就目前来看,ES 适合于中文搜索,很少用于拼音搜索。有什么好的建议么?ES 提供了丰富的查询方式,能给讲讲这些查询方式之间的性能区别么?

    答: ES 有支持的拼音插件,可以在网上查一下,应该基本够用,如果要把拼音消岐做好(比如加上概率模型)那就需要自己研发模型了。ES 的查询方式太多了,不好简单回答,但最基本的查询是 Lucene 的 term query,match query 会转换为 term query,wildcard query 和 prefix query 的性能是比较差的,尤其是 wildcard 用 * 前缀时。

    filebeat 与 logstash 在系统中收集采集的分工如何?logstash 的性能问题

    答: filebeat 负责读取日志文件,把结果输出到 logstash,logstash 再把数据解析后送到 ES 建索引。

    ES 目前的索引规模最大是多大啊?数据信息和元数据信息都是存在哪里的?当时选 ES 做搜索引擎的原因是什么?为什么实时数据和其他数据是分别存放和提供搜索的?

    答: 我们目前接触过最大的索引规模是百亿量级的记录;在大量数据的场景下我们会考虑把原数据存放在其他数据库,ES 只放索引; 开源方案一般就 ES 和 Solr,其实功能上 ES 跟 Solr 虽各有侧重但是大同小异,并没有说用 Solr 不好,我们也在对接 Solr,只是 ES 对使用者是比较友好的,发展速度也比较快,而且在一些管理功能上做得比较好所以一开始选择了 ES; 实时数据和其他数据由于服务的场景不一样,所以分开放可以有的放矢。

    知识图谱有没有用图数据库?是单机还是分布式,如何支持高并发?

    答:我们构建知识图谱有使用图数据库,一开始使用的是 titan(我们公司同事曾经在 QCon 上做过知识图谱构建的分享,可以回顾下)。titan 是支持分布式的。

    ES 有哪些比较好的性能可视化工具

    答:我想是问免费的工具,有一个 elasticHQ 的可视化工具,可以试用下。

    某种日志一天有一个 t 的量,希望同时实现入库快和查询快,这种情况是分多个索引存还是单索引设置很多分片,一般的配置原则是怎样的?

    答: 面对大数据,无论是入库还是查询,都是要占用计算和内存资源的,所以首要条件是硬件尽量好,资源多,可以考虑进行集群的读写分离,分散不同请求的压力。关于是多个索引还是多个分片,前面有类似的问题,可以参考。在日志的这个场景,建议可以考虑按时间再细分索引(比如按小时),或者设置 ES routing 参数。

    能否在 o2o 的场景下,利用 ES 来作为主搜,提供 C 端用户场景的搜索?除了初创的企业用 ES,面向用户端,能否也用 ES 作为搜索引擎,提供亿级用户的流量入口?

    答: 可以使用 ES 作为面向 C 端的搜索,但在并发和集群优化上需要下很多功夫,我们主要是面向 B 端,所以能分享的不多见谅。

    请教个问题: 我们在实际使用中 有很多聚合的页面,一个页面很多聚合。想问问老师这种应用场景之前有吗?适合用 ES 吗?

    答: 有类似的项目,像刚才介绍的社交数据分析场景,就是用 ES 做的,ES 区别于 Solr 的一点就是更侧重数据分析,聚合功能做得还是比较细的。

    ES 如何做好查询的相关性呢,既要保证查询的准确性,又要保证查询的查全?

    答:准确率和查全率是两个有点互斥的指标,往往要根据业务指标从中间取个平衡点,比如结果虽然多但不会出现乱起八糟的结果(往往是索引方式的缘故)。相关度是个长期工作,没有 silver bullet。

    请问你们是用什么语言开发 ES 插件的?

    答:Java。

    请问 ES 在节点超过 10 个,分片超过 1w 后,集群非常不稳定,查询经常出现超时问题,master 节点 ping 失败,不知是否和单索引 20 个分片有关?偶尔还会出现 old gc,但是日志中并没有明显异常会导致 gc,请教有没有好的分析方法?

    答: 这个很难说是什么原因,ES 有很多底层的操作是不太明显的,比如数据迁移、比如 index merge,数据多了之后都有可能,一般可以先从系统资源(io, cpu, mem)分析,以及 ES 提供的 task 查询 API 看看在做什么。

    下期群分享预告

    主题:语言处理中的分词问题

    主要内容

    1. 如何界定分词?

    2. 对分词的诉求是什么?

    3. 已有分词系统小结

    4. 问题的难点在哪里?

    5. 分词中的语料问题

    6. 分词的理论解决方案

    7. 如何工程解决?

    8. 结合深度学习?

    讲师信息

    牟小峰,明略研究院技术经理。专攻领域:自然语言处理。从业经历:北京语言大学博士毕业,在新媒传信飞信项目组从事自然语言处理研发;后创业,从事推荐系统开发;目前在明略研究院从事自然语言处理方面的技术研发和业务探索。

    时间地点

    2017 年 8 月 24 日(周四)晚八点半 大数据杂谈社群

    加群方式

    关注大数据杂谈,点击公众号菜单中的“加群学习”,按照提示操作。

    分布式机器学习平台大比拼:Spark、PMLS、TensorFlow、MXNet

    CNUTCon 全球运维技术大会将于 9 月 10-11 日在上海举行,大会主题是“智能时代的新运维”,并特设“大数据运维”专场,邀请了来自腾讯、苏宁等公司大咖分享他们在最新运维技术实践过程中遇到的坑与经验,更有 Google、Uber、eBay、BAT 等一线技术大牛现场为你解疑答惑,点击「 阅读原文 」了解更多精彩!9 折限时优惠,本文的读者在报名时输入 CNUTCon666还可再减 200 哦!

    神马压搜狗成移动搜索第二 但小心别被数据套路了

    日前,一份来自Statcounter的数据显示,百度、神马、搜狗分别以57.4%、35.97%和4.45%的市场份额占据移动搜索市场前三名。有意思的是,Statcounter有关移动搜索1月的数据却显示,神马搜索的市场份额只有19.9%。在一个月的时间内市场份额拉升15%之多,这有些不寻常。

    这还不算完,在Statcounter监测的数据里,过去12个月,神马搜索的市场份额一直徘徊在百分之十几,甚至去年年中只有百分之几,然而从去年11月神马搜索的市场份额开始陡增,直到2月达到顶点,随后就出现下滑,最新的数据显示神马搜索3月份额为15.02%。

    短短四个月,神马搜索的市场份额为何出现如过山车一般的增长和下滑?

    Statcounter数据有待确认?

    神马搜索主要依靠UC浏览器的内置搜索框获取用户,市场份额突然增大或许与UC浏览器有关。但事实上UC浏览器过去几个月也未出现大幅度的市场份额上升,艾瑞今年2月数据显示,UC浏览器日均独立设备数为9935万位列第二,第一是QQ浏览器12393万。

    与UC浏览器无关,难道是神马搜索的主动运营导致。我们搜索了过去五个月神马搜索的官方动态,除了房天下接入以外并没有其他值得关注的动作。那么问题就来了,神马这么高的市场份额是怎么来的?又怎么没的呢?

    还要将目光转回到发布数据的Statcounter身上来。Statcounter是美国一家著名的网站流量统计服务商,经常发布有关手机浏览器、桌面操作系统以及搜索引擎的数据排名。很多人对这家服务商陌生是因为很少有媒体采用这家的数据,尤其是涉及到国内的部分。

    这次神马搜索的市场份额坐过山车,多半与Statcounter的数据有关联。Statcounter是一家国外的流量统计机构,对于国内市场的数据统计样本有限,数据随机性很大,不排除这一次的“过山车”就是因为统计不完全导致。

    Statcounter也不是没有出现过乌龙事件。2009年它发布数据称微软必应只用7天时间就超越雅虎,成为全球第二大搜索引擎。而当时另外三家市场调研公司Comscore、Nielsen和Hitwise的数据却显示,微软新版搜索引擎必应市场份额不但没有超越雅虎,反而落后许多。这让当时很多人质疑Statcounter的数据准确性,或许这一次神马搜索市场份额的“过山车”也是因为Statcounter的数据准确性导致。

    有关其数据准确性的另一个佐证在于,神马搜索和搜狗都是依靠手机浏览器获取移动用户,在Statcounter的数据里,搜狗的市场份额落后于神马。但现实确是,搜狗背后的QQ浏览器市场份额高于UC浏览器,并且搜狗还是微信内嵌的搜索引擎,按理来说搜狗的市场份额应该持平或者高于神马才对。

    为何神马要借机炒作?

    神马搜索应该不会看不到数据在四个月内的陡增和陡降,但问题是为何还要站出来以2月的峰值数据说自己已经进入第一梯队了呢?

    这就要从神马搜索眼下的境遇说起。神马是2014年UC和阿里一起创建的移动搜索品牌,俞永福带领的UC当时已经并入阿里,后者将一淘的团队和产品交给俞永福组建了神马搜索。

    神马搜索是带着阿里挑战百度的使命出现的,其首任总裁是与何小鹏一起创办UC的梁捷。不过,神马始终没有做出太好的成绩,其市场份额也与360、搜狗等第二梯队的成员胶着不下。尤其近几年,随着阿里对UC的梳理更加清晰,UC各个业务线与阿里业务充分融合之后,神马搜索逐渐似乎已经是一个边缘化产品。

    其首任总裁梁捷2015年底被调往阿里文学,之后神马搜索似乎就没有了主要负责人。国家企业信用信息公示系统显示,2016年1月神马搜索的公司法人代表为吴嘉,而在网上查不到吴嘉的任何资料,也没有阿里方面的任命通知。也就是说,在梁捷调往阿里文学之后的2015年底,神马搜索就被吴嘉接管,而且还是非常非常的低调。

    一个被疑似被边缘化的产品,在这个时候突然借一个营销号说自己进入第一梯队,这就有些不寻常了。神马想证明什么呢?具体原因我们当然无从得知,但可以客观理性的试着分析一下。

    搜索市场竞争向来非常激烈,前有搜狗、360,后有神马搜索,大家都对百度把持的搜索市场虎视眈眈。但这么多年,虽然不断有人向百度发起攻击,但最终效果都不是很理想。索性这几年搜狗、360、神马都转变了思路,开始强调自己市场老二的地位。

    据我猜测,这一次神马宣布自己进入第一梯队可能也有这个原因。要知道,这次是神马的营销帐号发布的信息,也就是代理其广告业务的公司,紧随百度份额超搜狗8倍之多这样的成绩是有助于其销售广告的。

    从整个移动搜索的市场行情来看,各家包括百度都在努力吃到更多市场份额。百度去年宣布了熊掌号计划,通过精准流量分发和资源扶持获得品牌商关注。搜狗也很早开始借助微信提升差异化内容搜索,并且还拿到了微信搜索框。反观神马搜索,动作和战略相对比较保守,这一点可能也是其试图借助Statcounter数据急于证明自己的一个原因。

    另外,神马搜索背靠UC,而UC现在在阿里的地位也比较尴尬。今年年初坊间就传出UC事业群裁员的消息,据称规模高达35%,涉及UC浏览器、神马搜索和九游等产品。在这样的情况下,神马站出来说自己是行业老二,多少让人觉得是在强装镇定拯救颓势的意味。

    移动搜索的市场竞争依旧激烈,不仅有搜索引擎,同时各种信息流产品也在抢食市场份额。如此的激烈环境,不排除未来会出现玩家掉队的可能。而神马显然不想掉队,但是其表达决心的方式略微有些不妥。事实上,既然搜狗可以拿到微信的搜索框,为什么神马不能与同是阿里系的微博谈谈合作呢?

    互联网广告新法出台,将规范电商社交搜索等平台

    今日上午,国家工商总局出台《互联网广告管理暂行办法》(下称《办法》)。《办法》规定,电子商务、搜索引擎、社交等各个平台均需要对广告进行明确清晰的标识。当前,除搜索引擎行业已统一调整为“商业推广”明确标注外,诸如淘宝、京东等电商平台的“掌柜热卖”、“HOT”等标注无论在法律层面上还是在公众一般认知层面上都很难称为“广告的显著标识”,这使得网民易于误认为其仅是对相关商品人气属性的客观描述,而忽略其广告本质。

    国家工商总局相关负责人表示,《互联网广告管理暂行办法》是对包括电商、搜索、社交等互联网全行业的规范,将于9月1日正式开始实施。出台《办法》旨在规范互联网广告经营活动,强化各大网站广告自律审查责任,保护消费者的合法权益,促进互联网广告行业及互联网业健康发展。

    业内专家表示,一般用户对通用搜索引擎服务较容易理解和区分自然搜索和付费搜索,但很少有人清晰意识到网络交易平台内部的商品搜索服务其实也是一种付费搜索服务,即“设立在网络交易平台内部的购物搜索引擎

    据了解,在电商平台中均存在付费搜索服务,例如淘宝平台的淘宝直通车、京东平台的京东快车、京东商务舱等。以淘宝为例,用户在淘宝内搜索各项商品时,会看到与搜索关键词相关的商品搜索列表,该列表由左侧搜索结果、右侧搜索结果、底部搜索结果三部分组成。用户通常可能认为所有的搜索结果都是根据自己设置的搜索词、筛选条件所自然排序的内容,其实不然;商品搜索列表的左侧上端部分搜索结果、右侧搜索结果、底部搜索结果其实都属于付费搜索信息服务。

    “《办法》的出台,无疑是对长期以来被人们忽略的电商平台付费搜索打出的一记重拳。毫无疑问,在监管力度提升的同时,电商平台广告将逐渐规范化,付费推广内容和表现形式将出现巨大改观,这也是对网民知情权等权益的保护。”互联网广告专家认为。

    华为P20 Pro有多聪明 试过智慧识屏全局搜索后你就会知道

    每一款手机都有一些使用起来十分方便的小技巧,经常关注手机的朋友会发现,华为P2系列手机十分受消费者喜欢,一直以来都十分热卖。在拿到这款手机后,首先除了对逆天的拍照做出全方位了解外,还有一些小技巧运用起来也十分方便,下面华为P20 Pro这几个小技巧了解下。

    智慧识屏

    在生活中,我们常看到一些喜欢的东西,想购买却不知道名字,如果你手里正好有一部华为P20 Pro,则只要打开其智慧视屏功能,不仅能识别你所感兴趣的物品,还为你提供购买渠道。另外还提供扫码功能,搜索物品更精准;多国文字翻译,出门更方便;扫题功能。

    在使用扫一扫购物时,从屏幕中部向下滑动主屏幕——点击搜索栏右侧小眼睛按钮——即可扫描对应物品,只需等待数秒即可得到扫描结果。

    出了扫物购物外,扫码功能让你了解到的信息更加精确

    手机的翻译功能则为出行和阅读带来方便,扫题则有些欠准确。

    全局搜索

    手机中的文件和应用越来越多,如果要想快速找到自己想要的东西,这时候全局搜索的优势就凸显出来了。依旧从屏幕中部向下滑动主屏幕,直接在搜索栏输入关键词,即可找到你想要的答案。从下面的搜索情况来看,我们可以从应用、设置、可恢复应用、音乐、华为阅读、华为视频、华为应用市场等多渠道找到你所想要的信息。使用起来十分方便。

    屏蔽通知

    在刚使用华为P20 Pro的时候,感觉手机有接收不完的APP推送消息,使用起来十分烦恼。另外很多垃圾短信也占满信箱,想要找到对自己有用的信息十分麻烦。这时只要把屏蔽通知这一栏充分调动起来,即可让通知栏变得干干净净。具体操作为,选择手机设置——应用和通知——通知管理,你可以根据需要关闭APP信息通知,如果不想一个一个设置,你可以选择全部,一键关闭所有通知。

    设置游戏模式

    对于喜欢玩游戏的朋友,华为P20 Pro为玩家提供了专门的游戏模式。在游戏模式下除了保留来电、闹钟等重要提醒,其他打扰均被阻止,为用户提供极致的游戏环境。在具体设置上找到实用工具一栏,点击进入游戏助手,选择添加所需游戏,还可对游戏进行加速、消息免打扰、防误触设置。

    管理APP图标通知

    有些华为P20 Pro用户手机上的APP非常多,每天APP都会有很多消息通知提醒,有时一天很繁忙没有时间处理信息,消息就会越来越多。角标数字增大使得让整个手机界面看着凌乱,给人及不好的体验。这时只要对图标做出一定的管理就可让桌面有很大改观。这时只要长按屏幕——进入屏幕编辑模式——选择设置——图标角标即可选择关闭对应APP显示。

    智慧识屏为生活带来更多便捷,全局搜索在手机上快速找到自己想要的东西,APP推送消息屏蔽、图标通知管理,游戏模式个性设置。上面这些小技巧运用后,是不是发现华为P20 Pro更加好用了,如果你还没有这么做,赶紧去实践一下吧。

    高考作文引发 脱发 梗 搜索满屏脱发推广

    高考作文引发“脱发”梗!

    一年一度的吐槽高考作文大赛又开始了!丧心病狂的段子手们今年把目光放在了奇怪的地方,全国卷1的作文题目原本立意十分明确并且正直,结果硬是被脑洞大开的网友们玩坏了,大家的关注点全都是——学霸脱发快。

    在这样的画风下,作为学霸的本宝宝真是想不关注一下脱发都不行啊,于是在好奇心的驱使下,让我们在三大搜索引擎分别搜索一下“脱发”看看会出现什么结果吧。

    首先在某度搜索“脱发”试试,好激动好激动,不知道会出现什么结果啊。看,搜索结果出现了!

    我们可以看到,某度搜索“脱发”出现的搜索结果首当其冲的依旧是各种医疗推广,各式各样的“美容门诊”和“制药厂”,不知道为什么总是有点不寒而栗的感觉。

    接下来我们再来看看某狗的表现如何。在搜狗搜索输入“脱发”进行搜索。

    我们可以看到,在前排的脱发相关知识之后,映入眼帘的同样是一片医疗商业推广,真是躲不开、逃不掉啊。这样满屏都是医疗商业推广的搜索引擎,还能安心使用么?

    最后,我们来看一下360搜索!为什么用360搜索压轴呢?因为前段时间360搜索不是宣布清楚医疗商业推广么,我们就来看一看是说说而已,还是说到做到。

    在360搜索输入“脱发”进行搜索,于是我们收获了一个没有商业推广的界面。前排首先提示“看病、挂号请到工信部备案的正规医院、网站,否则医疗效果可能无法得到保障,请谨慎辨别!”下方全部是脱发相关知识以及专业医生的咨询解答,并不涉及任何医疗商业推广。忽然觉得“360搜索,so靠谱”不只是说说而已,既然说了“为了生命和健康,暂时放弃商业利益”,就真的给了用户一个干净的、没有医疗商业推广的搜索环境。

    部长小结:不过看了这么半天的脱发,正事儿就说到这里,脱发还是需要正确的去采取措施,以免错失良机!保持乐观良好的心态,注意饮食睡眠!

    有任何头发问题,都可以添加小编微信号:339616817 详细咨询

    2017年1月中国十大小吃搜索指数排行榜

    本文版权归“网上餐饮怎么玩”所有,转载请注明来源

    1.中国十大小吃搜索指数趋势概况

    根据网络搜索数据,2017年1月搜索指数排名前十的小吃从高到低依次为:关东煮,手抓饼,鸡蛋仔,煎饼果子,紫菜包饭,臭豆腐,章鱼小丸子,鸡排,豆皮,烤红薯。在除夕前后,十大小吃的搜索指数降到最低谷。

    2.十大小吃的粉丝人群属性分析

    上面是2017年1月十大小吃的粉丝人群年龄和性别结构分析数据。其中女性粉丝人群占比最高的小吃是紫菜包饭,为66%。男性粉丝人群占比最高的小吃是臭豆腐,为59%。

    ——————

    “网上餐饮怎么玩”专注分享餐饮线上运营推广工具、方法和案例,目前已入驻今日头条,UC订阅号,搜狐,网易,腾讯,一点资讯。投稿及市场合作请加我们的个人微信号“onmyboat”。