2016-08-24 分类: 网站建设
新获谷歌专利揭示搜索引擎看到实体
专栏作家成都网站设计解释了最近谷歌的专利,暗示在搜索引擎处理的实体信息回答问题。这可以提供提示如何SEO可以构建自己的内容被视为相关。
了解我的人都知道我是一个大风扇的阅读谷歌专利,或者,当我感觉懒惰,阅读他们的分析,Bill Slawski在他的博客里, SEO的海。
我也在那些涉及实体特别感兴趣,因为他们是(至少对我来说)的定义是谷歌试图解决的问题。作为机器学习的发展,实体代表了搜索引擎如何越来越多地看世界。
在我们挖到这个谷歌最新的专利2016年12月22日,这是理所当然的,让我们先定义一个实体为了确保我们都在同一页上。根据专利,定义如下:
[一] n实体是一个事物或概念,是独特的,独特的,明确的和可区分的。例如,一个实体可以是人、地方、项目、理念、抽象的概念,具体的元素,其他合适的东西,或它们的任意组合。
让事情变得简单,你可以随便想一个实体作为一个名词。
另一个定义是很重要的理解非结构化数据这是非常准确的,在维基百科的定义像这样的:
非结构化数据…是指信息,没有一个预先定义的数据模型或是没有组织在一个预先定义的方式。
这下我们的皮带,我们要马上到专利。本文将结构化的方式,我将包括在斜体专利重要路段的确切措辞,其次是每一节 意味着什么的一个解释。
摘要
方法,系统和计算机可读介质提供集体和解。在一些实施方案中,接收查询时,其中的查询相关的至少部分与实体类型。一个或多个搜索结果至少部分基于查询生成。先前生成的数据检索的一个或多个搜索结果的至少一个搜索结果相关,包括一个或多个在至少一个搜索结果对应的实体类型的实体引用的数据。一个或多个实体引用排名,和一个实体的结果是选择从一个或多个实体引用至少部分基于排序。要查询的答案是至少部分地基于实体结果提供。
这是一个不小的摘要描述所包含的全部范围的专利。就抽象而言,我们要看到的是,实体获得排名,而排名确定一个查询的答案。
这是足以吸引我的专利,它的确是准确,但你很快就会看到,有很多描述的不是简单的“我们排名的名词。”
概要
以下摘录 都包含在该专利的摘要部分。
2节
[一] 系统依靠实体引用确定的基础与搜索结果相关的非结构化数据提供自然语言搜索查询的答案。…[不]他系统获取额外信息,例如预处理相关的至少一些搜索结果…附加信息包括各自的网页,在网页中出现的人的名字。在一个例子中,为了回答“谁”的问题,该系统将出现在搜索结果的前十名,在附加信息识别。该系统识别最常出现的名字作为答案…
在摘录以上,我们开始看到背后的系统方法。谷歌是在这里讨论的是确定的回答“谁”的问题的想法,他们将出现在搜索结果的前10名最常见的名字。
4节
“[T]他查询是一种自然语言查询…排名的一个或多个实体引用,包括基于至少一个信号排名排名。在一些实施方案中,一个或多个排序信号包括频率的各个实体引用的发生。在一些实施方案中,一个或多个排序信号包括各实体引用局部性评分。在一些实施方案中,先前生成的数据与非结构化数据。
进一步的信息上的方法是在专利概述,我们看到在一个文档中使用的 术语的频率,可能跨越多个文件。此外,我们看到,性是一个关联因素,这是应用于非结构化数据的方法。
5节
[问]题可供查询的自动化和不断更新的时尚。在一些实施方案中,问答可以利用搜索结果排序技术。在一些实施方案中,问题的答案可能是基于网络的非结构化内容自动识别。
在本节中,我们看到它的钢筋,问题的答案可能是基于搜索结果或排序法确定,但似乎我们也看到专利扩展到包含问题的答案基于其他技术及其在非结构化数据的能力,确定答案的自动测定。
专利美国2016 / 0371385 A1的真正的肉
部分14至96 给予详尽的图像描述、流程图和真正的肉类包括本专利。一些图像将包括以下一些简单地指出,这取决于在信息将得到更好的。
19节
“[T]他系统获取实体引用与排名前十的搜索结果相关。…和/或选择排名是根据质量得分,新鲜度得分,相关性,其他任何合适的信息,或它们的任意组合。
在这里,我们看到谷歌阐明不同类型的实体和答案可能是基于不同的信息。例如,新鲜度可以作为一个更强的信号如果你看天气,而质量可能如果你正在寻找一个定义更强壮,健康信息等。
20节
我得承认,我读了一本第几次完全掌握他们在谈论什么。本节涉及的专利图1,如下:
一个问答按照目前披露的一些实现高水平的系统框图。
一个高层次的系统的框图问答,按照一些实现本发明的。
他们写的:
[从实体引用110与一个特定的网页相关的检索]他信息列表出现在网页的人。例如,一个特定的网页可能包括一些人名,和实体引用110可以包括一个列表的名称包含在网页。实体引用110也包括其他信息。在一些实施方案中,实体引用110包括实体引用不同的类型,例如,人,地方,和日期。在一些实施方案中,多个实体类型的实体引用作为一个单一的实体引用注释列表维护,作为分隔的列表,在任何其他合适的格式的信息,或它们的任意组合。这可以理解,在一些实施方案中,实体引用110和108指数可能存储在一个单一的指标,多指标,在任何其他适用的结构,或它们的任意组合。
背后的想法是他们这里指的是在专利在其他地方重复。其中一个大问题,我想到在阅读该专利是巨大的处理能力要。如果任何实体搜索需要运行在它自己的索引的查询引擎,过程的前10个结果,然后确定哪些条款经常被用来建立一个问题最可能的答案,一个搜索结果,这样的处理会把更多资源。
在20节中,他们讨论了这个方法,这是预设的参考文献列表(图110)从指标本身分开。
所以,当一个查询像“dave davies是谁”时,数据是从指标得出(确定有答案的可能,但第二页)参考点(110)也表明将包含实体数据(如多少次,“dave davies”是每个文档中提到的),从而节省了谷歌需要算出它的飞行。
21节
[O] NE或更多的排名指标是用来实体引用的排名,包括发生频率和话题性评分。发生频率涉及次实体引用出现的次数,一个特定的文件内,收集的文件,或其他内容。地区性的评分包括实体引用和它的内容之间的关系。
撇开对术语的使用次数的重复作为一个指标,在这一节中我们也看到一个强化的时效性。虽然这可能涉及到一个网站的主题和加权参考应该有关联,我倾向于相信这更多的是有助于理解实体引用。
例如,如果实体的“dave davies”是一个相关的SEO页面看到,那可能是我。另一方面,如果“戴夫戴维斯”出现在一个与音乐有关的页面,这可能是“问题人”(我喜欢称他)。
看到更多的“dave davies”音乐的主题相关的网页会帮助他们在选择显示:
谷歌的结果,谁是dave davies
25节
“[T]他系统订单,基于一个或多个质量分数的搜索结果。在一些实施方案中,质量分数包括相关的搜索查询,与搜索结果相关的质量得分,一个数据的时候,内容最后生成或更新相关的新鲜度评分,与特定的搜索结果以前的选择从一系列的搜索结果评分,其他合适的质量分数,或任何组合。在一个例子中,一个与搜索结果相关的质量得分可能包括链接的数量和相应的网页。
在25节中,我们看到更多的质量评分澄清作为度量。这一部分,当然,也包括 不只是其参考的链接作为一个质量指标,而且导出链接包含作为一个可能的信号。
28节
“[T]他系统生成一个集实体引用出现在网页通过结构化或非结构化的文本中的一个已知的实体引用,例如一个名单。在一些实施方案中,实体引用先前不知道的基础上发生的频率或其他聚类技术鉴定。在一些实施方案中,实体引用人实体引用,例如,出现在一个网页的文本的人的名字。在一个例子中,系统维护一个列表中的所有在一个特定的网页中出现的人的名字,并列表检索网页时,出现在搜索结果的顶部结果206盒。
在28节中,我们看到的理解出来,不是所有的实体都是已知的,和开发方法需要了解新的。这就首先提到在互联网上一个人发生,新建筑的开发等。谷歌将利用其了解其他实体的引用(例如,位置在页面)开始添加新的实体,实体引用列表(见“110”在上面的图1)。
36节
在一些实现中,系统处理的网页和其他内容的识别实体引用。在一些实施方案中,系统进行离线处理,这样在搜索的时候获得。在一些实施方案中,该系统处理信息的实时搜索的时间。
在36节中,我们看到系统论述适应更快的结果通过离线处理,我们看到在20节早些时候。我们也看到参考系统,实时操作。显然,有查询类型,就需要这个(天气),和一个可以认为谷歌将有可靠来源的这类信息的列表,使他们仍然处理信息迅速,以最少的资源。
37节
[我]是条目包括实体引用,一个独特的标识符和实体引用相关的实体引用的频率发生,在实体引用出现的页的位置,与内容如新鲜和订购相关的元数据,其他任何适用的数据,或它们的任意组合。在一些实施方案中,先前产生的数据可能包括类型的实体引用,例如,一个人,一个地点,日期,任何其他适合的类型,或它们的任意组合。在一些实施方案中,先前生成的数据包括识别实体作为一个特定类型的信息,如人的实体引用,一个实体引用,或一次实体引用。在一些实施方案中,多个数据集可以为网站或其他内容,其中每一组都与一个或多个类型相关。在一个例子中,一个网站可以与表人的实体引用发生和列表的位置发生的相关实体引用。
对于那些好奇的不同的实体将被孤立,我们这里有我们的答案,他们在那里讨论“唯一标识符”实体。这是,而不是思维的问题,Dave Davies Dave Davies,笔者这篇文章,为“Dave Davies的两个版本,谷歌会认为我们有一个相同的属性标识符。
你或我都会想到他们的名字的人,谷歌不会;他们会认为他们的独特的、可能的字母数字、序列。我会说明下文,但在其最简单的形式,它可能看起来像:
Unique ID(0000000 1A)–>的名字(Dave Davies)->工作(音乐家)
和
Unique ID(0000000 1b)–>的名字(Dave Davies)->工作(SEO)
过去,这一部分主要强调认识SEO和关联性强化因素如实体使用频率,对内容、链接的网页的位置,等等。
38节
[阿]他们的名字或内容发生实体引用,可以用来消除歧义的参考。在一个例子中,[乔治·华盛顿]的名字出现在同一个文本,[ Martha Washington ]可能会被认定为与列表中的美国总统的一个独特的实体引用,而[乔治·华盛顿]发生在同样内容的[大学]和[华盛顿D.C. ]是关于[乔治华盛顿大学]。
在这一部分中,我们进一步看到实体是如何通过上下文理解。当有两个或更多的实体具有类似名称的属性、专利概述从页的附加数据以帮助确定具体的实体的使用被引用。
用我的例子,一提到“Dave Davies”的页面上出现“扭结”而不是0000000磅副Dave Davies独特的ID 0000000 1A以上。
41节
另一个例子中,系统通过将出场的文档或任何其他合适的度量长度决定了频率。
老实说,包括我的一部分41节在这写的是,这可能是我最后一次能够参考关键字密度作为一个没有背景”在本世纪初的度量的唯一原因。”
有趣的是,这正是他们在这里,在这方面确实有道理。如果是用在排名前10位的结果作为一个问题的答案的一个指标参考实体的频率,我们应该考虑到一个10000字的页面应该有不同的影响,数量比一页,700字。
尽管如此,你可能从来没有读过或听到的唯一ID 0000000 1b再次关键词密度参考。
42节
“[T]他系统使用性评分作为排名的信号。在一些实施方案中,地区性的评分包括新鲜,文档的年龄,链接的数量和/或文件,在以前的搜索结果的文档选择的号码,有实力的文档和查询之间的关系,任何其他合适的分数,或它们的任意组合。在一些实施方案中,一个地区性的分数取决于实体引用,其中实体引用出现的内容之间的关系。例如,实体引用[乔治·华盛顿]可能有较高的地区性得分在历史网页比当前的新闻网页。另一个例子中,实体引用[巴拉克奥巴马] 可能在政治网站有较高的地区性得分比在法学院网站。
在本节中,我们看到谷歌澄清性意味着什么,它的影响将会对结果。这将不是一个特定的实体的选择一个答案(例如, 选择Dave Davies被引用)更多的是在什么样的数据是用来制作答案。
例如,他出生的八个孩子最后不是局部相关足以被包括在“谁是dave davies”,如上图所示的答案,而是信息如他的出生日期和乐队。所有这些信息是准确的,但由于地区性信号如频率在文件,更“重要”的信息选择。
47节
47节是最重要的人物要想真正了解谷歌是如何回答问题的逻辑和数据组织。所以在我们开始写的是什么,让我们在例子看。注意红色文字不是最初的专利部分已经加入由我来提供上下文是很重要的。
通过数据图包含按照节点和边与本发明的一些实现
每个包含一块或数据块的边缘节点代表包含在边缘连接的节点的数据之间的关系。在一些实施方案中,图中包括一对或多对一个边缘连接的节点。的边缘,这样的图,可以引导,即单向的,无向的,即双向的,或两者兼而有之,即一个或一个以上的边缘可以向和一个或多个边缘可能在同一个图有方向性。
节点的引用是圆形元素和包含数据;线边缘和包含关系。例如,Dave Davies(402)的兄弟Ray Davies(404),都有带扭结(408)。
这个图很简单容易理解。在现实中,这些节点将是独特的ID,这些ID将元素”的名字”,但我们的目的在这里,上面的插画作品。
52节
一个领域是指一组相关的实体类型。例如,域[电影]可能包括,例如,实体类型[演员],[导演]、[拍摄地点],[电影],任何其他适用的实体类型,或它们的任意组合。在一些实施方案中,实体与多个域类型相关。例如,实体结[本杰明·富兰克林]可能与实体类型节点[政客]域中的[政府]以及[创造者]实体型节点在域[企业]。
在本节中,我们看到的信息进一步分组域。合理的,我们可以假设大多数或所有域也会在其他的应用程序节点。“基努里维斯,”为例,将一个节点连接到另一个节点”的电影“边缘”的行为。” 这两节点将包含域中的“电影”。
56节
“[T]他知识图可以包括分化和条款和/或实体消歧信息。本文所使用的分化指的是多对一的情况下,多个名字都与一个单一的实体关联。本文所使用的消歧义是指一对多的情况下,相同的名字与多个实体关联。在一些实现中,节点可以被分配一个独特的识别标准。在一些实施方案中,独特的识别可以参考一个字母数字字符串,一个名字,一个数字,二进制代码,任何其他合适的标识符,或它们的任意组合。独特的识别参考可以让系统分配唯一的参考节点具有相同或相似的文本标识符。在一些实施方案中,独特的标识符和其他技术用于分化,消歧,或两者。
在56节中,我们得到了澄清的分化(解决的情况下,有很多的名字,一个实体 例如:电影,电影,电影)和消歧(解决方案有一个名字由多个实体–例如:Dave Davies分享)。
我们说的话的唯一标识符和其使用的部分。总之,你不是你,没有实体本身是在我们沟通。每个实体都是一个独特的身份,和唯一的ID分配给节点,包括常见的参考资料,如姓名和特征。
58节
[不]在这里可能是城市[费城]相关实体的节点,对电影[费城]相关实体的节点,和奶油奶酪品牌[费城]相关实体节点。每一个节点可以有一个独特的识别依据,存储例如数、消歧在知识图。在一些实施方案中,在知识图的消歧的连接和节点之间的关系提供了。例如,城市[纽约]可以消除从国家[纽约]因为城市是连接到一个实体类型[城市]和国家是连接到一个实体类型[国家]。它可以理解,更复杂的关系也可以定义并区分节点。例如,一个节点可以通过相关的类型定义,其他实体的特殊性质与它的连接,通过它的名称,任何其他适合的信息,或它们的任意组合。这些连接可能有助于消除歧义,例如,节点[格鲁吉亚]是连接到节点[美国]可以理解代表美国国家,而节点[格鲁吉亚]连接到节点[亚洲]和[东]可以理解为代表的东欧国家。
在第58节讨论如何具体的实体可以由节点和连接识别,真正重要的是,这是一种他们将决定哪个答案更可能是正确的。本文将结合节点,在这一部分,讨论的领域,如前面所讨论的。如果我问谷歌的问题:
“谁是费城?“
谷歌了解到,根据问题的类型最有可能的参考(我寻找的人)是电影“费城”。它可能是一个去过的城市,所有已知的人的名单的回答,但它的 可能就是我想要的信息。因此,谷歌提供了基于电影的答案。如果我改变我的问题:
“有多少人在费城?“
答案是谷歌给出的是155万3000。它可以用在电影的演员总数的回答,但它选择了什么感觉是最有可能的答案是寻求基于实体和被寻找的数据帧。
61节
【N】颂歌和边缘的实体类型定义节点与其性能之间的关系,从而定义一个模式。
在这里,我们看到谷歌基本上把非结构化数据到一个结构通过创建自己的模式的边和节点在以前的定义。这将使谷歌的人产生自己的图式(例如)不断调整、添加和删除与之相关的图式。
68节
[的]各自的知识图保持各自不同的领域,不同的各自的实体类型,或根据任何其他合适的界定特征。
在本节中,我们看到谷歌针对不同类型的数据创建知识图的不同类型。这是不同的,框架基于信息所要求的类型的答案。我们会到为什么这是重要的下面。
还等什么?
现在我们已经进入了信息的关键位结束,你可能会问, ”怎么样?“好的问题。
在了解谷歌如何组织数据,本身是一件好事,有具体的可操作的项目我们可以带走这可以显著提高我们的排名和相关性。部分是,他们不努力,实际上并不需要太多的努力 只是了解你想要什么。
包括数据让你有关。好的, 现在我要脱下我的“队长”的帽子,指出,如果我们只看现场回答来自什么数据有实体,我们可以更了解谷歌找到相关的特定主题。而谷歌要给一个答案,他们也希望他们的用户有机会获得更完整的数据,如果需要的话。因此,他们将更可能排名的网站,而不只是他们想要的答案,但可能支持信息的搜索也可以找。
创建结构化的非结构化的数据,而这显然是理想的使用标记 构造你的数据引擎,它也是重要的框架内容等信息可以连接没有它。谷歌希望通过内容来确定自己的连接,所以使用语句如“Dave Davies是一个吉他手扭结”将帮助谷歌了解具体是哪个Dave Davies你指的是什么,他的角色是谁,作用是。语句如“扭结”Dave Davies将有可能达到正确的实体;然而,数据将不会被视为全面完成。 好的谷歌,因为他们可以在其他地方获得的信息。不过,如果我们想要好的排名,我们应该努力 彻底。
和更多的结构,这是之前所说的,这个专利了,我们需要寻找的方式传递知识和我们自己的数据结构。如果你看了这个问题的答案,“谁是dave davies”上面,你会发现答案是段落格式。如果我们考虑专利,我们会认为这是谷歌是如何连接这些类型的查询实体之间的点。因此,如果我们有Dave Davies的一页,我们要结构信息在段落格式而不是列表。这是不同于“我如何…”式的查询,往往采取列举他们的答案格式。这是在68节讨论的,它将影响的不只是我们的排名问题答案的能力,而且谷歌如何解释我们的网站,我们的内容结构的有效性。
结论
实体,在我如此卑微的意见,了解谷歌的算法最重要的一个方面,而这项专利增加了理解。理解实体是如何理解谷歌的看法它遇到的每件事物之间的联系。这有助于决定你应该如何组织你的内容(这样的内容应该包括)被视为不相关,但最相关的。
网站题目:新获谷歌专利揭示搜索引擎看到实体
分享网址:https://www.cdcxhl.com/news/21106.html
成都网站建设公司_创新互联,为您提供用户体验、定制网站、网站设计公司、服务器托管、微信公众号、标签优化
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容