扩增查询
通常,本说明书的内容涉及识别或生成扩增查询、存储扩增查询以及识别存储的扩增查询以用于扩增使用者在研究google seo时搜索。扩增查询能够很好地定位所搜索内容中的文档,查询的性能取决于使用者交互。例如,使用者输入相同的查询内容后通常只选择搜寻结果中与查询相关结果内容其中的一条或更多条时,该查询会被指定为扩增查询。
除了使用者提交的实际查询之外,扩增查询还包含了利用机器生成的综合查询。例如,可以通过挖掘文档语料库和识别流行文档中的搜索项来确定扩增查询。这些流行文档可包含搜索结果中经常被选择的文档。确定扩增查询的另一种方式是挖掘结构化数据,比如商业电话列表和识别包括结构化数据的术语查询,比如商业名称,这些扩增查询可以存储在扩增查询数据存储中。当使用者利用搜索引擎进行搜索查询时,其所提交的查询内容会被评估并将其与存储的扩增查询内容进行匹配,以选择一个或多个类似的扩增查询结果。反过来,所选择的扩增查询可以被搜索引擎用于扩增搜索操作,从而获得更好的搜索结果。比如,通过类似的扩增查询所获得的搜索结果可以与使用者查询获得的搜索结果一起呈现给使用者。
今年3月,Google获批了一项专利,该专利涉及向查询提供查询质量得分(以上引用来自该专利)。该专利将高评分查询称为扩增查询。有趣的是,搜索选择有可能用于决定查询质量。所以,当有人搜索时,Google会基于前期利用类似查询方法或综合方法所得的查询内容将他们收到的原始查询与扩增查询结果进行对比。对于扩增查询的评估是基于哪些搜索结果在过去获得更多的点击量。Google可决定将扩增查询的结果添加到搜索查询的结果中,以改善整体搜索结果。
Google如何找到扩增查询?能够解答这个问题是查找日志和点击日志。该专利告诉我们:
为了获得扩增查询,扩增查询子系统可以检查用于指示使用者交互的性能数据以确定在定位期望的搜索结果时查询性能良好。例如,扩增查询可通过挖掘查询日志和点击日志来识别扩增查询。通过查询日志,扩增查询子系统可以识别使用者一般的查询内容。点击日志可用于识别哪些使用者查询效果最佳,这个是可以通过每个查询关联的点击次数反映出来。扩增查询子系统存储了查询日志挖掘的扩增查询和/或扩增查询存储中的点击击日志。
也就是说,谷歌并不是使用点击来直接确定排名,但是它决定哪些扩增查询能为人们提供可能满意的SERPs。
Google可能会查看其他的内容以决定在一组搜索结果中使用哪些扩增查询。该专利指出了一些其他可能有用的因素:
在实际使用中,同义词得分,编辑距离得分和/或转换成本得分可以应用于每个候选的扩增查询内容中,还可以基于候选扩增查询的搜索结果与搜索查询的相似性来确定相似度得分。
在其他使用方式中,同义词得分,编辑距离得分和其他类型的相似性得分可以逐项地应用于被比较的搜索查询内容中,然后可使用这些分数来计算两个查询之间的总体相似性得分。例如,分数可以平均,也可以添加分数,或者可根据单词结构(如,比形容词加权的名词)对得分进行加权平均,然后基于相对相似性得分对候选扩增查询进行排序。
在提到综合查询之前,我已经看过谷歌的白皮书。这些查询是由搜索引擎而不是搜索使用者执行的查询。谷歌有必要以这样的方式探索查询空间,看看结果是什么样的,并使用结构化数据等信息作为综合查询的来源。之前我在文章中至少写过几次关于综合查询内容的文章—谷歌搜索谷歌吗?谷歌如何创建和使用合成查询。
查询质量的隐式信号
这是一项有趣的专利,因为它涉及长点击和短点击等内容,并根据这些内容对网页进行排名。该专利就是“查询质量的隐含信号”。更多关于专利的内容:
在某些使用中,查询质量的隐式信号用于确定是否可以将查询用作扩增查询。隐式信号是基于响应使用者查询操作的信号。如隐式信号可以包括与不同使用者查询相关的点击率(CTR)、长点击度量和/或点击率降级还原(在点击日志中记录)。当设备的使用者选择或“点击”搜索引擎返回的搜索结果时,可以对查询进行点击。CTR是通过将点击搜索结果的使用者数量除以提交查询的次数得到的。举例,如果查询被输入100次,80个人点击搜索结果,那么查询的CTR为80%。
当使用者在点击搜索结果后停留在登录页面(即,搜索结果链接到的文档)的搜索结果或点击登录页上显示的其他链接,长时间的点击可以解释为查询识别使用者认为感兴趣信息的信号,因为使用者在登录页面上花费了一定的时间,或者在登录页面上发现了其他感兴趣的内容。当使用者点击搜索结果并被提供所引用的文档后,迅速从所引用的文档返回到搜索结果页面时,就会发生点击率降级(也称为“短点击”)。当使用者快速返回搜索结果页面时,通过点击返回可以看做查询并没有识别使用者所感兴趣内容的信号。
这些示例隐式信号可以对每个查询进行收集,例如通过收集查询时在搜索操作中使用的多个实例的统计信息,并进一步用于计算总体性能得分。例如,一个具有高CTR、多次长时间点击和很少点击率降级的查询可能具有高性能的得分;相反,如果查询的CTR很低,长时间点击较少和点击率降级较多,那么该查询的性能可能很低。
该专利背后的过程/程序在专利描述部分被解释,我们可知的是:
通常,使用者提供的查询会导致搜索引擎返回使用者不感兴趣的结果或不能完全满足使用者对信息的需求。搜索引擎可能会由于某些原因而提供一些结果,比如查询内容的权重不能反映使用者的兴趣(例如,当查询使用者所认为很重要的一个词时,该词会被搜索引擎所归为相比于其他词的比重较小),查询不能很好地表达所需的信息,或者查询包含拼写错误的单词或非传统的术语。
查询词的质量信号可以这样定义:
质量信号表明第一次查询在为搜索引擎中的第一次搜索操作的一个或多个实例识别使用者感兴趣的信息方面的性能;确定质量信号是否能表明第一个查询可超过性能阈值;如果质量信号表明第一个查询超过性能阈值,则将第一个查询存储在扩增查询数据存储中。
该专利可在以下网址找到:
查询扩展
发明者:Anand Shukla, Mark Pearson, Krishna Bharat和Stefan Buettcher
代理人:谷歌公司
美国专利:9916366
授权:2018年3月13日
提出:2015年7月28日
摘要
用于生成或使用扩增查询的方法、系统和设备,包括计算机程序产品。在一个方面,识别存储在查询日志中的第一个查询,并将与第一个查询的性能相关的质量信号与性能阈值进行比较。如果质量信号能表明第一个查询超过性能阈值,则第一个查询将存储在扩增查询数据中存储。
关于扩增查询的引用
这是专利申请人引用的一些参考文献,看起来很有趣,所以我查了一下,看看能不能找到他们来阅读并分享。
- Boyan, J. et al., A Machine Learning Architecture for Optimizing Web Search Engines,” School of Computer Science, Carnegie Mellon University, May 10, 1996, pp. 1-8. cited by applicant.
- Brin, S. et al., “The Anatomy of a Large-Scale Hypertextual Web Search Engine“, Computer Science Department, 1998. cited by applicant.
- Sahami, M. et al., T. D. 2006. A web-based kernel function for measuring the similarity of short text snippets. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23-26, 2006). WWW ’06. ACM Press, New York, NY, pp. 377-386. cited by applicant.
- Ricardo A. Baeza-Yates et al., The Intention Behind Web Queries. SPIRE, 2006, pp. 98-109, 2006. cited by applicant.
- Smith et al. Leveraging the structure of the Semantic Web to enhance information retrieval for proteomics” vol. 23, Oct. 7, 2007, 7 pages. cited by applicant.
- Robertson, S.E. Documentation Note on Term Selection for Query Expansion J. of Documentation, 46(4): Dec. 1990, pp. 359-364. cited by applicant.
- Talel Abdessalem, Bogdan Cautis, and Nora Derouiche. 2010. ObjectRunner: lightweight, targeted extraction and querying of structured web data. Proc. VLDB Endow. 3, 1-2 (Sep. 2010). cited by applicant .
- Jane Yung-jen Hsu and Wen-tau Yih. 1997. Template-based information mining from HTML documents. In Proceedings of the fourteenth national conference on artificial intelligence and ninth conference on Innovative application of artificial intelligence (AAAI’97/IAAI’97). AAAI Press, pp. 256-262. cited by applicant .
- Ganesh, Agarwal, Govind Kabra, and Kevin Chen-Chuan Chang. 2010. Towards rich query interpretation: walking back and forth for mining query templates. In Proceedings of the 19th international conference on World wide web (WWW ’10). ACM, New York, NY USA, 1-10. DOI=10. 1145/1772690. 1772692 http://doi.acm.org/10.1145/1772690.1772692. cited by applicant.
这是对扩增查询的第二种查看
这是一个延伸专利,这意味着它以前是被授予了,已存在同样的描述,而现在有了新的要求。当这种情况发生时,有必要看看旧的声明和新声明,看看它们是如何变化的。我喜欢新版本,似乎更注重结构化数据。它能告诉我们,查询使用结构化数据已综合查询的形式出现在站点中。如果这些数据满足性能阈值,它们可能会被添加到在原始查询中的搜索结果中。声明似乎更多地关注综合查询时的结构化数据,但它并没有真正改变声明。他们没有做出足够的改变来将它们进行比较后一同发表。
谷歌对结构化数据和排名说了什么
谷歌的发言人一直在告诉我们,结构化数据不会直接影响排名,但最近他们的说法似乎有所改变。在搜索引擎圆桌会议(Google: Structured Data Doesn’t Give You A Ranking Boost But Can Help Rankings)后,我们可知,网站上的结构化数据并不会自动增加网页的排名,但是网页上的结构化数据能够被用作综合查询,并且它须如扩增查询一样满足性能阈值。这样就有可能会出现在排名之中,对排名也是有帮助的(如专利所述)。
请注意,这并不是什么新技术,延伸专利的声明似乎并没有发生太大的变化,因此结构化数据仍然被用作综合查询,并可以被检查以查看它们是否可以作为扩增查询使用。这似乎确实是一个很好的理由来确保您为您的页面使用适当的结构化数据。
一个符合google SEO 的外贸营销型网站,包含方方面面,复杂又耗费精力。代码程序,结构化数据考验一个公司的综合实力。引擎力,将是您的最佳选择!把钱花在刀刃上!