当前位置: 首页> SEO资讯> SEO网站优化,搜索引擎预处理规则
SEO网站优化,搜索引擎预处理规则
发布日期:2020-05-12 17:00:00

最后介绍了搜索引擎的工作原理,其中最重要的是搜索引擎的预处理规则。他们的规则是什么?

搜索引擎蜘蛛捕获的原始页面不能直接用于查询排名处理。搜索引擎数据库中的页面超过万亿级。用户输入搜索词后,可以通过排名程序实践分析这么多页面的相关性。计算量太大,无法在一两秒钟内返回结果。因此,他们必须在我们最后一次准备好查询排名时预处理捕获的页面。

搜索引擎预处理-九条规则

当前的搜索引擎仍然基于文本内容。除了用户可以在浏览器上看到的可见文本外,蜘蛛捕捉到的页面中的HTML代码还包含大量HTML格式标签、JavaScript程序等不能用于排名的内容。搜索引擎预处理的第一件事是从HTML文件中删除标记和程序,并提取HTML代码,这些代码可用于对通过排名处理的页面文本内容进行排名。

例如,此代码:

divid=“post-1100”class=“post-1100posthentrycategory-seo”

divclass=“职位”

Title=“永久链接到今天的愚人节ha”今天的愚人节ha/A/H2

删除HTML代码后,只剩下这句话:今天是愚人节哈

分词是中文搜索引擎中一个独特的步骤。搜索引擎存储和处理基于单词的页面和用户搜索。英语和其他语言的单词之间有空格。搜索引擎索引器可以直接将句子分成词集。中文单词之间没有分隔符。一个句子中的所有单词都是相连的。搜索引擎必须首先区分哪些词组成一个词,哪些词是一个词。例如,“公务员考试”将分为“公务员”和“考试”。

汉语分词方法基本上有两种,一种是基于词典匹配的分词方法,另一种是基于统计的分词方法。

基于字典匹配:将要分析的汉字与预选字典中的条目匹配,扫描要分析的汉字字符串并在字典中找到一个成功的条目,或者删掉一个单词。

基于统计匹配:分析大量文本样本,统计相邻词在计算机上出现的概率,相邻的几个词出现的越多,就越有可能形成一个词。基本统计方法的优点是对生词的反应速度快,有助于消除歧义。

无论是英文还是中文,页面内容中都会出现一些频率较高的词语,这些词语对内容没有影响,如“de”、“Di”、“de”等助词,如“a”、“ha”、“Ya”等感叹词,如“so”、“Yi”、“Que”等副词或介词。这些词被称为停止词,因为它们对页面的主要意思几乎没有影响。英语中常用的停止词是The,a,an,to,of等。

搜索引擎会在索引页之前删除这些停止词,使索引数据主题更加突出,减少不必要的计算。

页面上的大部分内容对页面主题没有贡献,如版权公告文本、导航栏、广告等,以常见的博客导航为例,几乎每个博客页面都会有文章分类、历史档案等导航内容,这些页面本身与此无关“分类”和“历史”两个词。当用户搜索“历史”和“分类”关键字时,仅仅因为这些词出现在页面上而返回到博客文章是没有意义和无关的。所以这些地区和城市都致力于噪音,噪音只能在网页的主题上起到分散的作用。

搜索引擎需要识别并消除这些噪声,并且不要在排名中使用噪声内容。去噪的基本方法是根据HTML标签对页面进行分块,区分页眉、导航、正文、页脚、广告等区域。网站上大量重复的块经常是噪音。页面去噪后,剩下的部分就是页面的主要内容。

重复数据消除的基本方法是计算页面特征关系词的指纹,即从页面的主要内容中选择大部分关键字(通常是频率最高的关系词),然后计算这些关键字的数字指纹。这些关键字是经过分词、停词和消噪后选择的。一般来说,选择10个特征关键字可以达到较高的计算准备度,而选择更多的关键字对重复数据消除的准确性贡献不大。

简单地加上“de”、“Di”和“de”来改变文本段落的位置等伪原创方法都无法避免搜索引擎的重复数据消除算法。

页面上的哪些链接指向哪些其他页面,在每个页面上导入链接,链接使用什么锚文本,这些复杂的链接指向关系形成网站和页面的链接权重。

除了HTML文件,搜索引擎通常可以捕获和索引各种基于文本的文件类型,如PDF、word、WPS、xls、PPT、txt文件等。我们经常在搜索结果中看到这些文件类型。但目前的搜索引擎无法处理图片、视频和flash等非文本内容,也无法执行脚本和程序。

尽管搜索引擎在识别图片和从flash中提取文本内容方面取得了一定的进展,但距离直接读取图片、视频和flash内容返回结果的目标还很远。图像和视频内容的排序通常基于相关的文本内容。

以上是SEO网站优化搜索引擎的预处理规则,对SEO网站优化感兴趣,欢迎继续关注。每天更新

在线咨询 电话咨询