NEWS

分享创造价值   合作实现共赢

搜索引擎原理:数据预处理功能

搜索引擎工作原理大致分为三点:采集、预处理、查询,采集和预处理在之前都介绍过了,这里和大家分享一下数据预处理功能。数据预处理主要包含四个方面:关键词提取,镜像网页以及转载网页的处理,链接分析和网页重要程度的计算。以下做详细的介绍:

重复或转载网页的消除:
对于网民来说,希望能找到更多有用信息的机会,对搜索引擎来说,浪费了大量的搜集网页的时间,以及网络宽带资源。
链接分析:
1)搜索引擎可以通过HTML文本标签,来确定关键词的重要性;
2)词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率;
3)文件频率:该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现;

关键词提取:
互联网上的文章,很多包含了大量的和主题内容无关的内容,关键词提取的功能和任务就是要提取出网页源文件的内容部分所含的关键词。提取的方法:一般类似与切词,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定最终的关键词。

重要程度的计算:
1)某些页面是被大量的指向其他页面,某些页面被其他页面大量引用,形成对偶的关系,于是HITS算法出现
HITS算法:在HITS算法中,存在两种页面Authority(权威)页面和Hub(目录)页面,对于Authority页面A,指向A页面的Hub页面H页面越多,那么A页面的质量越高,同样的Hub页面H指向的Authority页面A的数量越多,质量越高,则H页面的质量也就越高。
2)搜索引擎需要将用户索引的结果,以列表的形式,展示给客户,并且在展示中满足用户的搜索需求,因此“网页重要程度”的概念出现了。
3)判定重要性的方法:人们通过参考文献重要性的评估方式,其核心就是–“被引用的最多的就是最重要的”。这种方式,恰好在HTML中超文本链接完美体现

部分名词介绍:
“倒排文字:利用文档中所包含的关键词作为索引,文档则作为索引的着陆页(目标文档),常见的,就像纸质书籍中,索引就是文章关键词,书籍的具体内容或者说页面就是索引目标页。
镜像网页:网页内容一模一样的,未做任何的修改
转载网页:主要内容基本相同,但是多了少量的编辑信息

数据预处理功能合起来用一句话来说:重复或转载页面首先消除,然后提取关键词,加以DF,TF,链接,和算法来判断出网页重要程度。
相关文章
首页 电话 案例 关于