Google中关于检索与查询的区别

   对于查询来说,指用户进行的一次查询,是相对于搜索引擎查询系统而言的;用户提交引擎用于查询的关键词,我们称为“查询词”,例如我们再google上搜索“北京天安门”,“北京天安门”就被我们视为查询词;而经过查询系统分词,北京天安门可以分成“北京”和“天安门”提交给检索系统的。

     “检索”,对于google系统来说,指检索代理对索引库进行的一次检索,检索的结果就是引擎提供的与查询词相关的文档列表。

GOOGLE搜索引擎蜘蛛的等级

首先先谈下GOOGLE蜘蛛起源:

当GOOGLE搜索引擎刚建立之初,就拥有这一个非常强大的的服务器,

其每天放出大量的蜘蛛,我们称为1号蜘蛛,其抓取量抓取速度是非常的快,

对其整个互联网每天进行信息进行的采集,可见服务器的速度是多少快,其实最主要的是后期GOOGLE

将服务器延伸到了很多城市,所以现在你能发现GOOGLE的运算速率是超前的快

IIS W3C日志记录字段和HTTP状态代码的说明

一般情况下很多朋友都不在意IIS日志,有的是因为购买的虚拟主机不给提供,有的是提供了,但是还必须与服务器管理员联系才能得到。像新网的部分服务器ftp目录有这个文件,但是就是提示没权限查看也没有权限下载,还得必须给他们打电话才能要到。

  做为网站拥有者,或者进行网站优化或者是网站推广者,我们应该关注IIS日志,从里面我们不仅仅可以看到网站的访问记录和搜索引擎的抓取记录,还可以看到哪些网站盗链本站的哪些资源、部分死链接以及其他出错信息。其实对于我们来说,蜘蛛抓取记录和相关出错信息是我们最想关注的。哪些蜘蛛什么时间抓取了什么页面,返回的什么结果,是否正常,都可以从日志里清楚的看到。

网页信噪比

信噪比(Signal/Noise),原是电声学领域中的一个概念,指声音源产生最大不失真声音信号强度与同时发出噪音强度之间的比率。在网站优化中同样存在这样的原理,搜索引擎抓取页面,主要抓取除去html标签后的文本内容,这部分内容可以认为是不失真声音信号,而同时产生的那部分html标签内容,可以被认为是噪音。因此,网页信噪音比,可以这样理解:指网页中的文本内容部分与生成这些文本而产生的html标签内容的比率。声学中,信噪比越高,说明声音信号越清晰,同理,网页信噪比越高,说明页面中纯文本内容相对越多,搜索引擎抓取页面也越容易。提示:减少网页中的图片、flash,将html修饰转化为css样式表,封装css、js等,能大幅度提高网页信噪比,一般来说网页信噪音比小于30%为比较合理。

网页搜索引擎的发展方向

互联网存在的价值就是低成本、高容量、多方的信息传递。
互联网每一个杀手级应用都离不开信息和传递这两个关键词。邮箱是、即时通讯是、搜索引擎还是、将来的杀手级应用还依然离不开信息和传递这两个关键词。

搜索引擎的发展历史是一个挖掘用户需求然后满足用户需求的过程。在可以预见的不久的将来,从产品角度看待网页搜索引擎的发展大致有如下几个方面:

深度优先搜索

深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件) 。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度 优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择 时,说明搜索已经结束。优点是能遍历一个Web 站点或深层嵌套的文档集合;缺点是因为Web结构相当深,,有可能造成一旦进去,再也出不来的情况发生。

什么是用户体验,UE是什么?

一、什么是用户体验?用户体验的名词解释

用户体验(User Experience,简称UE)是一种纯主观的在用户使用一个产品(服务)的过程中建立起来的心理感受。因为它是纯主观的,就带有一定的不确定因素。个体差异也决定了每个用户的真实体验是无法通过其他途径来完全模拟或再现的。但是对于一个界定明确的用户群体来讲,其用户体验的共性是能够经由良好设计的实验来认识到。其实,用户体验优化也是网站优化必须考虑的。

用户体验主要是来自用户和人机界面的交互过程。在早期的软件设计过程中,人机界面被看做仅仅是一层包裹于功能核心之外的“包装”而没有得到足够的重视。其结果就是对人机界面的开发是独立于功能核心的开发,而且往往是在整个开发过程的尾声部分才开始的。这种方式极大地限制了对人机交互的设计,其结果带有很大的风险性。因为在最后阶段再修改功能核心的设计代价巨大,牺牲人机交互界面便是唯一的出路。这种带有猜测性和赌博性的开发几乎是难以获得令人满意的用户体验。至于客户服务,从广义上说也是用户体验的一部分,因为它是同产品自身的设计分不开的。客户服务更多的是对人员素质的要求,而已经难以改变已经完成并投入市场的产品了。但是一个好的设计可以减少用户对客户服务的需要,从而减少公司在客户服务方面的投入,也降低由于客户服务质量引发用户流失的机率。

网络蜘蛛,集合的建立


我的理论对于搜索引擎的网络蜘蛛工作来说集合概念有二:

第一:蜘蛛的访问带有该站的url集合(A集合)。

第二:搜索数据库所建立的该url的集合(B集合)。

工作原理:

两种方式激活蜘蛛。

关键词权重的量化方法TF/IDF

今天我想说的是关键词权重的量化方法TF/IDF,为什么说这个呢?因为我们知道,在数量庞大的搜索引擎库里,拥有无数个形容同一事物的词汇,就好像我上次说的手机和彩铃,他们分明是形容同一个类别:移动通讯相关的东西,但是谁的权重更高呢?这就看这个关键词所表达的意思和在具体文章中的意义来判断了。
在搜索引擎中,一个词能够概括这篇文章意思的能力越高,权重就越高,反之则降低,举个例子吧,类似于这样的一个词:“吸烟的危害”,在这个词里面,吸烟是整个文章的一个主词,也就是说,吸烟这个词是整篇文章的核心,而“危害”这个词却能表达很多危害,例如环境污染危害,破坏公物的危害等。剩下的一个词“的”在整个句子里根本就没有任何意义,这样一来,我们的权重问题就可以看的很明白了,具体的权重大小就如下这样

排序的的计算规则

原来我讲过什么是关键词,这次我说说搜索对于关键词的计算。

首先确认三个因素:

【1】web(网络,实际准确的说是搜索已经收录页面的集合)

【2】site(网站的集合,指的是快照中,搜索收录页面的集合)

【3】page(网页)

«12»
Powered By 网站优化  博德科技  google排名网  烟雨遥
 RSS sitemap