Google 页面抓取的工作原理

时间:2022-05-26   访问量:0

Google SEO搜索引擎优化初学者指南,处理页面抓取板块包含以下两方面内容。

一、更加有效地使用robots.txt文件 

1、用robots.txt文件来限制抓取

robots.txt文件主要用来告知搜索引擎它们是否有权抓取您网站的特定部分。

 

该文件一定要严格的命名为robots.txt , 并被放置 在网站的根目录下。

 

您可能不希望您的网站中的某些页面被抓取 , 也许这些网页在搜索 结果中出现对于用户来说并没多大用处。如果您想防止搜索引擎 抓取这些页面 , 谷歌网站站长工具中有一个非常好用的robots.txt生 成器 , 它可以帮您生成这个文件。需要注意的是 , 如果您的网站使 用子域名而您不想被抓取的某些网页恰好在一个特定子域名下 , 您 需要为那个子域名创建一个单独的robots.txt文件。如果您想了解 更多的关于robots.txt的信息 , 建议您参阅网站管理员帮助中心的 关于使用robots.txt文件的指南。

还有很多别的方法可以保证您的网站的某些内容不出现在搜索结 果中 , 比如说给您的robots元标签加上“NOINDEX”标识 , 使用 .htaccess文件对需要保护的目录加密 , 还可以使用网站站长工具 将已经被抓取的网页从搜索结果中移除。

 

*佳使用方法:

1、对敏感的内容使用更加安全的方法

您可能不会特别放心仅仅使用robots.txt对敏感的或者保密的内容进行屏蔽。其中一个原因是如果 网络上还有一些链接链向这些URL时(比如引用页日志) , 搜索引擎仍然有可能跟踪抓取到您希望屏 蔽的URL , 当然 , 它们只会展示您的URL地址信息 , 而不会展示标题或者内容摘要。一些无赖的搜 索引擎可能并不会自觉遵守机器人排除标准从而违反您的robots.txt的说明。还有其他原因 , 比如一 个好奇的用户可能查看了您robots.txt文件中的目录和子目录 , 并对您不愿对外界展示的内容的URL 进行了猜测。使用.htacess文件对内容进行密码保护或者对内容加密是更加安全的措施。

请注意避免:

允许您网站中一些类似搜索结果的页面被抓取到(用户不喜欢刚离开一个搜索结果页面就进入了 另一个搜索结果页面 , 这对他们来说没有什么价值) ;允许大量自动生成的、有相同或极为相似内容的网页被抓取到 , 用户会想 : “难道这100000页近乎相同的网页真的应该在搜索引擎的索引中出现吗?”; 允许那些因提供代理服务而生成的URL被抓取 。

 

二、谨慎使用rel=“nofollow” 

1、用nofollow打击垃圾留言

如果您把某一链接的“rel”属性设置成“nofollow” , 这意味着您是 在向Google传达这样的信息 : 您不希望Google继续跟踪抓取这些 特定链接所指向的页面 , 并且也不希望将自己网页的声誉传给这些 链接指向的网页。实现这样的效果其实很简单 , 您只需将 rel=“nofollow”放置在链接的锚标签里即可。

 

我应当在什么情况下使用nofollow呢?如果您网站的博客开通了留言 功能 , 这些留言中含有的链接会向一些您根本就不了解也无意推荐 的网站传递您的声誉。博客的留言本经常被垃圾留言所侵扰。

 

Nofollow这些用户生成的链接能够确保您不会将自己好不容易才积 累起的声誉传递给其他的垃圾网站。

 

2、自动给留言板“设置为nofollow”

许多博客软件包会自动nofollow用户的留言 , 即使没有提供这样的 自动功能 , 您也完全可以手动调整成这样。同样的情形还适用于您 网站的其他由用户生成的内容 , 比如留言簿、论坛、引用通告等。 如果某些第三方(比如您的网站信任此留言者)添加的链接得到您的 肯定的话 , 那么您就没有必要对这些链接使用nofollow。但是必须 明确的是 , 如果您链向了某些被Google认为是垃圾的网站的话 , 那 么您自己网站的声誉也会受到影响。网站管理员中心向您提供了更 多关于怎样防止垃圾留言的小建议 , 比如使用CAPTCHAs(输入验证码环节)和启用留言监控功能等。 

 

3、关于为特定的内容或者页面上的所有链接使用nofollow

Nofollow的另一个用途就是 , 当您在写文章并引用某个网站 , 但是 并不想把您的声誉传递给它。例如 , 您正在撰写一篇关于垃圾留言 的博客文章并打算揭发一个*近经常在您的博客上恶意留言的网 站。为了籍此提醒其他的网站提高警惕 , 您把该网站的链接包含在 了您的文章中 ; 但是 , 您显然不想将自己网站的声誉传递给这个作 恶的网站。那么这时候使用nofollow再合适不过了。

 

 

 





Author: globalsir (www.globalsir.com)
版权属于: 外贸先生
版权所有,转载时必须以链接形式注明作者和原始出处及本声明。

儋州市新闻资讯
更多行业动态,技术文档,尽在黑马
免费获取最新方案及报价
期待您与我们进行交流,定制您的专属企业信息化方案

咨询热线

合作咨询 请致电:
15899750475
全国客服电话(周一至周五 9:00-21:00)

微信扫一扫

网站 建设 设计 企业 服务 推广 互联网 程序 网页 产品 微信 创意 建站 更多 优化 做网站 维护 项目 深圳市 中心 策划 内容 上市 在线 seo 排名 成立 网站 建设 设计 企业 服务 推广 制作 互联网 程序 网页 案例 产品 微信 建站 更多 优化 做网站 维护 项目 深圳市 内容 上市 seo 排名 科技 集团 电子 域名 数字  深圳 公司 品牌 客户 技术 咨询 有限 app 创新 手机 提升 市场 建立 管理 合作 	功能 商家 注册 公众 网站建设 空间 邮箱 国内 设备 销售 国际 流程 分析 价格 	公司 开发 有限 技术 客户 行业 定制 咨询 手机 高端 管理 需求 市场 外贸 app 提升 策划 成立 在线 方式 视觉 创新 网站建设 认证 企业认证 宝安 商务 在线 快速 北京 响应 福田 广告 视频 上海 工作  网站 建设 推广 深圳 服务 公司 企业 开发 电话 网络 咨询 有限 定制 客户 行业 手机 技术 app 方案 外贸 中心 打造 龙岗 龙华 保障 需求 广州 管理 推荐 南山 高端 提升 方式