Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 16|回复: 0

[BUG报告] 的页面中的所有信息

[复制链接]

19

主题

19

帖子

61

积分

注册会员

Rank: 2

积分
61
发表于 2025-1-16 17:40:37 | 显示全部楼层 |阅读模式
这使用网络爬虫,“爬虫”按照找到的所有链接在互联网上导航。目的是收集您访问过,以便将其保存在其服务器上。 从那里,他们根据一些参数(算法)组织所有这些信息并将其存储在索引中,然后显示给用户。

如果您想了解更多关于它是如何工作的,这里有官方文档

Googlebot 不仅仅由一个爬虫组成,它使用多个爬虫来查找网络上的所有类型的信息。  必须考虑到这一事实,因为每个爬虫通常关注不同类型的信息:图像、视频、移动等。

谷歌在这里向我们介绍了它们及其功能:谷歌跟踪器

Crawl Budget最准确的定义是指Google在一定时间内在网站 科威特数据 上抓取的页面数量,可以翻译为Google分配给网站抓取和索引的时间和资源的预算。

为什么 Google 会给网站分配抓取预算
尽管看起来可能并非如此,但谷歌并没有无限的资源来抓取互联网,它会分配这些资源来抓取互联网上数十亿的页面。因此,他们需要一种方法来确定资源的优先级,通过考虑将 X 资源分配给 Y 或 Z 的机会成本, 实现最有效的跟踪。

为每个网站分配抓取预算可以帮助他们有效地执行此操作,以免在价值不大的网站(垃圾邮件网站)上浪费服务器上的资源。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2025-5-30 13:43 , Processed in 0.078105 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表