搜尋系統

搜尋系統 (Search Systems) 通常就是我們所說的搜尋引擎 (Search Engines),例如 Google、Bing、DuckDuckGo 等。這些是極其複雜的系統,解決了技術史上一些最大的挑戰。

搜尋系統主要有四大職責:

  • 爬取 (Crawling):遍歷網路並解析所有網站的內容。這是一項龐大的任務,因為目前有超過 3.5 億個網域
  • 索引 (Indexing):找到儲存爬取階段收集的所有資料的位置,以便後續存取。
  • 渲染 (Rendering):執行頁面上的任何資源(例如 JavaScript),這些資源可能會增強功能並豐富網站內容。並非所有被爬取的頁面都會經歷此過程,有時渲染會在內容實際被索引之前發生。如果爬取時沒有足夠資源執行此任務,渲染也可能在索引之後進行。
  • 排名 (Ranking):查詢資料以根據使用者輸入產生相關的結果頁面。這是搜尋引擎應用不同排名標準的地方,目的是為使用者提供最能滿足其意圖的最佳答案。

在下一節中,我們將更詳細地了解 Googlebot 的運作方式。Googlebot 是 Google 的網路爬蟲,屬於搜尋系統的一部分,負責收集建立龐大內容資料庫所需的所有資訊,以提供搜尋結果。