什麼是 robots.txt 檔案?
robots.txt 檔案 用於告訴搜尋引擎爬蟲 (crawler) 哪些頁面或檔案可以或不能從您的網站請求。robots.txt
是一個網路標準檔案,大多數 友善爬蟲 (good bots) 在請求特定網域的內容前都會先讀取此檔案。
您可能會希望保護網站某些區域不被爬取,進而避免被索引,例如您的 CMS 或管理後台、電子商務中的用戶帳戶,或某些 API 路由等。這些檔案必須放在每個主機的根目錄下,或者您可以將根目錄的 /robots.txt
路徑重新導向至目標 URL,大多數爬蟲都會遵循此設定。
如何在 Next.js 專案中添加 robots.txt 檔案
得益於 Next.js 的 靜態檔案服務 (static file serving),我們可以輕鬆添加 robots.txt
檔案。只需在根目錄的 public
資料夾中建立一個名為 robots.txt
的新檔案即可。以下是一個範例內容:
//robots.txt
# 封鎖所有爬蟲存取 /accounts
User-agent: *
Disallow: /accounts
# 允許所有爬蟲
User-agent: *
Allow: /
當您使用 yarn dev
運行應用程式時,現在可以透過 http://localhost:3000/robots.txt 存取該檔案。請注意,public
資料夾名稱不會出現在 URL 中。
請勿將 public 資料夾命名為其他名稱。此名稱無法更改,且是唯一用於提供靜態資源的資料夾。