robots.txt的(de)用(yòng)途和(hé)寫法

2017-05-31     δ★  閱讀(dú)數(π≥≤shù):4591


我們先來(lái)了(le)解一(yī)下(xià)什(shén•α)麽是(shì)robots.txt?

搜索引擎使用(yòng)spider程序自(zì)動訪問(wè≥↑ε→n)互聯網上(shàng)的(de)網頁并獲取α©網頁信息。spider在訪問(wèn)一(yī)個(gè)網站 •σ↔(zhàn)時(shí),會(huì)首先會(huì)檢查該網站(zhàn)的(§"de)根域下(xià)是(shì)否有(yǒ♠π↓₽u)一(yī)個(gè)叫做(zuò)robots.txt的(de)純文(wén)本文(wé♣"<₽n)件(jiàn)。您可(kě)以在您的(de)網站(zhàn)中創建一(♣☆∞yī)個(gè)純文(wén)本文(wén)件(jiàn)robots♠¶≈ .txt,在文(wén)件(jiàn)中聲明(míng)該網站(zhàn)中不(bù)想被roφ‍€δbot訪問(wèn)的(de)部分(fēn)或者指定搜索引擎隻收錄特定的(de)部β>↓π分(fēn)。

請(qǐng)注意,僅當您的(de)網♦¥γ 站(zhàn)包含不(bù)希望被搜索引擎收錄的(de)'♣₹內(nèi)容時(shí),才需要(yào)使用(yòng)robots.txt★™文(wén)件(jiàn)。如(rú)果您希望搜索 ✘∑引擎收錄網站(zhàn)上(shàng)所有(yǒu)內(nèi)容,請(qǐngσπ)勿建立robots.txt文(wén)件(j• $iàn)或者創建一(yī)個(gè)內(nèi)容為(wè♠γ×i)空(kōng)的(de)robots.txt文(wén)件(jiàn)。

robots.txt 放(fàng)置位置

robots.txt文(wén)件(jiàn)應該放(fàng)置在 ♣網站(zhàn)根目錄下(xià)。舉例來(lái)Ω<×說(shuō),當spider訪問(wèn)一(yī)個(gè)網站(zhφ∏àn)(比如(rú)http://www.ubangmang.com)時φδ(shí),首先會(huì)檢查該網站(zhàn)中是&★• (shì)否存在http://www.ubangm>€ang.com/robots.txt這(zhè)個(gè)文(wén)件(jiàn)±♣ε,如(rú)果 Spider找到(dào↔‍)這(zhè)個(gè)文(wén)件(¥§•πjiàn),它就(jiù)會(huì)根據這(zhè)個(g±€↔è)文(wén)件(jiàn)的(de)內(nèi)容,來(lái)确定它訪問(wè≥ n)權限的(de)範圍。

robots.txt 格式

文(wén)件(jiàn)包含一(yī)條或更多(duō)的(de)記錄,這(zhè)些(¥®&☆xiē)記錄通(tōng)過空(kōng)行(xí®±ng)分(fēn)開(kāi)(以CR,¥φ‍CR/NL, or NL作(zuò)為(wèi)結束符),每一(yī)條記錄的(de)格式如φσ✘↓(rú)下(xià)所示:”:”。在該文(wén)件(jiàn)中可(kě)以使用(yònσ↔g)#進行(xíng)注解。該文(wén)件(jiàn)中的(de)記錄通(tōng₹∑≥")常以一(yī)行(xíng)或多(duō)行(xín®™₹g)User-agent開(kāi)始,後面加上(shàn♦&g)若幹Disallow和(hé)Allow行(x'£€★íng),詳細情況如(rú)下(xià)。

User-agent:

該項的(de)值用(yòng)于描述搜索引擎robot的(d₹↕£→e)名字。在”robots.txt”文(wén)件(jiàn)中,如(rú)果有(yǒu)多(duσ≤ō)條User-agent記錄說(shuō)明(míng)有(yǒ λu)多(duō)個(gè)robot會(huì)受到(dào)”robots.t£ε•xt”的(de)限制(zhì),對(duì)該文(w★∏↓Ωén)件(jiàn)來(lái)說(shuō),至少(shǎo)要(yào)有(yǒu)δεβ≈一(yī)條User-agent記錄。 如(rú)果該項的(de)值設為(wèi)* &β,則對(duì)任何robot均有(yǒu)效,✘σ™在”robots.txt”文(wén)件(jπγβiàn)中,”User-agent:*”這(zhè)樣的(de)記錄隻能(néng)有( ≤&yǒu)一(yī)條。如(rú)果在”robots.txt”文(wén)✔λ÷‍件(jiàn)中,加入”User- agent:SomeBot”和(hé)若幹Di∞☆ ‍sallow、Allow行(xíng),那(n↔→à)麽名為(wèi)”SomeBot”隻受到(dào)”User-agent:SomeBot”後面♣₩♥✘的(de) Disallow和(hé)Allow行(xíng→£)的(de)限制(zhì)。 Disallow: 該項的(de)值用(yòng)于描述™♦$≤不(bù)希望被訪問(wèn)的(de)一(yī)組U♠<λ±RL,這(zhè)個(gè)值可(kě)以是(shì)一(yī)條完整的±∞€(de)路(lù)徑,也(yě)可(kě)以是(shì)路(lù)徑的(de)非空(kōng)λ×λ"前綴,以Disallow項的(de)值開(kā←‍®<i)頭的(de)URL不(bù)會(huì)被robot訪問(wèn)。例 如δ•©(rú)”Disallow: /help”禁止robot訪問(wèn)α∞→β/help*.html、/help/in'↓σdex.html, 而”Disallow: /help/”則允許robo≤♥t訪問(wèn)/help*.html,不(bù)能(néng)× σ訪問(wèn)/help/index.html。

"Disallow:"說(shuō)明(míng)允許robot訪問(wèn)該網站(zhàn)&§α 的(de)所有(yǒu)url,在”/robot‍↓<​s.txt”文(wén)件(jiàn)中,至少(shǎo)要(yà←φε‌o)有(yǒu)一(yī)條Disallow記錄"β₽‍。如(rú)果”/robots.txt”不(bù)存在或者ε™←為(wèi)空(kōng)文(wén)件(j≤¥•≥iàn),則對(duì)于所有(yǒu)的(de)搜索引擎robot,該網站(zhàn)都(dō₽★≠✔u)是(shì)開(kāi)放(fàng)的(de)。

Allow:

該項的(de)值用(yòng)于描述希望被訪問(wèn)的(de)一(yī)組URL,與Disa‍λ∑£llow項相(xiàng)似,這(zhè)個(gè)值可(kě)以是(sh¶'"Ωì)一(yī)條完整的(de)路(lù)徑,也(yě)可βφ€(kě)以是(shì)路(lù)徑的(de)前綴,以Allow項的'•(de)值開(kāi)頭的(de)URL是(shì)允許robot訪問(wèn)的★​₽(de)。例如(rú)”Allow:/hibaidu”允許robot訪問(wè£₹n)/hibaidu.htm、/hibaiducom.html、 /hibaid¥☆₽≠u/com.html。一(yī)個(gè) δ<網站(zhàn)的(de)所有(yǒu)URL默認是(sh×‌€​ì)Allow的(de),所以Allow通(tōng)常與Disall∑∏&Ωow搭配使用(yòng),實現(xiàn)允許訪問(wèn)一(yī)部分(​‌£fēn)網頁同時(shí)禁止訪問(wèn)其它所有(yǒu)URL的β±(de)功能(néng)。

需要(yào)特别注意的(de)是(shì)Disallow與Allow行(xíng•≈¥)的(de)順序是(shì)有(yǒu)λδ意義的(de),robot會(huì)根據第一(yī)"✔個(gè)匹配成功的(de) Allow或Disallow行(xíng)确定是(shì)否訪問(→♠wèn)某個(gè)URL。

使用(yòng)”*”和(hé)”$”: Baλπiduspider 支持使用(yòng)通(tōng)配符”*”和(hé)”$”γ$來(lái)模糊匹配url。 “$” 匹配行(x↔>íng)結束符。 “*” 匹配0或多(d←★uō)個(gè)任意字符。

robots內(nèi)容生(shēng)成σ★工(gōng)具: http://tool.chinaz.com/robots/