ПредишенСледващото

Правилното проектиране на файла robots.txt

Този файл е специален формат и се състои от няколко записи. Всеки запис от своя страна има две полета: първото е низ с името на приложението на клиента, известен като потребителския агент. както и няколко реда директиви тип

User-Agent низ - тук е името на робота. Например:

маска за лечение веднага на всички роботи "*":

Дневници вашия уеб сървър обикновено запазват имената на роботи. За да ги видите, кликнете заявки идващи изключително на файла robots.txt. Също така не забравяйте, че повечето паяци индексатори имат кратки имена.

поле Disallow

Забрани редове са осигурени във втория запис част. Директива за определен робот се намери тук. С тяхна помощ, роботът може да разберете какви файлове и / или директории за индексиране е забранено. Например, следните директива не позволява на заплатите индексиране паяци email.htm файл:

Директивата също може да бъде името на директорията

Директивата не позволява този тип индексиране паяци за провеждане директория «CGI-бен«.

В Забрани може също така да бъде маска, в съответствие със стандартите на Директива / Боб /bob.html наблизо паяци и също /bob/index.html.

В случай на празен Disallow директива робот тихо индекс на всички файлове. Всяко поле User-агент трябва да съдържа най-малко една директива Disallow. Това се прави, за да се гарантира, че файла robots.txt, е била открита правилно. Напълно празна robots.txt е по същество същата като тази на липсващ файл.

Водещи и пространства могат по принцип, но е по-добре да не го правят

Забрани: Боб #comment

Следната директива има за цел да позволи индексирането на всички раздели, тъй като той използва вече са известни "*" маска.

User-Agent: *
Забрани:

И такава директива забранява индексирането:

User-Agent: *
Disallow: /

Directories «CGI-бен» и «изображения» затворен за индексиране:

User-Agent: *
Disallow: / CGI-хамбар /
Disallow: / снимки /

Roverdog робот не трябва да влиза някой от директорията на сървъра:

User-Agent: Roverdog
Disallow: /

Google робот Googlebot не трябва индекс cheese.htm на файла:

User-Agent: Googlebot
Забрани: cheese.htm

По-сложни примери за контрол индексиране, или пример за текущата файла robots.txt може да се види на много от най-големите сайтове, както следва:

Как да намерите конкретен robots.txt?

Според статистиката, около 5% от всички robots.txt направен неправилно или по погрешка, и 2% роботи файлове по принцип не може да разбере, защото броят на грешките, надвишава допустимото.

Ето списък на най-често срещаните грешки при създаването на robots.txt:

обърнат синтаксис
Тази грешка е много чести:

User-Agent: *
Disallow: скутер

Най-точната информация е:

Потребителят агент: скутер
Забрани: *

Повече от една директива в съответствие Disallow

Disallow: / CSS / / CGI-хамбар / / изображения /

Всеки паяк може да разбере тази директива по себе си. Някои от паяците игнорира пространства, и няма да издържи индексиране директория / CSS // CGI-бен // изображения / на. Паяците също могат да прекарват индексиране само една директория (/ снимки / или / CSS /), оставяйки останалата игнорирани.

Ето един пример за правилния синтаксис:

Disallow: / CSS /
Disallow: / CGI-хамбар /
Disallow: / снимки /

Писане низ в DOS формат

Понякога редактирате файла robots.txt в DOS формат. Въпреки че много паяци са се научили да "разбират", това често срещана грешка, че си струва да гледате своето отсъствие. Най-добре е да извършва всякакви корекции на robots.txt UNIX. изтегляне се извършва в режим ASCII. Повечето FTP-клиенти за качване на файлове на сървъра вече има подходящите опции за правилните знаците за нов ред от DOS-формат на UNIX формиат. Но, за съжаление, не са в състояние да направи всичко това.

можете да пишете на новите стандарти, и така:

Disallow: / CGI-хамбар / #this забрани роботи от нашия CGI-бен

Пропуски в началото на реда

Интервалите не се наблюдават в стандартите, но се смята за лош стил. Също така, никой не може да гарантира, че системата ще го приеме прав

Пренасочване към друга страница за грешка 404

Често, когато (не е намерен файл) за грешка 404 ви специална страница, като 404.html може да бъде издаден. Преходът не се извършва на главната страница на сайта. При този вариант на робота не мога да разбера какво да правя файла robots.txt, вместо това, за него е налице HTML-Page с определено съдържание. По принцип, това не би трябвало да доведе до проблеми, но все пак всичко е възможно. Трудно е да се каже как такъв робот разбере HTML файл. Може да се случи до края на страницата ще бъде призната за robots.txt. За да избегнете това, поставете robots.txt в основната директория, дори и ако файлът е празен.

Какво бихте направили, както и robotomslurp изправени в тези директиви?

User-Agent: *
Disallow: /
#
User-Agent: сърбам
Забрани:

Докато първата директива трябва да забрани всички роботи да индексира вашия сайт, но след директива й позволява да сърбам. Какво трябва да предприема в резултат на сърбам. Вариантът, че роботите да разберат тези указания е неправилно. В тази ситуация, трябва да сърбам да индексира целия сайт, а други роботи трябва да го игнорират напълно.

Всички главни букви - неправилно попълване на файл:

User-Agent: EXCITE
Забрани:

Въпреки че случаите на писма във вашия robots.txt не се е критично, но в имената на директории, както и файловете, регистър е важно. Най-добре е да се напише с големи букви само първите букви на думи в потребителския и разрешението си.

Списък на всички файлове в директория

Забрани: /AL/Alabama.html
Забрани: /AL/AR.html
Забрани: /Az/AZ.html
Забрани: /Az/bali.html
Забрани: /Az/bed-breakfast.html

Вместо това можете да го изгори за много по-различен начин:

Disallow: / AL
Disallow: / Az

Да не забравяме първоначалната черта показва дадена директория. Всъщност, не е нужно да забрани прехвърлянето на два или три файлове, но ние не говорим за стил. Такъв пример се вижда в файла robots.txt с тегло повече от 400 килобайта говорим за повече от 4000 файлове! Може да се предположи, че много от роботизирани паяци реши повече да не дойде до мястото, само за да се запознае с преписката.

Има Забрани директива, и то сам!

Позволете директива като такива не съществуват. Този пример е неправилна:

User-Agent: Spot
Disallow: / Джон /
разрешава: / Джейн /

Ето един пример за правилно попълване:

User-Agent: Spot
Disallow: / Джон /
Забрани:

Откриване черта неприемливо

Как може един робот паяк признае тази директива:

User-Agent: Spot
Забрани: Джон

Стандартите се каже, че robot.txt забранява «Джон» индексиране на файлове и директория Джон ». Но, когато се използва робот черта може да различи файла от директорията.

Някои хора се опитват да записват във файла robots.txt ключови думи за вашия сайт, които по-принцип, че няма никакъв смисъл.

Понякога файл robots.txt, направени като HTML-документи. Не забравяйте, че не е необходимо в FrontPage за създаване на robots.txt.

Неправилно конфигуриран сървър

Как да заявите robots.txt уеб сървър могат внезапно да се даде двоичен файл? Обикновено това се случва, когато вашия уеб сървър има неправилни настройки, или сте качили неправилно вашия файл на сървъра.

След като изтеглите файла robots.txt на сървъра, който искате да го проверите. Достатъчно, за да направите запитване в браузъра си:

Това е достатъчно, за проверка.

функция на Google сървър е, че тя е в състояние да поддържа директиви регулярни изрази. Това дава възможност да се забрани индексирането на файлове в съответствие с разширяването на обхвата им.

User-Agent: Googlebot
Забрани: * .cgi

Невярно е потребителски агент, за да определите име «Googlebot». В същото време, други паяци, най-вероятно, няма да разберат вашата директива.

Този етикет ще бъде полезна и за тези, които не разполагат с достъп до сървъра robots.txt в главната директория и поради това не може да прави промени.

Тези търсачки като Inktomi разбират напълно мета роботи тагове. Inktomi ще премине на всички страници от сайта ви в този случай, ако стойността на този етикет ще бъде «индекс, следвайте».

Формат мета маркер за роботи
Мета роботи маркер трябва да бъде поставен в HTML-документа маркер. Това е прост формат (не главни и малки букви):





...

Стойностите на маркер мета роботи

Този мета-таг може да има до четири стойности на съдържанието:

индекс, Noindex, следвайте, Nofollow

Стойностите в размер на повече от един, разделени със запетая.

Към днешна дата, имат следните значения тегло:

директива INDEX дава команда на робота да се индексират.

директива FOLLOW ви уведомява, индексирането, че е възможно да се проведе индексиране на връзките на тази страница. Тя може да се намери в няколко източника в отсъствието на такива стойности на роботите акт, както в случая на директива INDEX и следват. За съжаление, Inktomi търсачката ще го разбирам като "индекс, Nofollow».

Глобални директиви са както следва:

За всички индекс = INDEX, ПРОСЛЕДЯВАНЕ

Не индекс нищо = NOINDEX, NOFOLLOW

Примери роботи метатаг



Свързани статии

Подкрепете проекта - споделете линка, благодаря!