- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Господа, давайте же посмотрим фактам в лицо.
1) Что делает робот Яндекс.Закладок?
Делает несколько запросов к каждому серверу, на который пользователи поставили закладки, игнорируя robots.txt.
2) Чего добивается вебмастер, запрещая заходы робота на свой сайт при помощи robots.txt?
a) Снизить нагрузку на свой сервер.
b) Скрыть от чужих глаз какие-то свои url'ы.
c) Возможно, предотвратить последствия от запроса какого-либо url'а лишний раз (типа заказа в электронном магазине без кук, хотя не совсем понятно, может ли эл. магазин, подверженный такой проблеме, вообще нормально функционировать).
3) Что делают метапоиски и определялки позиции в результатах поиска?
Они делают весьма много запросов к одному серверу или к совсем небольшому числу серверов (т.е. 5-10 поисковым системам).
Итак, рассмотрим robots.txt применительно к Закладкам.
a) Заметную нагрузку на сервер они не производят. Если на какой-то ресурс люди действительно много закладок, значит он и так весьма посещаем, т.е. закладочная проверялка все равно не создаст заметного роста нагрузки.
b) Скрыть url, на который пользователь уже поставил закладку, Вы все равно уже не сможете.
c) Запрос head можно научиться правильно обрабатывать, например в нужном месте написать что-то вроде:
(любители php, полагаю, смогут правильно проинтерпретировать этот перловый текст).
Что касается скриптов, долбящих (долбивших) Яндекс, то хотел бы я посмотреть, как бы они обошлись запросом HEAD :).
Теперь осталось перевести это все на язык метафор, которые, кажется, последнее время более понятны посетителям этого форума, чем нормальные доводы Вовы:(:
> Требовать от велосипедиста, чтобы он не ездил под дорожным знаком "кирпич", - это по меньшей мере смешно.
Если же Вас просто раздражают велосипедисты - поставьте глухой забор, и никто уже Вас не побеспокоит.
Полагаю, что с двойными стандартами в данной ветке форума разобрались.
Господа, давайте же посмотрим фактам в лицо.
2) Чего добивается вебмастер, запрещая заходы робота на свой сайт при помощи robots.txt?
a) Снизить нагрузку на свой сервер.
b) Скрыть от чужих глаз какие-то свои url'ы.
c) Возможно, предотвратить последствия от запроса какого-либо url'а лишний раз (типа заказа в электронном магазине без кук, хотя не совсем понятно, может ли эл. магазин, подверженный такой проблеме, вообще нормально функционировать).
..skip..
Полагаю, что с двойными стандартами в данной ветке форума разобрались.
Чего добивается вебмастер вам неведомо.
Ибо этого добивается он, а не вы.
И додумывать за него это, а точнее говорить от этого
человека как минимум неприлично.
Вежливого инструмента, говорящего о том, что это
брать нельзя отличного от robots.txt в Яндексе нет.
Поэтому используется стандартный инструмент.
Если Яндекс отказывается от его использования, то
разумно было-бы предложить другой.
Однако этого сделано не было.
Повторю в который раз, в чём выражается ущерб и
его объём здесь не обсуждается.
Имеет место сбор роботом яндекса той информации,
которую он собирать не должен.
По поводу сравнений.
Всё, что вы говорите напоминает человека, который утверждает свою
невиновность, на основании того, что он читать не умеет и читать
не хочет, а дверь на замок заперта не была, поэтому он спокойно
вошёл в частную квартиру, помыл руки и вышел.
Как вы отнесётесь к такому человеку, если он придёт к вам, когда вы не
закрыли дверь, выходя чтобы вынести мусор?
melkov
Мы Вам про Фому, а Вы нам про Ерему...
Не Ваше дело решать какой размер нагрузки Вашего робота на чужой сервер допустим, а какой нет, и чего там добивается вебмастер, составляя robots.txt. Написано "Нельзя", значит - нельзя.
Вот Вам другая метафора. Вы лезете в яблоневый сад, через забор, на котором написано: "Яблоки рвать запрещается". "Ну и что", - думаете Вы, - "Я ж тока пяток яблок сорвать хочу, а не два мешка". Но заряд соли пониже спины от сторожа все равно получите.
Любопытная логика. Таки я Вам скажу, по по-моему скромному мнению, среди десятков (а может, сотен?) тысяч ежедневных запросов в Яндекс, сотня-другая запросов робота-анализатора позиций заметной нагрузки не создаст. Только Вы ведь меня не послушаете, и IP-шник мой от Яндекса все одно поотрубаете, если моего робота забдите.
Методы борьбы я перечислил.
Угрызений совести по поводу этого HEAD не испытываю. Но коли он вас так сердит, забаньте. Или пожалуйтесь в abuse@yandex и Яндекс может быть разорвет связность с этим хостом, чтобы Вас не смущать :-)
Шикарный подход.
Может быть стоит вовсе перестать принимать анонсы с AS13238?
wolf
og
Вы опять успешно проигнорировали мои комментарии по поводу/ HEAD. Как же можно пытаться объяснить вам свою позицию, если вы замечаете исключительно ту ее часть, против которой уже заранее имеете какую-то аргументацию?
> вошёл в частную квартиру, помыл руки и вышел
Скорее можно говорить лишь о заглядывании в отрытую дверь, а не в входе в квартиру...
> Чего добивается вебмастер вам неведомо.
> Написано "Нельзя", значит - нельзя.
Ну так ведь как раз утверждается, что поскольку robots.txt не является адекватным для Закладок - не для них написано "нельзя" (кстати, и User-Agent у них в основной части - Mozilla :)), и они равноправны с обычным браузером. Соответственно, нету у вебмастера других стредств борьбы с закладками, кроме специальной настройки web-сервера, скриптов или firewall'а.
Ну да ладно, попробую зайти с другой стороны:
> Если вы про www.robotstxt.org, то на нём чётко сказано что считать роботом.
http://www.robotstxt.org/wc/faq.html#what
What is a WWW robot?
A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.
Как видно, Закладки не используют ссылки с тех документов, к которым обращаются, т.к. даже не скачивают сами документы (замечу, что метапоиски и определялки позиций как раз-таки используют ссылки со скачанного документа - например, ссылку на следующую страницу выдачи поисковой системы :) ). Так что, скорее, Закладки - это все-таки "Autonomous agent", или даже User-Agent (т.к. каждую конкретную ссылку скачивают по заданию конкретного пользователя Закладок).
Можно, конечно, придраться к этому, поскольку при перечислении целей использования роботов присутствует link validation, однако, даже если забыть аргументацию по поводу выделения ссылок, достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу :)
-то, что она вами трактуется в вашу же пользу, неудивительно :)
if ($ENV{'REQUEST_METHOD'} eq 'HEAD') {
print "status: 200\n";
print "Content-type: text/html; charset=$charset\n\n\n";
exit 0;
}
- а если так рассуждать, robots.txt вообще не нужен, получается? Ведь любой очень желающий может закрыть свой сайт без использования robots.txt, определяя параметры запроса.
Так ведь нет, зачем-то придумали все запреты в стандартном виде выкладывать в файл...
И, в конце концов, не имеет смысла говорить что ДОЛЖНЫ делать владельцы сайтов, чтобы защититься от этого всего, а лучше вспомнить о том, что РОБОТЫ должны делать.
Ну и аргументы - детский сад. Я понял бы, если бы Вася Пупкин заявлял о "размытости определения того робота, который должен следовать robots.txt", но в данном случае это делают представители крупной поисковой системы.
А если я начну Яндекс парсить роботом, который прикидывается Мозиллой, вы меня трогать не будете?? :)
А если робот-анализатор позиций задаст запрос на выдачу ему одной страницы с 50 (100 и т.д.) результатами поиска, и не будет ходить по ссылке на вторую страницу? Он что, перестанет быть роботом???
Кем трактуется??? Вами же в вашу пользу и трактуется.
Я удивляюсь! Сами же привели цитату, что по правилам действия их робота попадают под определение робота, и сами заявили, что считают, что правила не для них.
euhenio
Полистайте, пожалуйста, этот форум вверх. Там на все эти вопросы отвечали по нескольку раз. Простите меня грешного, я не хочу Вас обидеть, но повторяться тоже не хочется.
С Уважением,
В.Иванов
2 melkov:
> вошёл в частную квартиру, помыл руки и вышел
Скорее можно говорить лишь о заглядывании в отрытую дверь, а не в входе в квартиру...
Тоесть заглядывать в чужую квартиру, смотреть что там есть,
и рассказывать всем по первой просьбе, это прилично?
Ну так ведь как раз утверждается, что поскольку robots.txt не является адекватным для Закладок - не для них написано "нельзя" (кстати, и User-Agent у них в основной части - Mozilla :)), и они равноправны с обычным браузером. Соответственно, нету у вебмастера других стредств борьбы с закладками, кроме специальной настройки web-сервера, скриптов или firewall'а.
Так напишите в описании системы, что вот для такого-то нашего робота
надо держать отдельный robots.txt или пусть он представляется
не Mozill'ой а самим собой, и пусть тоже использует robots.txt
с правилами относящимися к своему имени.
Ну да ладно, попробую зайти с другой стороны:
> Если вы про www.robotstxt.org, то на нём чётко сказано что считать роботом.
http://www.robotstxt.org/wc/faq.html#what
What is a WWW robot?
A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced
Как видно, Закладки не используют ссылки с тех документов, к которым обращаются, т.к. даже не скачивают сами документы (замечу, что метапоиски и определялки позиций как раз-таки используют ссылки со скачанного документа - например, ссылку на следующую страницу выдачи поисковой системы :) ). Так что, скорее, Закладки - это все-таки "Autonomous agent", или даже User-Agent (т.к. каждую конкретную ссылку скачивают по заданию конкретного пользователя Закладок).
Вы выдернули часть текста.
Читаем дальше:
Normal Web browsers are not robots, because the are operated by a human, and don't automatically retrieve referenced documents (other than inline images).
Понимаете? Потому, что работает не автоматически вызывая ссылающиеся линки. В данном случае он срабатывает автоматом.
Можно, конечно, придраться к этому, поскольку при перечислении целей использования роботов присутствует link validation, однако, даже если забыть аргументацию по поводу выделения ссылок, достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу :)
Он трактуется вами.
Вы трактовать можете это как пожелаете необходимым.
Однако ваша трактовка не отражает истины.
Допустим у меня есть страничка, но нет доступа к .htaccess,
нет доступа к фаэрволам и так далее.
Но я могу выложить файл robots.txt.
И я не хочу чтобы сторонний сайт выдавал информацию о
состоянии этой страницы. Жива она или нет.
Хочет человек это узнать, пусть на неё зайдет.
Как кроме через robots.txt я могу известить вашего и всех других
роботов о этом своём желании?
Замечу, что проверялок типа Яндекс.Закладки множество,
и писать админу каждой о необходимости вынести этот и другие
адреса из их баз у меня просто нет времени.
Что посоветуете?
What is a WWW robot?
A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced
Из этого следует что, закладки - не робот. Я бы поправил определение - "не совсем робот".
Normal Web browsers are not robots, because the are operated by a human, and don't automatically retrieve referenced documents (other than inline images).
из этого следует, что Закладки - не "нормальный браузер". Согласен. В качестве компенсации за уступку в предыдущем пункте сформулируем это так: "не совсем браузер".
Понимаете? Потому, что работает не автоматически вызывая ссылающиеся линки. В данном случае он срабатывает автоматом.
Понимаю, конечно понимаю.
2melkov
Пойдем отсюда, Саша.
С Уважением,
В.Иванов