Защита от парсинга сайта

[umka]
На сайте с 25.05.2008
Offline
456
#11

satrau, думаю, тут параллельно стоит задача не защищаться от ботов поисковых систем )

Иначе бы всё можно было сделать очень просто )

Лог в помощь!
pelvis
На сайте с 01.09.2005
Offline
345
#12

Все очень просто. Смотрим на разные страницы (этот метод приемлем для больших сайтов), как правило, это 3-5 темплейтов. Определяем начальные и конечные теги. Запускаем краулер, затем вычищаем регулярками теги. Профит.

satrau:
и каждое следующее предложение подгружать аяксом

Хм, а пользователь тоже должен отправлять сообщения для чтения?

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
[Удален]
#13
pelvis:
Хм, а пользователь тоже должен отправлять сообщения для чтения?

нет, только поисковые боты. гугль бочаге пользователей :)

bearman добавил 23.01.2010 в 22:53

к тому же они чаще всех посещают сайты)

pelvis
На сайте с 01.09.2005
Offline
345
#14
bearman:
нет, только поисковые боты. гугль бочаге пользователей

Ну разве что Гуголь :) А так безперспективняк :)

Ervin
На сайте с 15.08.2008
Offline
112
#15

pelvis, а какие теги считаются начальными и конечными? По какому принципу отбираются? Можете на примере какой-нибудь страницы показать? :)

Credendo vidas!
pelvis
На сайте с 01.09.2005
Offline
345
#16
Ervin:
а какие теги считаются начальными и конечными?

Какие я парсеру укажу, такие он и будет считать. Страница скачивается целиком всегда, потом идет разбор с перезаписью.

Ervin
На сайте с 15.08.2008
Offline
112
#17
pelvis:
Какие я парсеру укажу, такие он и будет считать. Страница скачивается целиком всегда, потом идет разбор с перезаписью.

То есть, чтобы осложнить жизнь парсеру, можно периодически менять порядок и количество тегов, вроде

<html>

<div class="article">
<table width="100%">
<p>ТЕКСТ</p>
</table>
</div>
</html>

<html>

<div class="superarticle">
<div class="article">
<table height="100%" width="99%">
<p>ТЕКСТ</p>
</table>
</div>
</div>
</html>

<html>

<div class="article">
<div>
<p>ТЕКСТ</p>
</div>
</div>
</html>

?

[Удален]
#18

Ervin, классный пример инвалидной верстки! +1!

Brand from Amber
На сайте с 18.08.2007
Offline
293
#19

Ervin, Может имеет смысл задуматься не над "защитой контента", а над "идентификацией парсеров"? Зашёл человек (или робот ПС) - отдали один контент, а если пришёл парсер - другой.

P.S. Кстати... самый простой способ обойти все ваши защиты - дёрнуть контент из кеша ПС, так-что не обольщайтесь ;)

Лучший способ понять что-то самому - объяснить это другому.
pelvis
На сайте с 01.09.2005
Offline
345
#20

Ervin, я ему отдам на скармливание <p> в данном случае :)

Brand from Amber:
Зашёл человек (или робот ПС) - отдали один контент, а если пришёл парсер - другой.

В чем отличие парсера от бота ПС?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий