Тошнота

173

john2007

7 апреля 2007 г. в 00:07

3705

Сразу прошу не пинать, если в чем не прав (аргументировано критиковать очень прошу).

Еще прошу простить, если что-то повторю всем известное.

А еще очень прошу, если написал все правильно, подтвердить это или отослать к топику (я не нашел), где все это выяснили, как говорится, раз и навсегда, потому как я не нашел.

Очень хочется разобраться с вопросом "тошноты".

Прочитал очень много на этом форуме по этому вопросу.

И если я правильно понял идею "тошноты", то я очень удивился, как много людей понимают это совсем не так как я. И им никто не возражает, значит согласны. Мог бы привести множество таких примеров с этого форума, в том числе и по своему опыту недавнего общения.

В кратце, они считают, что "тошнота" - мера спамности документа. Разве это так?!

Исходя из тех экспериментов, которые проводил (проводили) ХРНС и на основе предыдущей работы Миныча (я так понял "тошнота" его термин) получается, что "тошнота" (по последним данным) - это количество вхождений в текст самого частотного слова этого текста. Это по-простому, ну, корень квадратный еще, ну сравнение с 7.

Далее, их эксперимент показал, как рассчитывается один из компонентов/факторов - внутренних, динамических, влияющий на ранжирование в выдаче.

Про внешние динамические (так называемое ссылочное ранжирование) и внешних статических (вИЦ или кому как угодно его называть) понятно, речь не идет - это вопрос отдельный.

Насколько я понимаю, этот фактор (в расчете влияния которого используется «тошнота») не что иное, как плотность/контрастность ключевых слов (или как там правильнее).

Который можно нормировать по числу слов в тексте (документе), а можно по формуле, которую приводит ХРНС. Которая сейчас, как они экспериментально доказали в той или иной степени (для кого насколько убедительно, для меня - убедительно), используется в Яндексе. А теоретически таких способов бесконечное количество.

И где же здесь мера спамности? Может общее число слов в документе тоже мера спамности? :)

Термин «тошнота». Наблюдал целую дискуссию как лучше назвать.

Вообще, мое мнение, что термин не очень удачный, слишком уж многих он путает. Действительно, создается ощущение, что это мера спамности. И вообще, зачем давать какое-то название? Не даем же мы название количеству слов на странице?

Но автор дал и дал такое название своему открытию и по большому счету это его право.

Как я смотрю на эксперимент ХРНС.

За эксперимент и обнародование его результатов огромная признательность, так как "черный" ящик Яндекса становится "светлее".

Практически же использовать его результаты мне представляется сильно затруднительным. Даже не смотря на определенный порог 7. Скорее на эту формулу можно и нужно опираться в дальнейших поисках.

Все знают о релевантных пассажах. А кто знает, как они конкретно отбираются в документе?

Что такое объемлющие пассажи и как их определить? Как точно рассчитать кворум? Кто знает про все остальные критерии для определения релевантности пассажей?

А без этого не возможно посчитать даже плотность/контрастность ключевых слов, используемую в Яндексе. Я уже не говорю о прочих внутренних динамических факторах, влияющих на релевантность – соответствие документа допустимым частотным диапазонам для частей речи, документ ни о чем (близкие плотности всех слов документа) и т.д.

Поэтому, как можно разделять тревогу, что при расчете тошноты Яндекс стал учитывать стоп слова? Что для большей релевантности нужно убрать все предлоги и союзы? Что оптимальнее документ, где самое частотное слово – это ключевое слово? Что маленький материал скорее будет релевантнее чем солидный по объему труд? Что если какое-то слово встречается более 7 в квадрате раз и оно не ключевое, то это отрицательно сказывается на релевантности?

Подводя итог, ИМХО, скорее всего, оптимальная плотность ключевого слова (как число вхождений к общему числу слов) в общем случае - это не достижимый мираж. У каждого документа он свой и определяется он алгоритмами, формулами и коэффициентами ПС. И уж, конечно он не 5-7% и не 10% и не 20%. Для каких-то документов он может быть и 50% и даже (теоретически) 100%. И, ИМХО, что во многих случаях, если фактическая плотность даже существенно больше оптимальной, то ничего страшного в этом нет, просто фактор плотности задействован по максимуму.

Или то, что я написал в корне не верно? И я не въехал в смысл «тошноты»?

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)

2542

The WishMaster

7 апреля 2007 г. в 00:45

#1

Ну я вот до сих пор не врубился в смысл тошноты... и как-то оно мне не мешает. И многим другим тоже.

john2007:
И где же здесь мера спамности? Может общее число слов в документе тоже мера спамности?

Не, ну речь все же про ключевики, а не про просто слова.

john2007:
У каждого документа он свой

Ну дык это очевидно:) И куда проще писать тексты для людей, чем просчитывать каждую статью и переписывать ее "по формуле", даже если это поможет сэкономить пару процентов бюджета.

Пешу текста дешыго! Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)

768

богоносец

7 апреля 2007 г. в 01:39

#2

john2007: Или то, что я написал в корне не верно?

тошнит от ссылочного, поразмыслим над «тошнотой»

Скорее — вредно полагаться на отдельный фактор (его можно только учитывать, если он известен/подтверждён и достаточно весОм). Конкретная поисковая ситуация — не часто соответствует (красивым/стареющим) моделям/пределам, хотя мне — ближе подвергнутые сомнению.

Завтра будут следующие...

Продвижение большого количества НЧ Джон Мюллер об изменении Поведенческие факторы: крутить или

173

john2007

7 апреля 2007 г. в 08:10

#3

The WishMaster:

Не, ну речь все же про ключевики, а не про просто слова.

Я имел ввиду, что если предположить, что "тошнота" - это мера спамности документа при нормировании ключевиков по "тошноте" (самому часто встречающемуся слову), то с таким же успехом при нормировании ключевиков по общему количеству слов в документе, общее количество слов - это тоже мера спамности документа :)

Р

258

Разработчик

7 апреля 2007 г. в 08:56

#4

john2007, вряд ли, иначе так и получится:

john2007:
Что маленький материал скорее будет релевантнее чем солидный по объему труд? Что если какое-то слово встречается более 7 в квадрате раз и оно не ключевое, то это отрицательно сказывается на релевантности?

281

pro-maker

7 апреля 2007 г. в 09:33

#5

john2007:
если предположить, что "тошнота" - это мера спамности документа при нормировании ключевиков по "тошноте" (самому часто встречающемуся слову), то с таким же успехом при нормировании ключевиков по общему количеству слов в документе, общее количество слов - это тоже мера спамности документа

Миныч называет тошнотой, в Яндексе, вроде, используют термин нормировки. Используемая мера спамности является элементом мат. модели релевантности, нормировать могут по самому частому слову, по общему количеству или еще как, и это, скорее всего, зависит от качества получаемых результатов поиска.

Возможно, будет полезно это пояснение Сегаловича:

"частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе

Google представил новую систему AdWords внедряет новую формулу Google устанавливает новое ограничение

173

john2007

7 апреля 2007 г. в 17:09

#6

Разработчик:
john2007, вряд ли, иначе так и получится:

Практических экспериментов у меня в этом направлении нет, но если это так, то как-то это грустно...

Хотя, если при определении плотности/контрастности слов используются только релевантные пассажи, то это хорошо уравнивает шансы большого документа с маленьким.

Яндекс кобласит Google Updates - апдейты Title, H1, H2 одинаковые

173

john2007

8 апреля 2007 г. в 06:54

#7

pro-maker:
Миныч называет тошнотой, в Яндексе, вроде, используют термин нормировки. Используемая мера спамности является элементом мат. модели релевантности, нормировать могут по самому частому слову, по общему количеству или еще как, и это, скорее всего, зависит от качества получаемых результатов поиска.

Но разве при этом "тошнота" - это мера спамности документа?

ИМХО нельзя меру спамности считать в отрыве от объема документа.

Скорее я бы назвал это "тематическим объемом текста" или что-то вроде того.

А мерой спамности документа скорее можно считать

"тематический объем текста" / "общий объем текста".

Бухгалтерия ИП Google Updates - апдейты Добавьте налоговую информацию

281

pro-maker

8 апреля 2007 г. в 07:38

#8

john2007:
Но разве при этом "тошнота" - это мера спамности документа?
ИМХО нельзя меру спамности считать в отрыве от объема документа.
Скорее я бы назвал это "тематическим объемом текста" или что-то вроде того.
А мерой спамности документа скорее можно считать
"тематический объем текста" / "общий объем текста".

Именно потому и "тошнота", что "меру" можно считать по-разному, т.е. "тошнота" является элементом отражающим спамность документа в модели релевантности, которую (спамность) можно считать разными способами получая при этом разные результаты поиска. Как я понимаю, спамность считается для разных коллекций по-разному, например, для нормативных документов и вэбовских страниц это разные формулы.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

8 апреля 2007 г. в 07:46

#9

А мне вот кажется, что тошнота анкоров и тошнота документа каким-то образом друг на друга действуют.

281

pro-maker

8 апреля 2007 г. в 08:01

#10

Miha Kuzmin (KMY):
А мне вот кажется, что тошнота анкоров и тошнота документа каким-то образом друг на друга действуют.

О чем ты? Спамный контент страницы понижает релевантность по ссылочному?

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Курс биткоина превысил $50 тысяч

zproxy.org