Тошнота

123 4
john2007
На сайте с 26.03.2007
Offline
173
3705

Сразу прошу не пинать, если в чем не прав (аргументировано критиковать очень прошу).

Еще прошу простить, если что-то повторю всем известное.

А еще очень прошу, если написал все правильно, подтвердить это или отослать к топику (я не нашел), где все это выяснили, как говорится, раз и навсегда, потому как я не нашел.

Очень хочется разобраться с вопросом "тошноты".

Прочитал очень много на этом форуме по этому вопросу.

И если я правильно понял идею "тошноты", то я очень удивился, как много людей понимают это совсем не так как я. И им никто не возражает, значит согласны. Мог бы привести множество таких примеров с этого форума, в том числе и по своему опыту недавнего общения.

В кратце, они считают, что "тошнота" - мера спамности документа. Разве это так?!

Исходя из тех экспериментов, которые проводил (проводили) ХРНС и на основе предыдущей работы Миныча (я так понял "тошнота" его термин) получается, что "тошнота" (по последним данным) - это количество вхождений в текст самого частотного слова этого текста. Это по-простому, ну, корень квадратный еще, ну сравнение с 7.

Далее, их эксперимент показал, как рассчитывается один из компонентов/факторов - внутренних, динамических, влияющий на ранжирование в выдаче.

Про внешние динамические (так называемое ссылочное ранжирование) и внешних статических (вИЦ или кому как угодно его называть) понятно, речь не идет - это вопрос отдельный.

Насколько я понимаю, этот фактор (в расчете влияния которого используется «тошнота») не что иное, как плотность/контрастность ключевых слов (или как там правильнее).

Который можно нормировать по числу слов в тексте (документе), а можно по формуле, которую приводит ХРНС. Которая сейчас, как они экспериментально доказали в той или иной степени (для кого насколько убедительно, для меня - убедительно), используется в Яндексе. А теоретически таких способов бесконечное количество.

И где же здесь мера спамности? Может общее число слов в документе тоже мера спамности? :)

Термин «тошнота». Наблюдал целую дискуссию как лучше назвать.

Вообще, мое мнение, что термин не очень удачный, слишком уж многих он путает. Действительно, создается ощущение, что это мера спамности. И вообще, зачем давать какое-то название? Не даем же мы название количеству слов на странице?

Но автор дал и дал такое название своему открытию и по большому счету это его право.

Как я смотрю на эксперимент ХРНС.

За эксперимент и обнародование его результатов огромная признательность, так как "черный" ящик Яндекса становится "светлее".

Практически же использовать его результаты мне представляется сильно затруднительным. Даже не смотря на определенный порог 7. Скорее на эту формулу можно и нужно опираться в дальнейших поисках.

Все знают о релевантных пассажах. А кто знает, как они конкретно отбираются в документе?

Что такое объемлющие пассажи и как их определить? Как точно рассчитать кворум? Кто знает про все остальные критерии для определения релевантности пассажей?

А без этого не возможно посчитать даже плотность/контрастность ключевых слов, используемую в Яндексе. Я уже не говорю о прочих внутренних динамических факторах, влияющих на релевантность – соответствие документа допустимым частотным диапазонам для частей речи, документ ни о чем (близкие плотности всех слов документа) и т.д.

Поэтому, как можно разделять тревогу, что при расчете тошноты Яндекс стал учитывать стоп слова? Что для большей релевантности нужно убрать все предлоги и союзы? Что оптимальнее документ, где самое частотное слово – это ключевое слово? Что маленький материал скорее будет релевантнее чем солидный по объему труд? Что если какое-то слово встречается более 7 в квадрате раз и оно не ключевое, то это отрицательно сказывается на релевантности?

Подводя итог, ИМХО, скорее всего, оптимальная плотность ключевого слова (как число вхождений к общему числу слов) в общем случае - это не достижимый мираж. У каждого документа он свой и определяется он алгоритмами, формулами и коэффициентами ПС. И уж, конечно он не 5-7% и не 10% и не 20%. Для каких-то документов он может быть и 50% и даже (теоретически) 100%. И, ИМХО, что во многих случаях, если фактическая плотность даже существенно больше оптимальной, то ничего страшного в этом нет, просто фактор плотности задействован по максимуму.

Или то, что я написал в корне не верно? И я не въехал в смысл «тошноты»?

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)
The WishMaster
На сайте с 29.09.2005
Offline
2542
#1

Ну я вот до сих пор не врубился в смысл тошноты... и как-то оно мне не мешает. И многим другим тоже.

john2007:
И где же здесь мера спамности? Может общее число слов в документе тоже мера спамности?

Не, ну речь все же про ключевики, а не про просто слова.

john2007:
У каждого документа он свой

Ну дык это очевидно:) И куда проще писать тексты для людей, чем просчитывать каждую статью и переписывать ее "по формуле", даже если это поможет сэкономить пару процентов бюджета.

Пешу текста дешыго! Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
богоносец
На сайте с 30.01.2007
Offline
768
#2
john2007: Или то, что я написал в корне не верно?
тошнит от ссылочного, поразмыслим над «тошнотой»

Скорее — вредно полагаться на отдельный фактор (его можно только учитывать, если он известен/подтверждён и достаточно весОм). Конкретная поисковая ситуация — не часто соответствует (красивым/стареющим) моделям/пределам, хотя мне — ближе подвергнутые сомнению.

Завтра будут следующие...
john2007
На сайте с 26.03.2007
Offline
173
#3
The WishMaster:

Не, ну речь все же про ключевики, а не про просто слова.

Я имел ввиду, что если предположить, что "тошнота" - это мера спамности документа при нормировании ключевиков по "тошноте" (самому часто встречающемуся слову), то с таким же успехом при нормировании ключевиков по общему количеству слов в документе, общее количество слов - это тоже мера спамности документа :)

Р
На сайте с 23.05.2006
Offline
258
#4

john2007, вряд ли, иначе так и получится:

john2007:
Что маленький материал скорее будет релевантнее чем солидный по объему труд? Что если какое-то слово встречается более 7 в квадрате раз и оно не ключевое, то это отрицательно сказывается на релевантности?
pro-maker
На сайте с 08.12.2003
Offline
281
#5
john2007:
если предположить, что "тошнота" - это мера спамности документа при нормировании ключевиков по "тошноте" (самому часто встречающемуся слову), то с таким же успехом при нормировании ключевиков по общему количеству слов в документе, общее количество слов - это тоже мера спамности документа

Миныч называет тошнотой, в Яндексе, вроде, используют термин нормировки. Используемая мера спамности является элементом мат. модели релевантности, нормировать могут по самому частому слову, по общему количеству или еще как, и это, скорее всего, зависит от качества получаемых результатов поиска.

Возможно, будет полезно это пояснение Сегаловича:

"частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе
john2007
На сайте с 26.03.2007
Offline
173
#6
Разработчик:
john2007, вряд ли, иначе так и получится:

Практических экспериментов у меня в этом направлении нет, но если это так, то как-то это грустно...

Хотя, если при определении плотности/контрастности слов используются только релевантные пассажи, то это хорошо уравнивает шансы большого документа с маленьким.

john2007
На сайте с 26.03.2007
Offline
173
#7
pro-maker:
Миныч называет тошнотой, в Яндексе, вроде, используют термин нормировки. Используемая мера спамности является элементом мат. модели релевантности, нормировать могут по самому частому слову, по общему количеству или еще как, и это, скорее всего, зависит от качества получаемых результатов поиска.

Но разве при этом "тошнота" - это мера спамности документа?

ИМХО нельзя меру спамности считать в отрыве от объема документа.

Скорее я бы назвал это "тематическим объемом текста" или что-то вроде того.

А мерой спамности документа скорее можно считать

"тематический объем текста" / "общий объем текста".

pro-maker
На сайте с 08.12.2003
Offline
281
#8
john2007:
Но разве при этом "тошнота" - это мера спамности документа?
ИМХО нельзя меру спамности считать в отрыве от объема документа.
Скорее я бы назвал это "тематическим объемом текста" или что-то вроде того.
А мерой спамности документа скорее можно считать
"тематический объем текста" / "общий объем текста".

Именно потому и "тошнота", что "меру" можно считать по-разному, т.е. "тошнота" является элементом отражающим спамность документа в модели релевантности, которую (спамность) можно считать разными способами получая при этом разные результаты поиска. Как я понимаю, спамность считается для разных коллекций по-разному, например, для нормативных документов и вэбовских страниц это разные формулы.

[Удален]
#9

А мне вот кажется, что тошнота анкоров и тошнота документа каким-то образом друг на друга действуют.

pro-maker
На сайте с 08.12.2003
Offline
281
#10
Miha Kuzmin (KMY):
А мне вот кажется, что тошнота анкоров и тошнота документа каким-то образом друг на друга действуют.

О чем ты? Спамный контент страницы понижает релевантность по ссылочному?

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий