Skip navigation

Sign up | Lost password? | Help

Идеология дорвеестроения

мысли по поводу и без

Posts tagged with "Аналитека"

Из Яндекса выпало половина сайтов Рунета?

Выдержки с бурно обсуждаемой темы http://forum.searchengines.ru/showthread.php?t=75546
"Из Яндекса выпало половина сайтов Рунета?"

В смысле, половина страниц сайтов всего Рунета. Смотрю по количеству сайтов, на которых встречаются те или иные ключевые слова. Введите какое-нибудь ключевое слово для своего или другого сайта и посмотрите, какое количество сайтов выдает Яндекс и Рамблер: http://www.siteposition.ru/ У Рамблера как минимум в 2 раза больше почти по всем запросам.

Или я чего-то не понимаю?
http://forum.searchengines.ru/showpost.php?p=1488604&postcount=1

Для себя я давно уже ищу информацию в Гугле, ибо при этом я нахожу то, чего в Яндексе просто нету. И это очень жаль - Яндекс был мне милее.
http://forum.searchengines.ru/showpost.php?p=1488624&postcount=2

такая же фигня перешел на гугль, часто нужная иформация на каких нить форумах находится, которых в яндексе даже нету. побеждены вместе с дорами
http://forum.searchengines.ru/showpost.php?p=1488670&postcount=3

такая же фигня, при всем том, что лично мне, например, Яндекс кажется более удобным по юзабилити и приятным по дизайну. Обидно
http://forum.searchengines.ru/showpost.php?p=1488682&postcount=4

В последнее время гуглом стал чаще пользоваться, единственный минус это дизайн, и то что приходится пользоваться “открыть в новом окне”, возможно это можно настроить ну я не заморачивался.

Интересно может, кто знает, как это настроить, т.е. при нажатии на ссылку она открывается к у Рамы с Яндексом в новом окне, а не в том же?
http://forum.searchengines.ru/showpost.php?p=1488743&postcount=11

Что тут говорить о качестве выдачи Яндекса, если по запросу "Индия" на 10 месте стоит несчастная страничка какой-то турфирмы, на которой красуется бредовая фраза: "Индия это прежде всего Гоа и Бангкок." И все! Больше никакой "полезной" инфы! Если кто не в курсе (наверное, только Яндекс и владельцы сайта не в курсе), Бангкок - столица Тайланда. Мало того, этот бред еще и цитируется на странице поиска: http://www.yandex.ru/yandsearch?stype=www&nl=0&text=%E8%ED%E4%E8%FF

Моего сайта, естественно, нет на первых 500 местах. Я конечно не претендую на полноту освещения вопросов связанных со словом "Индия", но обидно все-таки.
http://forum.searchengines.ru/showpost.php?p=1488897&postcount=37

Но пока 2 недели лично я Яндексом пользоваться не могу. Блокнотика и Рупоиска стало меньше, но в выдаче творится еще больший бардак. Вчера делал через Яндекс запрос, так в Top-10 шесть или семь сайтов вообще не имеют к теме отношения - так, случайные слова. Ведущая поисковая система, блин...
http://forum.searchengines.ru/showpost.php?p=1489142&postcount=42

Мне кажется, что Яндекс делает слишком сильную ставку на репрессивные методы. Сложно ли попасть в бан Гугла? Надо очень и очень постараться. И при этом лишь полный новичок не сможет понять за что же собственно его забанили. А в Яндексе? Да легче легкого. При этом самые многоопытные мастера долго чешут репу, соображая чем именно не угодили "великому и могучему". При этом в бан часто попадает не откровенный хлам, а вполне приличные сайты. Столь сильная вера в то, что "Платон все найдет и поправит" (утрирую, разумеется), привела к тому, что в Яндексе не слишком заботились о развитии собственных алгоритмов поиска. Нет, регулярно, конечно, что-то там происходило, но разве это можно сравнить с бурями, бушевавшими вокруг совершенно неожиданных и иновационных шагов Гугла? И вот, наконец-то, Яндекс все же решил почистить выдачу не ручками, а некоей сменой алгоритма (наверное глобальной, не знаю). Только кишка-то оказалась тоненькой.

P.S. За последние три недели пять моих знакомых дам - полные чайники в Интернете, научились набирать google.ru и теперь при слове Яндекс лишь недовольно морщатся.
http://forum.searchengines.ru/showpost.php?p=1489675&postcount=55

До последнего времени выдача Яндекса была вполне адекватной. Очевидно из-за небольшого размера рунета. Как только в последние полтора года рунет начал разрастаться с невиданной скоростью (в том числе и за счет дорвеев), Яндекс начал откровенно захлебываться, превращая свой лозунг "найдется все" в "продастся все". Уже сейчас на моем новостном сайте Гугл со всеми его национальными отростками дает в пять-шесть раз больше посетителей. Качественных, замечу. Разумеется, это еще не мэйнстрим, но звонок для Яндекса очень тревожный. И то, что он делает сейчас, лишь забивает гвозди в крышку гроба. За свою достаточно продолжительную карьеру в Интернете я видела закат поисковиков, так что симптомы налицо.
http://forum.searchengines.ru/showpost.php?p=1489710&postcount=64

Видите ли, на настоящем этапе развития, ведущие поисковики уже умеют учитывать тот факт, что пользователи не умеют пользоваться поиском. Некоторые даже пытаются, исходя из имеющегося несовершенного запроса, установить что же именно хотел спросить посетитель. Нормальная выдача - это не когда на тебя вываливается куча сайтов с нужным ключевиком. Жаль, что вы этого не понимаете. Яндекс, кстати, тоже, так что вы в хорошей компании
http://forum.searchengines.ru/showpost.php?p=1489783&postcount=81

Падению популярности Яндекса очень способствует непрозрачность его поведения. Он менянет критерии, что-то исключает из поиска, но не делает по этому поводу никаких заявлений и уходит от ответов на прямые вопросы. Некоторое время назад он забанил все сайты на бесплатных хостингах, в частности не nm.ru, перестал индексировать msk.ru, spb.ru, pp.ru, .info и Бог знает что еще! На пять своих новых сайтов я потратил все лето, даже не ездил никуда на майские праздники и не ходил в отпуск, но всё оказалось напрасным, ибо они болтаются без индексации по сей день, а Платон молчит или пишет откровенную чепуху о ссылочном спаме про сайт, где нет вообще ни одной ссылки. После моего сообщения на форуме Яндекса вдруг пропал пароль доступа на этот форум... И это самый правдивый ответ, так что больше у меня нет к Яндексу вопросов.

Разумеется, Яндкс - коммерческая фирма, и он никому ничего не должен. Но есть такое понятие, как порядочность. Его не пишут в Уставе, но если партнер его не соблюдает, то ищут другого, порою отказываясь и от выгодной сделки.

Я обманулся в своих надеждах на Яндекс, и это моя проблема, а не его. Но люди редко прощают обман, даже если обманулись сами, так что отток от Яндекса будет только усиливаться, и теперь уже далеко не все зависит только от него.
http://forum.searchengines.ru/showpost.php?p=1490180&postcount=102

Нехилый такой компроматик... :wink:
Выводы делаем сами.
Копирайты тоже.

Поисковый клоакинг: за и против


Клоакинг. Очуметь. Как же я люблю это слово! (Я еще люблю слово Yandex и слово ДЕНГИ) Вот нашол стотью - типо что такое клоакинг глазами правильного оптимизатора. У нас то технологии уже не те. И все-таки почитаем, покаментим...

Клоакинг – технология выдачи разных страниц разным пользователям. Есть объективная причина использования клоакинга: данный метод позволяет создавать отдельную оптимизированную страницу для поисковой системы и отдельную страницу, рассчитанную на предпочтения пользователя. (Есть еще одна объективная причина - пользователь у нас предпочитает РЕДИРЕКТ!) Когда поисковый робот проходит по сайту, то он обнаруживает ту страницу, которая оптимизирована под поисковую систему. Когда на сайт заходит пользователь, то появляется страница, оптимизированная с расчетом на пользователя. Положительная сторона данной технологии оптимизации страниц заключается в том, что пользователь не видит страниц, оптимизированных под поисковые системы, которые, с точки зрения языковых норм, являются некорректными из-за постоянного повторения ключевых слов. Данная технология помогает скрывать код источника, используя специальные скрипты клоакинга.
Существует два способа, с помощью которых скрипт клоакинга определяет, кто посещает сайт, пользователь или поисковая система:

1) Первый и самый простой способ – проверка параметра «User-Agent». Каждый раз при запросе страницы сайта указывается данный параметр. Если страницу запрашивает поисковый робот, параметр содержит имя поисковой системы. Если скрипт клоакинга распознал поисковую систему, то предоставляется страница, которая специально была оптимизирована под эту поисковую систему. Если распознавание поисковой системы не произошло, то считается, что запрос исходит от пользователя.

Хотя этот способ очень простой, он наименее надежный. Содержимое параметра «User-Agent» легко изменить, так что посмотреть оптимизированные страницы под разные поисковые систем не составит особого труда.

2) Второй и более сложный способ заключается в использовании IP. Используется база данных IP, содержащая список IP адресов всех известных поисковых роботов. Когда посетитель (поисковая система или пользователь) запрашивает страницу, в скрипте клоакинга происходит проверка IP адреса посетителя. Если IP адрес содержится в базе данных IP, следовательно, посетитель - поисковая система, если адрес не найден, посетитель – пользователь.
Хотя данный способ сложнее, он более надежный. (Базаров нет - способ сложный. Согласен. И очевидные минусы у него есть - адреса нужно постоянно мониторить. Вот если скрестить эти два способа - ахтунг яндыксу гарантирован. Если у вас этого нет - значит впуть! - точить скрипты)
Возникает вопрос: стоит ли прибегать к клоакингу?
Ответ однозначный: нет! (ДА! ДА! ДА!) И этому есть простое объяснение: клоакинг не любят поисковые системы, они могут забанить Ваш сайт. (Мы в танке, мы еще настрочим!) Использование подобных методов не позволяет поисковым системам гарантировать релевантные результаты поиска. А ведь релевантный поиск – один из основных критериев оценки поисковой системы!
Естественно, возникает вопрос, как поисковая система может обнаружить присутствие клоакинга на странице. Существует несколько способов:

1) Поисковые системы направляют на сайт поискового робота, который не сообщает название поисковой системы в параметре «User-Agent». Если поисковая система обнаружит, что страница, представленная поисковому роботу, отличается от страницы, содержащей название поисковой системы в параметре «User-Agent», значит, на сайте используется клоакинг. (Этож хитрый!!! Солам хитрый!)

2) Если сайт использует клоакинг, на основе IP, поисковые системы могут отправить поискового робота с другого IP адреса. Если поисковая система обнаружит, что страница, представленная поисковому роботу с новым IP адресом отличается от страницы, содержащей известный IP адрес, значит, на сайте используется клоакинг.

3) Наконец, сайт может посетить представитель поисковой системы и исследовать его на наличие клоакинга. Если представленная страница будет отличаться от страницы, представленной поисковой системе, значит, на сайте используется клоакинг.
По информации searchenginechannel.com

По сути, данная технология имеет много полезных применений. Предположим, цель состоит в выдаче разных страниц пользователям с разными браузерами. Ничего криминального в этом нет. Но когда мы говорим о поисковом клоакинге, все намного серьезнее. Поисковый клоакинг сурово карается поисковыми системами. Сегодня эта технология полностью не внедрена в Рунете (Чего? извините! не сказал бы, не сказал. Оч сеьезно внедрена!), хочется надеяться, что головная боль зарубежных поисковых систем не станет знакома отечественным поисковикам. (Поздно, батенька!!! Уже стала и у них уже бошка болит)

Зодрано с http://www.seonews.ru/article/.technique/27/

Научное СЕО

Integrated Optimization
Artificial Intelligence, On-Topic Analysis, Information Retrieval
http://www.miislita.com/
Чумной сайт про применение алгоритмов искуственного интеллекта в поисковых технологиях.
Фракталы, Теория хаоса, Искуственный интеллект, Алгоритмы ранжирования. Все доступно и логично.
Программистам - извращенцам очень рекомендую

Оптимизация запросов: эксперимент

Нашел интересную статью, посвященную оптимизации базы кеев
http://setah.blogspot.com/2006/01/blog-post_14.html
Тема интересная - сам сейчас очень заморочен таким вот вопросом:
Как определить является ли кей коммерческим?
Схема - "есть или нет обьявление в бегуне" - не подходит
так как время идет - реклы приходят и уходят
Зимой работают одни кеи, летом другие и тд.
Как просто раз и навсегда выкинуть мусор из кейвордной базы?

Щаз вот...

...интересная идея пришла а голову
А что если не собирать по крохам кеи, а самому их нагенерить
Найти словари киенить жесткие - и накуячить куеву кучу кивордов

Подкручиваем ратио

Ратио - величина вроде бы относительная. Отношение кликов к серчам в процентах.
А ведь в наших с вами силах ее подправить. (Речь идет о русском трафике)

Первое на что стоит обратить внимание это конечно же база кейвордов.

Возьмем к примеру такой запрос 'скачать сочинение на тему друг'. По нему выдачи нет. Значит и не нужно с ним работать.
В вашей базе не должно быть таких кивордов. А вот еще запрос 'общество' - у него одно обьявление. Чтото там про регистрацию ООО. Это уже интересней, но ведь совершенно не по теме. А что если посчитать колво обьявлений по каждому киворду. И использовать те у которых больше скажем 5 обьяв точно есть. У меня таких получилось 25k. Уже лучше правда ведь? А можно взять скажем 10-обьявные киворды. Вапще прицельно будем бить. И не нужно бегать за высоким бидом. Было б ратио - все остальное будет.
Чтобы получить такую информацию нужно парсить. (На click-click'е специально для этих целей специльно сделали облегченную версию бидчекера (рефералам могу дать парсилку, а может и сразу базы))

Еще один немаловажный момент - это правильный редирект

С жабаскриптом, который реферер передает в POST запросе, все просто супер. Пашет и пашет. И пусть партнерка сама его парсит. А вот если у кликера выключен Javascript? Или ваш настолько зашифрован что у него не выполняется?(бывает и такое). Для динамических доров это лечится путем определения поискового запроса (для этого существуют скрипты-рефанализаторы) и редиректа юзера средствами html (есть такая штука как <meta http-equiv="refresh"... - но не вздумайте показать это роботу!!!) Есть конечо еще варианты с header("Location: "), но чото он както мне не очень нравится.

Урл дора тоже имеет значение. Он должен быть как можно более человечным, сваримым, произносимым. Это касается как имени хоста так и конечной страницы.
Но нам же надо все автоматизировать.
Товарищи, нужно уходить от рандома! Юзайте базы человечных словоформ. Ну в крайнем случае можно комбинировать. В свою очередь могу предложить бесценный, на мой взгляд список доменов в зоне .ru. Там этих словоформ пруд пруди.
ru-domains.txt

Ну вот, сказал про урл, а сниппет забыл (сниппет, т.е. описание твоей странице в выдаче поисковика © Weber :wink:). Он должен быть красивым и завлекающим. Это ж лицо дора. Чем он будет осмысленней и адекватней запросу, тем больше трафика мы сможем получить. C титлом такая же история.
Так что, товарищи, открываем учебники на главе "Управление снипетами" и в путь... :wink:

Гугля тоже хитрит?

Неотрывно мониторю логи (ну параноик, че поделаешь?)
Заметил за гуглом такую штуку
Ходит он редко, какими то урывками - дернет 10 урлов и затаится
полчаса его нет, потом опять дернет штук 10
Ну и в таком духе - постоянно заним такое наблюдается
А вот совсем недавно точно такого же зверя , повадки такие же - прям один в один
Но только у него в UserAgent обычная строка про мозиллу . Типа он не вапще не робот и гугл тут не при чем. Причем хостами интересуется теми же что и гугля, в яше их давно уже нет. Их даже рамблер забанил.
Ну так как нам от этого ни холодно ни жарко, то пусть себе лазит.

PS. Новая фишка от гугли!!! Ходит вот с таким вот юзерагентом:
"Mediapartners-Google/2.1"

что такое Хитробот?

(информация закрытая, но все же кое чем можно поделится)
В общем говоря это уже не новое изобретение яндексоидов. Единственная цель которого - искать клоачащие и редирекчущие страницы. Это мерзкий червь, который прикрывается маской пользователя и сканирует наши сайты. Это двуликий анус, который пролил много нашей дорвейной крови.
В общем ласковых слов про эту нежить у меня много.

Отбросим в сторону эмоции. И попробуем разобраться что он есть.

Итак хитробот - это, в первую очередь, робот. Робот, который маскируется под человека - те эмулирует вход человека на вашу страницу. Причем делает это очень искусно.

При заходе на разные сайты он периодически меняет UserAgent, Если дергает один сайт несколько раз - UserAgent не меняет (так ведь и ведет себя нормальный пользователь). В строке Referer он как и положено имеет нормальный серч-стринг. Те будто бы он пришел на ваш сайт с яндекса. Или с рамблера или форума. В общем пепец - замаскировался.
Собсно все, теперь ему достаточно сравнить вашу страницу в кэшэ яндекса с тем что он у видел. И все - ваш клоакинг разобличен. Еще говорят он интерпритирует javascript-код, и ходит по редиректам. Это не достоверно, но вполне возможно. И плакали все наши доры горькими слезами.

Но защитится от хитробота можно. Как это сделать? - на блоге писать не буду. Отвечу, если спросите, по аське.

PS Фигу там. ниче не скажу. Ситуация изменилась



БЛИНгвистика

Вдруг подумалось:
- А если для генерации текста использовать лингвистику...
- И вообще в искуственном интеллекте мы уже ух как продвинулись...
- А может там есть уже что-то похожее...

В общем после штудирования матчасти созрела такая мысль:

Берем 10 сайтов гугли по некоторому запросу. Выпарсиваем из них текст без тегов. Склеиваем результаты в один большой текст. Далее бьем результат на предложения. Каждое предложение скармливаем part-of-speech таггеру (те определяем часть речи каждого составляющего). Получили part-of-speech шаблон предложения. Плюс структуру, содержащую данные о части речи каждого члена предложения.

например мы насобирали существительных (nouns):
doctor, abuse, product, xanax.
Теперь каждому существительному нужно приписать вес, те если слово xanax нас больше заботит, то мы ему припишем больший вес. Те теперь это будет выглядеть так:

nouns:
10 @ xanax, 5 @ doctor, 3 @ product, 1 @ abuse.

И так для всех предложений и частей речи.

Дальше все просто:
Мы просто заполняем шаблоны предложений нашими частями речи, согласно весу.
У xanax вес=10, значит в поле noun у него попасть вероятность в 10 раз больше, чем у других слов.

Все!!!
Текст нашпигован кивордами по самое нехочу.
Теперь о софте. Как же я люблю перл. В нем действительно есть все компоненты, чтоб эту схему реализовать.

чуть позже разжую поподробнее

Keywords, Related and document scope

Естественно что без кивордов мы далеко не уедем. Долго думать не хотелось. Есть Увертюра - нужны киворды. Чтоб глубже рыть, сделал его рекурсивным. Чтоб шире - добавил adwords от гугли. Так появился на свет мой икстрактор кивордов.
На сайте выложена ранняя версия скрипта. Дополнительно был разработан более функциональный скрипт, который дает полный расклад: проверяет биды и определяет колво сайтов в гугле по киворду. Причем эту последнюю цифру я брал не из google API - нашел другой сервис с реальными цифрами. Если кому понадобится - обращайтесь.


Дальше то что?
Кивордов куча - а толку мало
Можно конечно доров нагенерить с одними только кивордами. На страницу пихать все которые найдем, содержащие нужное нам слово.
Скушно...
Не пойдет...

Можно еще травилку бидов прикрутить не скажу откуда. И получить свой первый список самых дорогущих.
Вот это интересней...

По слову 'buy' мне удалось выкурить около 25000 кивордов
Из них 138 стоили больше доллара.
Ух!!

Воодушевленный результатами, я взялся за написание генератора - 'киворды + цепи маркова'.
Ну написал. Ну работает.
Скучно...

И тут возникла подлая мысль:
- А почему это гуглю должны тревожить наши киворды, да еще и дико намешанные. Допустим два киворда содержат слово 'xanax': buy cheap xanax и какойнить xanax intoxication. Это же совершенно разные вещи. Те один киворд дискредитирует второй в смысле общей темы документа. Мое ИМХО, что у гугли свои понятия о близости кивордов.

Значит нужно анализировать serp. Допустим первые сто сайтов. И выделить в них общие ключевые фразы статистическими методами. По этому поводу нашел даже диссертацию на русском! С алгоритмом! Афтор - лапочка. В общем пришлось мне снова браться за перл. В итоге из под моих чутких пальцев вышла новая программа, которая по указанному запросу анализировала сайты из выдачи гугли (не сами сайты, а их закешированные версии) и выдывала чаще всего употребляемые слова и слова, их окружающие.
Вот это уже что-то...
Результат!!
Правда же?

Второстепенный, но результат.


December 2008
S M T W T F S
November 2008January 2009
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31