Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом

Как уже известно, начать монетизировать свой сайт или блог в РУнете сегодня возможно всем и каждому, причем не легко, а очень легко, будь только в наличии этот самый блог или сайт с ненулевыми показателями пузомерок популярных поисковых систем.

Но, вероятно, многие веб-мастера при добавлении новой площадки в систему SAPE сталкиваются с тем, что сайт не проходит модерацию в виду отсутствия некоторых из добавленного списка страниц в индексе поисковых систем Яндекс и Google.

При этом нам, веб-мастерам, не предоставлен такой инструмент, который бы позволил легко и непринужденно вычислить такие страницы и удалить из списка в несколько кликов. Ведь ручная проверка страниц (а их может быть очень много) - весьма непростая задача. Однако есть выход из такой ситуации - автоматизировать процесс проверки непроиндексированных ссылок сторонними средствами, о чем и поговорим ниже.

Удаление страниц, непроиндексированных Яндексом


Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС Яндекс“, то выполняем следующие действия:

  1. Качаем спец утилиту для проверки индексации Яндексом (прежде, чем юзать, рекомендую прочитать дисклеймер на сайте).
  2. Экспортируем все страницы сайта - соответствующая ссылка внизу на странице “ страницы” (сорри за калабмур :).
  3. Открываем в Excel’e, копируем все ссылки, вставляем в программу-чекер.
  4. Дабы уменьшить вероятность бана Яндексом Вашего IP-адреса при авточеке всех ссылок (а их у Вас может быть и 300, и 1000 или еще больше) советую поставить задержку между запросами, отличную от нуля (если страниц не так уж много, можно и побольше).
  5. Жмем “Проверить” и ждем, когда прочекаются все ссылки.
  6. Копируем результат в Excel и сортируем данные по столбику с цифрами.
  7. Заходим в САПЕ через Internet Explorer (в данном случае обязательно, т.к. проставление галок по списку ссылок не работаете в Опере и FireFox).
  8. Копируем из отсортированного в Excel’е списка только те ссылки, напротив которых стоит ноль или вообще ничего не стоит.
  9. Вставляем ссылки в форму “Введите УРЛы страниц…” на странице, с которой делали экспорт в самом начале, и нажимаем “Поставить галочки!”. В результате все ссылки, непроиндексированные Яндексом, становятся помеченными.
  10. Выбираем “Удалить страницы до переиндексации” и нажимаем “ОК”.
  11. После чего через форму обратной связи пишем письмо с просьбой отмодерировать домен.


    Удаление страниц, непроиндексированных Гуглом

    Вот здесь несколько сложнее. Поскольку готового авточекера нет (по крайней мере, мне он не известен), пришлось искать возможный способ автоматизации. Решение нашлось - пропарсить выдачу с помощью php-скрипта, чтобы получить список проиндексированных страниц.

    Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС Google“, то выполняем следующие действия:

    1. Набираем в поисковой форме Гугла allinurl:domain.com site:domain.com, где вместо domain.com подставляем имя своего домена . Оптимальным для нашего случая будет указание выдачи 50 результатов на страницу (настраивается в расширенном поиске).
    2. Создаем php-файл с таким кодом:
      1. <?php
      2.  
      3.   $contents = file_get_contents ( "http://www.google.com/search?as_q=&hl=ru&num=50&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&as_epq=domain+com&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=url&as_dt=i&as_sitesearch=domain.com&as_rights=&safe=images" );
      4.   preg_match_all ( $pattern, $contents, $out, PREG_PATTERN_ORDER );
      5.   for ( $i = 0; $i < count ( $out [ 1 ] ); $i ++ ) {
      6.     echo  $out [ 1 ] [ $i ]. "
        "
        ; }
      7.  
      8. ?>

      Заменяем ссылку в 3-й строке кода на свою (которая находится в адресной строке браузера). Больше в коде ничего не трогаем.

    3. Теперь нужно запустить этот файл либо через свой сайт, либо через “Денвер” (к инету должны быть при этом подключены). В результате запуска скрипта на экран выведется список из первых 50-ти ссылок.
    4. Копируем ссылки и сохраняем, например, в блокноте.
    5. Далее открываем в Гугле следующую страницу результатов, копируем ссылку из адресной строки браузера в скрипт и снова его запускаем (не забываем записывать список полученных ссылок).
    6. Повторяем эти действия до тех пор, пока не пропарсим все страницы результатов Гугла для Вашего домена.
    7. В определенный момент парсинга может случиться так, что скрипт выведет не 50 ссылок, а меньше, хотя Гугл показывает 50. Я делал в этом случае следующее - просто сохранил на свой компьютер эту страницу и подставлял в скрипт уже ее, а не ссылку из Гугла.
    8. После того, как пропарсили все страницы и сохранили список полученных ссылок, заходим в САПЕ через Internet Explorer.
    9. Вставляем ссылки в форму “Введите УРЛы страниц…”, нажимаем “Поставить галочки!”. Теперь внимание! Поскольку мы “выдрали” из Гугла ссылки, которые им проиндексированы (а не наоборот, как было с Яндексом), то после нажатия на кнопку “Поставить галочки!” помеченными становятся проиндексированные Гуглом страницы. Не забывайте об этом!
    10. Поэтому теперь нам остается инвертировать отмеченные галками страницы (если страниц много, то это будет немного муторно).
    11. Как только отметили нужные страницы, выбираем “Удалить страницы до переиндексации” и нажимаем “ОК”.
    12. После этого через форму обратной связи пишем письмо с просьбой отмодерировать домен.

    На этом все. Желаю удачной работы с SAPE.

Отзывы к Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
4ua.info A7 DesiGN | hosted by ArxUA
2015