Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом

Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС
Яндекс“, то выполняем следующие действия:

Действия для исключения страниц из сапы

  1. Качаем спец утилиту для проверки индексации Яндексом (прежде, чем юзать, рекомендую прочитать дисклеймер на сайте).
  2. Экспортируем все страницы сайта — соответствующая ссылка внизу на странице “
    страницы” (сорри за калабмур :).
  3. Открываем в Excel’e, копируем все ссылки, вставляем в программу-чекер.
  4. Дабы уменьшить вероятность бана Яндексом Вашего IP-адреса при авточеке всех ссылок (а их у Вас может быть и 300, и 1000 или еще больше) советую поставить задержку между запросами, отличную от нуля (если страниц не так уж много, можно и побольше).
  5. Жмем
    “Проверить” и ждем, когда прочекаются все ссылки.
  6. Копируем результат в Excel и сортируем данные по столбику с цифрами.
  7. Заходим в САПЕ
    через Internet Explorer (в данном случае
    обязательно, т.к. проставление галок по списку ссылок не работаете в Опере и FireFox).
  8. Копируем из отсортированного в Excel’е списка только те ссылки, напротив которых стоит ноль или вообще ничего не стоит.
  9. Вставляем ссылки в форму
    “Введите УРЛы страниц…” на странице, с которой делали экспорт в самом начале, и нажимаем
    “Поставить галочки!”. В результате все ссылки, непроиндексированные Яндексом, становятся помеченными.
  10. Выбираем
    “Удалить страницы до переиндексации” и нажимаем
    “ОК”.
  11. После чего через форму обратной связи пишем письмо с просьбой отмодерировать домен.Удаление страниц, непроиндексированных ГугломВот здесь несколько сложнее. Поскольку готового авточекера нет (по крайней мере, мне он не известен), пришлось искать возможный способ автоматизации. Решение нашлось — пропарсить выдачу с помощью php-скрипта, чтобы получить список проиндексированных страниц.

    Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС
    Google“, то выполняем следующие действия:

    1. Набираем в поисковой форме Гугла
      allinurl:domain.com site:domain.com
      , где вместо
      domain.com
      подставляем имя своего домена . Оптимальным для нашего случая будет указание выдачи 50 результатов на страницу (настраивается в расширенном поиске).
    2. Создаем php-файл с таким кодом:
      1. <?php
      2. $contents =
        file_get_contents
        (
        «http://www.google.com/search?as_q=&hl=ru&num=50&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&as_epq=domain+com&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=url&as_dt=i&as_sitesearch=domain.com&as_rights=&safe=images»
        );
      3. $pattern =

        «|


        «
        (.*?)
        «
        class=l|is»
        ;

      4. preg_match_all
        (
        $pattern,
        $contents,
        $out, PREG_PATTERN_ORDER
        );
      5. for
        (
        $i =
        0;
        $i <
        count
        (
        $out
        [
        1

        ]
        )
        ;
        $i ++

        )
        {
      6. echo
        $out
        [
        1

        ]
        [

        $i
        ].
        »
        «
        ;
        }
      7. ?>

      Заменяем ссылку в
      3-й строке кода на свою (которая находится в адресной строке браузера). Больше в коде ничего не трогаем.

    3. Теперь нужно запустить этот файл либо через свой сайт, либо через “Денвер” (к инету должны быть при этом подключены). В результате запуска скрипта на экран выведется список из первых 50-ти ссылок.
    4. Копируем ссылки и сохраняем, например, в блокноте.
    5. Далее открываем в Гугле следующую страницу результатов, копируем ссылку из адресной строки браузера в скрипт и снова его запускаем (не забываем записывать список полученных ссылок).
    6. Повторяем эти действия до тех пор, пока не пропарсим все страницы результатов Гугла для Вашего домена.
    7. В определенный момент парсинга может случиться так, что скрипт выведет не 50 ссылок, а меньше, хотя Гугл показывает 50. Я делал в этом случае следующее — просто сохранил на свой компьютер эту страницу и подставлял в скрипт уже ее, а не ссылку из Гугла.
    8. После того, как пропарсили все страницы и сохранили список полученных ссылок, заходим в САПЕ
      через Internet Explorer.
    9. Вставляем ссылки в форму
      “Введите УРЛы страниц…”, нажимаем
      “Поставить галочки!”. Теперь

      внимание!
      Поскольку мы “выдрали” из Гугла ссылки, которые им проиндексированы (а не наоборот, как было с Яндексом), то после нажатия на кнопку “Поставить галочки!” помеченными становятся
      проиндексированные Гуглом страницы. Не забывайте об этом!
    10. Поэтому теперь нам остается
      инвертировать отмеченные галками страницы (если страниц много, то это будет немного муторно).
    11. Как только отметили
      нужные страницы, выбираем
      “Удалить страницы до переиндексации” и нажимаем
      “ОК”.
    12. После этого через форму обратной связи пишем письмо с просьбой отмодерировать домен.

    На этом все. Желаю удачной работы с SAPE.

Rate
Affiliate programs
Добавить комментарий