Сообщество предпринимателей и экспертов, которые делятся своим опытом и знаниями

Технический SEO-аудит интернет-магазина с использованием краулера Netpeak Spider

Детальный технический аудит сайта на примере adiavto.ru

Регулярный технический аудит нужен каждому сайту. А в случаях, когда сайт служит основным рабочим инструментом и каналом продаж, внутренняя оптимизация и постоянный мониторинг технического состояния сайта приобретают критическую значимость.

Отсюда возникает вопрос: как проводить исчерпывающий внутренний SEO-аудит, не прибегая к помощи команды специалистов и не тратя слишком много драгоценного времени? Первый способ мониторинга технических ошибок — Google Search Console. Вторым способом являются онлайн-сервисы, выявляющие лишь часть технических ошибок и ограниченные лимитом по количеству сканируемых URL, что особенно ощутимо для владельцев больших интернет-магазинов и крупных контентных проектов. И, наконец, третий способ — краулер, который поможет провести аудит всех аспектов технической оптимизации и выявить максимальное количество возможных проблем внутри сайта.

В рамках данной статьи я покажу, как провести технический аудит сайта при помощи краулера, в качестве которого мы будем использовать Netpeak Spider.

Постановка задач аудита

Прежде чем задавать настройки для сканирования сайта, следует определиться, какие именно параметры нам следует проанализировать. В рамках аудита adiavto.ru мы хотим выяснить:

  1. нет ли на сайте каких-либо дубликатов;
  2. грамотно ли оптимизированы Meta Title, Meta Description и H1;
  3. нет ли на сайте смешанного контента;
  4. присутствует ли на товарных страницах микроразметка (Product Schema);
  5. нет ли на сайте не 301 редиректов, бесконечных перенаправлений, цепочек, а также редиректов, ведущих на внешние сайты;
  6. корректно ли выставлены инструкции по индексации;
  7. равномерно ли распределяется ссылочный вес;
  8. прописаны ли альтернативные описания (атрибут ALT) для картинок;
  9. нет ли на сайте битых ссылок и битых картинок;
  10. на всех ли страницах имеется хотя бы минимально допустимый объём текста;
  11. нет ли ошибок в XML-карте сайта.

2. Настройка краулера и запуск сканирования

Предварительная настройка производится следующим путём:

  1. Запускаем Netpeak Spider.
  2. В главном меню программы открываем «Настройки».
  3. На вкладке «Основные» выставляем настройки по умолчанию
  4. Переходим на вкладку «Парсинг» и отмечаем галочкой «Использовать парсинг HTML-данных».
  5. В строку поиска вставляем отрывок структурированных данных Schema для товаров — itemtype=»http://schema.org/Product». Режим извлечения данных — «Содержит», область поиска — «Весь исходный код».
  6. Сохраняем настройки и закрываем окно.
  7. В главном окне программы переходим на боковую панель и открываем вкладку «Параметры». Выбираем шаблон «По умолчанию». Дополнительно отмечаем пункт «Парсинг».
  8. Вводим в строку «Начальный URL» адрес сайта — adiavto.ru.
  9. Запускаем сканирование.

Обработка результатов

Дождавшись окончания сканирования и завершения обработки «тяжёлых» данных, мы переходим к анализу полученных результатов.

Всего в программе есть несколько форматов представления данных:

  1. Таблица с просканированными URL.
  2. Панель «Ошибки» с информацией обо всех найденных на сайте проблемах.
  3. Панель «Сводка» с информацией, сгруппированной по тем или иным параметрам.
  4. «Дашборд» с визуализацией наиболее важных данных.

Разбирая по очереди каждый из аспектов технической оптимизации сайта, которые были прописаны в параграфе 2, мы время от времени будем обращаться к каждому из них.

Дубликаты

Вся информация о найденных дубликатах отображается на боковой панели на вкладке «Ошибки». Всего на сайте были найдены:

  • дубликаты Title — 5 (высокая критичность);
  • дубликаты Description — 15 (высокая критичность);
  • дубликаты H1 — 11 (средняя критичность).

Просмотрев списки проблемных страниц с дубликатами, я убедилась, что описания, заголовки и названия дублируются у страниц пагинации блога, а также у нескольких почти идентичных друг другу товаров.

Оптимизация Meta Title, Meta Description и H1

Часть проблем, связанных с Meta Title, Meta Description и H1 анализируемого сайта, мы затронули в предыдущем пункте, однако, ими дело не ограничилось. Продолжая изучать перечень найденных ошибок, мы выяснили, что на сайте есть следующие проблемы:

  • слишком длинный Title (свыше 70 символов по умолчанию) — 57;
  • слишком короткий Title (менее 10 символов по умолчанию) — 7;
  • слишком длинный Description (свыше 320 символов по умолчанию) — 371;
  • слишком короткий Description (менее 50 символов по умолчанию) — 49 ;
  • максимальная длина H1 (свыше 65 символов по умолчанию) — 3.

К счастью, все они относятся к проблемам с низким уровнем критичности, но всё же не будет лишним позаботиться об их устранении.

Смешанный контент

После подключения SSL-сертификата и переезда на HTTPS крайне важно настроить все необходимые редиректы и позаботиться о том, чтобы на сайте не было смешанного контента (одновременное существование страниц на HTTP и HTTPS в пределах одного сайта).

В процессе анализа программа определяет протокол всех анализируемых страниц. В частности, все страницы с HTTP отображаются как страницы с ошибкой низкой критичности — «Не HTTPS-протокол». Также данные по количеству страниц с тем или иным протоколом наглядно представлены на вкладке «Сводка».

На нашем сайте было обнаружено 25 страниц с HTTP-протоколом, но, как показывают данные в таблице, с них выставлен постоянный редирект на аналогичные страницы с безопасным соединением.

Наличие микроразметки

В данном случае объектом нашего технического SEO-анализа выступает интернет-магазин, состоящий преимущественно из товарных страниц. Одним из важных аспектов оптимизации карточек товаров является внедрение микроразметки Schema (Product). Именно её наличие мы определяем при помощи парсинга данных.

Чтобы получить сводную информацию о том, на каких страницах в процессе парсинга была обнаружена микроразметка, мы обращаемся к вкладке «Отчёты» → «Парсинг» на боковой панели.

Под названием потока парсинга мы видим сводное число страниц, на которых обнаружен искомый элемент, и число страниц, на которых он отсутствует. Вывод: товарная микроразметка на сайте не внедрялась в принципе.

Редиректы

Проверяя выставленные на сайте редиректы, мы в первую очередь стремимся убедиться, что на сайте присутствуют исключительно 301 редиректы на внутренние страницы сайта. К счастью, на adiavto.ru все редиректы выставлены корректно.

Если бы ситуация была иной, в списке статус-кодов в «Сводке» значился бы 302, 306, 307 и др., а в числе ошибок высветилась бы «Редирект на внешний сайт».

Инструкции по индексации и коды ответа сервера

Сколько бы усилий вебмастер или SEO-специалист ни приложил для улучшения сайта, они не принесут ожидаемого улучшения позиций, если сайт будет закрыт от поисковых роботов, а страницы будут отдавать код ответа, отличный от 200 OK. Исходя из этого, в процессе SEO-аудита очень важно проверить, не закрыты ли важные страницы от индексации и правильный ли код ответа они отдают.

Согласно данным, собранным на панели «Сводка» по итогу сканирования, на сайте имеется всего 1421 потенциально индексируемая страница (из 1619 суммарно). Это именно те страницы, которые не были закрыты от индексации при помощи Meta Robots, robots.txt и X-Robots-Tag и при этом отдают код ответа 200 OK. Помимо них, на сайте есть ещё страницы (и редиректы, ведущие на них) с кодом ответа 200 OK & Canonicalized (165), для которых другие страницы указаны в качестве канонических, а также 200 OK & Disallowed (2), закрытые от индексации.

Чтобы просмотреть полный список страниц с определённым кодом ответа, нужно кликнуть по соответствующему пункту.

Если вам такой формат представления данных кажется слишком сложным, можно перейти на «Дашборд», где информация об индексации представлена в виде наглядных кликабельных диаграмм.

Распределение внутреннего PageRank

После окончания отложенного анализа тяжёлых данных программа укажет вам на целый ряд ошибок, связанных с распределением внутреннего веса между страницами сайта. Что касается adiavto.ru, здесь было найдено сразу несколько ошибок внутреннего PageRank:

  1. «Висячий узел», с которого нет исходящих ссылок — 2.
    Ими оказались страницы, закрытые от индексации.
  2. «Отсутствуют связи», то есть на страницу не было найдено ни одной входящей ссылки — 2.
    Ими оказалась одна из страниц, упомянутых выше, а также одно из зеркал сайта.

Чтобы проанализировать, на каких страницах больше всего концентрируется внутренний PageRank, запустите инструмент «Расчёт внутреннего PageRank».

В данном случае мы видим, что наибольшая концентрация PR приходится на страницы категорий и ряд нескольких основных страниц, к которым есть доступ с любой точки сайта.

Атрибут ALT у изображений

Борясь за топовые позиции в органической выдаче, не забывайте о поиске по картинкам — именно он может стать для вас источником целевого трафика. Один из наиболее важных моментов, о которых нужно позаботиться в рамках оптимизации картинок, — атрибут ALT. Если не вдаваться в детали, он, как минимум, должен быть 🙂

Среди проблем, найденных в ходе сканирования adiavto.ru, была обнаружена ошибка «Изображения без атрибута ALT». Кликнув по её названию, мы открываем список, в котором 1421 страница с картинками без «альтернативных текстов».

Чтобы не открывать каждую страницу и не выяснять, где именно не прописан ALT, воспользуйтесь специальным отчётом (меню «Экспорт» → «Специальные отчёты») — «Изображения без атрибута ALT».

Битые ссылки и битые картинки

Ни битых ссылок, ни битых картинок, ни битых редиректов на анализируемом сайте не было обнаружено. Аллилуйя 🙂

Объём текста на страницах

Анализ параметра «Размер контента» показал, что ни на одной из страниц не была обнаружена ошибка «Минимальный размер контента». Словом, всё хорошо 🙂

XML-карта сайта

Чтобы убедиться в валидности карты сайта и отсутствии каких-либо ошибок в ней, мы воспользовались встроенным инструментом «Валидатор XML Sitemap». В адресную строку мы поместили адрес XML-карты, указанный в файле robots.txt и запустили сканирование. Результаты показали, что в заголовке HTTP-ответов сервера карты указан невалидный Content-Type: вместо «text/xml» там значится «text/html».

Коротко о главном

Для проведения полноценного технического аудита при помощи краулера необходимо:

  1. определить цели аудита;
  2. в соответствии с ними выставить корректные настройки краулера;
  3. по отдельности уделить внимание каждому из аспектов оптимизации.

Выполнив аудит сайта adiavto.ru, мы обнаружили ряд проблем, связанных с атрибутом ALT у изображений, отсутствием товарной микроразметки, валидностью XML-карты сайта, а также оптимизацией Meta Title и Meta Description.

Комментарии
CLOSE
CLOSE