Возвращайте до 18% с пополнений рекламы
  • Все популярные рекламные сети в одном окне
  • Рекламные инструменты — бесплатно
  • Доступ к конструктору лендингов и WebApp-приложений
  • Закрывающие документы точно в срок
ring svg
  1. Главная >
  2. Блог >
  3. SEO и таргетинг >
  4. Что такое парсинг: как правильно парсить цены, фото и товары с сайта

Что такое парсинг: как правильно парсить цены, фото и товары с сайта

Что такое парсинг: как правильно парсить цены, фото и товары с сайта

Парсинг — это автоматизированный способ сбора и систематизации данных из различных интернет-источников. Для получения информации нужен специализированный сервис — парсер.

Парсер — это автоматизированная система, для которой вся информация в сети представлена в виде кода или текста. Он собирает информацию практически из любых источников в 3 шага: сканирует ресурс → находит заданные параметры → составляет отчет.

Парсер ищет данные на обычных сайтах, интернет-магазинах, социальных сетях и каталогах.

Разберем, как спарсить данные с любого сайта без навыков программирования.

Содержание статьи

Зачем нужен парсинг?

Ограничения по парсингу

Преимущества и недостатки парсинга

Как работает парсинг?

Способы использования парсинга

Как парсить цены?

Шаг 1. Выбираем объект парсинга
Шаг 2. Выбираем источники

Как парсить фото и иллюстрации?

Как парсить описание товаров?

Заключение

Зачем нужен парсинг?

Маркетолог ежедневно работает с большим объемом данных. Он анализирует работу сайта, отслеживает конкурентов, интересы аудитории и другие данные. Этот процесс можно делать вручную или автоматизировать с помощью специальных утилит — парсеров.

Когда проводят парсинг?

1

При проведении маркетингового исследования

Специалисты мониторят и сравнивают цены конкурентов. Когда ассортимент большой, ручная проверка занимает несколько дней. С парсером ту же процедуру реализуют за пару часов

2

При настройке сайта

С помощью парсера web-мастер анализирует структуру интернет-магазина через карту ресурса

3

При мониторинге цен

Когда нужно отследить изменения цены у конкурентов и сделать ответное предложение покупателям, настраивают парсинг цен. Можно отслеживать динамику и предлагать скидки в ответ на действия других компаний — парсер существенно экономит время.


Или отслеживать динамику цен у поставщиков. Это особенно важно интернет-магазинам и бизнесам, действующим по модели дропшиппинг

4

При поиске товарных позиций

Если с сайта компании-поставщика нужно перенести описание и характеристики товаров, автоматизируйте процесс.


Собирайте информацию по требуемым параметрам и копируйте в свой каталог

5

При поисковой оптимизации сайта

При аудите сайта-конкурента специалисты копируют метатеги и ключевые слова.


Специалисты также парсят позиции конкурентов в поисковой выдаче, выделяют title, description и заголовки.


Парсер собирает сведения, сводит их в таблицу и помогает повышать эффективность продвижения в поисковых системах

6

При аудите ссылочной массы

Когда сайт выдает ошибку, web-мастер оптимизирует работу с помощью парсера.


Программа ищет неработающие страницы и линки, а специалист исправляет ошибки 

7

При анализе контента на сторонних сайтах и в соцсетях

При разработке стратегии продвижения маркетолог учитывает опыт конкурентов.


Для этого он отслеживает описание и характеристики товаров, изображения, статьи и другую информацию, которая стимулирует покупателей.


Парсер автоматически сводит информацию по нескольким компаниям в один отчет

8

При сборе контактов и адресов компаний

Парсер удобен, если надо собрать сведения по организациям из одной отрасли. За несколько минут он сводит статистику по фирмам в один документ

9

При отслеживании объемов продаж

На некоторых сайтах публикуют данные по складским остаткам и маркетинговым исследованиям. Парсер собирает и систематизирует статистику

Если ваша цель систематизировать общедоступные данные для улучшения контента, экономии бюджета при продвижении и развитии бизнеса — использование парсера законно.

Ограничения по парсингу

Общедоступной информацией для решения личных или коммерческих задач может пользоваться любой человек. Ограничения распространяются на парсинг популярного авторского контента. Его можно парсить, но использовать без разрешения владельца — нельзя.

Нельзя также использовать собранные данные для спам-рассылок, плагиата, DDOS-атаки, взлома сайтов и распространения личных данных пользователей.

Это недобросовестные действия, которые нарушают закон, правила работы в поисковых системах и соцсетях. За них грозят штрафы, санкции и блокировка.

Если хотите на своем сайте собирать персональные данные, предупредите посетителей об этом. 

Пример формы с уведомлением

Преимущества и недостатки парсинга

Автоматический сбор информации имеет несколько преимуществ:

  • Самостоятельная работа. Специалист ставит задачу, а парсер находит и сортирует данные по указанным параметрам при наличии стабильного доступа к Интернету. Время работы не ограничено. Программа может собирать сведения 24 часа в сутки без перерывов.
  • Анализ и систематизация. Специалист указывает один или несколько параметров, по которым парсер сводит сведения. Количество настроек не ограничено. Готовый отчет содержит только необходимый контент без спама, ошибок или нерелевантной информации.
  • Отсутствие ошибок. При использовании парсера человеческий фактор исключен. Программа не устает и не допускает ошибки по невнимательности.
  • Удобный отчет. Парсер формирует сведения в удобной форме. Пользователь настраивает форму отчета сам.
  • Распределение нагрузки. Парсер учитывает требования по частоте обращений к сайту и минимизирует риск взлома чужого сайта. Вас не обвинят в умышленной DDOS-атаке.

Единственный существенный недостаток парсинга — невозможность сбора данных с ресурсов с запретом на автоматический сбор сведений.

Владелец чужого сайта может запретить собирать данные по IP-адресам, включить настройки блокировки для поисковых ботов. Во всех остальных случаях парсинг — это быстрый и надежный способ сбора информации.

Если вы не хотите, чтобы конкуренты парсили ваш сайт, заблокируйте сторонние запросы через robots.txt или настройте капчу. Хотя эти способы не дают 100% защиты от парсинга конкурентов.

Обойти блокировку можно двумя способами:

  • Настроить отображение бота по именем YandexBot, Googlebot и проверить отсутствие блокировки на эти имена в site.ru/robots.txt/IP.
  • Включить VPN Капча для автоматического распознавания капчи.

Как работает парсинг?

Схема работы парсера

Принцип работы сервисов примерно одинаков:

  1. Программа отправляет запрос на нужный URL-адрес и получает HTML-код с информацией.
  2. Парсер распознает код, трансформирует его в текст, создает структуру в памяти компьютера. Фактически он обратно преобразует HTML-код в заголовки, подзаголовки, абзацы, жирные выделения и т. д.
  3. Парсер систематизирует и сохраняет сведения в файле с расширением .txt, .xls, .html и др.

Способы использования парсинга

Парсер используют в двух случаях:

Когда анализируют собственный сайт.
Когда изучают ресурсы конкурентных фирм, ищут тенденции и контент.

В чистом виде тот или иной способ используют редко. Для комплексной оценки ситуации специалисты совмещают оба метода.

Например, анализируя цены других компаний из отрасли, они учитывают диапазон цен заказчика. При наличии новинок они ищут аналогичные товары в собственной базе и сравнивают их между собой.

Как парсить цены?

Есть несколько сервисов, которые помогут решить корпоративные задачи:

  • Screaming Frog SEO Spider.
  • Mozenda.
  • Automation Anywhere.
  • Content Grabber.
  • Netpeak Spider.
  • FMiner и др.

Если ни одна из программ не решает поставленной задачи, вы можете написать парсер самостоятельно при помощь любого языка программирования: PHP, C++, Python.

Если парсер нужен для одного параметра на странице, используйте XPath — язык, позволяющий парсить XML-документы. Разберем, как работает XPath на конкретном примере.

Шаг 1. Выбираем объект парсинга

Например, нужно собрать цены продуктов из каталога конкурента. Перейдите на нужную страницу, правой кнопкой нажмите на цифру с ценой и выберите «Посмотреть код элемента».

Пример, как посмотреть код элемента на странице

Теперь правой кнопкой мыши нажмите на <span> → Copy → XPath. Вы скопировали строку из HTML-кода, где написана необходимая информация, и определили границы будущего парсинга.

Если на другой странице верстка будет другой, копирование XPath не поможет. Парсер не соберет нужную информацию. В таком случае используйте справочники по языку XPath. В них собраны участки кода xpath.

Когда кусочек кода выделен, выбирайте парсер, например Screaming Frog. Он бесплатно анализирует 500 страниц: проверяет пустые title, дубликаты, заголовки, незаполненные метатеги и битые ссылки. Для парсинга нужна платная версия.

Откройте программу и укажите параметры настройки:

  • Для сбора цен перейдите Configuration → Custom → Extractions и сформируйте запрос. В нашем примере нужная информация обозначена метатегом <span> с классом price_main-value. XPath-запрос выглядит так: //span[@class="price_main-value"]/span
  • Чтобы получать данные в текстовом виде, поставьте галочку в выпадающем меню справа напротив Extract Text.

Шаг 2. Выбираем источники

Теперь выберите страницы, с которых нужно собирать данные. Если вставить ссылку на главную страницу сайта в Screaming Frog, в выборку попадут информационные страницы без цен. Для сокращения времени, необходимого на парсинг, выберите конкретный перечень страниц, по которым программа сделает выборку.

Перейдите в карту сайта — «адрес сайта/sitemap.xml» или в robots.txt — site.ru/robots.txt и выберите товарные карточки.

Карта сайта в robots.ru

Если карты сайта нет, систематизировать данные не получится. Запускайте парсинг в стандартном режиме по всем страницам сайта. Программа соберет нужные сведения, но потратит больше времени.

Выбирайте страницы, касающиеся товаров, с надписью — Product.

Выбираем источники парсинга в карте сайта

Ссылочную массу выгружайте в раздел Mode → List → Upload → Download Sitemap. Введите гиперссылку с картой сайта, в которой сгруппированы товарные позиции и нажмите ОК. Парсер формирует выборку и выводит на экран.

Раздел Internal отражает данные по всем параметрам:

  • код ответа;
  • возможность индексации;
  • title, description и т. д.

Для просмотра цен нажмите на стрелку в правом верхнем углу. В выпадающем меню выберите Custom → Filter → Extraction. Парсер покажет перечень страниц с товарами и цены на них. Для выгрузки данных нажмите Export.

Чтобы к списку добавить названия товаров, перейдите в Configuration → Custom → Extraction, вставьте дополнительный XPath-запрос, а затем повторно запустите парсер. Проверяйте, как пишется нужный элемент html-кода в справочнике или в sitemap.xml.

Парсить информацию таким образом можно почти с любого сайта, кроме защищенных ресурсов. Например, скопировать данные из Яндекс.Маркета не выйдет.

Как парсить фото и иллюстрации?

Крупные интернет-магазины размещают на сайте фото от поставщиков. Они универсальные и могут использоваться в любом каталоге.

Специалисты собирают в таблицы ссылки на картинки из разных карточек, чтобы позже выбрать нужный файл и загрузить на свой сайт.

Большинство систем для управления сайтов, например Bitrix или Shop-Script, разрешают прикреплять ссылки вместо загрузки фото. Через эти движки можно выгружать изображения прямо из CSV-файла.

Чтобы запустить парсинг картинок, выделите код и сформулируйте XPath-запрос:

1. Правой кнопкой мыши нажмите на фотографию и выберите «Посмотреть код объекта».
2. Найдите строку кода и выделите в элементе <span> нужный тег.

Формирование XPath-запроса при парсинге

3. Сформулируйте XPath-запрос: //*[@id="firstbackground-position"]/*/img/@src
Запрос обращен к идентификатору firstbackground-position — первой фотографией из списка, а также вложенным в него элементам. Они перечислены под * «звездочкой».
Метатег img указывает на строку с указанным URL-адресом. Он покажет парсеру, где брать информацию.
4. Откройте Screaming Frog и перейдите во вкладку Configuration → Custom → Extraction.
5. Вставьте XPath-запрос и нажмите ОК.

Таким способом можно спарсить одну фотографию или весь каталог:

  • Для добавления одного изображения скопируйте ссылку и вставьте ее в парсер Upload → Paste.
  • Чтобы скопировать ссылки по всем фотографиям, опубликованным на ресурсе, выберите вкладку Mode → Spider, введите ссылку на сайте и запустите программу.

Конкретизировать страницы при сборе фотографий не надо. Парсер пропустит разделы, в которых нет иллюстраций.

Если собранные фотографии нужно идентифицировать по артикулу или названию, добавьте еще один XPath-запрос. Специалисты часто собирают связку: наименование товара под метатегом Н1, артикул, иллюстрация.

Как парсить описание товаров?

Перед покупкой покупатели читают информацию о продукте. Чем больше характеристик указывает продавец, тем выше шанс, что клиент оформит заказ.

Собирать данные вручную долго и сложно. Автоматизировать процесс и свести данные в Excel-таблицу также помогает парсер.

Последовательность действий та же:

  • Нажмите правой кнопкой мыши на название характеристики, которую хотите выделить. Например, «количество режимов работы» у робота-пылесоса.
  • Выберите «Посмотреть код объекта» и найдите строку с HTML-кодом.
Парсинг описания товара

В данном случае описание находится под тегом <span>. Технические характеристики и описания к ним указаны внутри элемента <span>.

  • Для парсинга нужны элементы <span> с идентификатором «количество режимов работы». XPath-запрос выглядит так: //*[@class="количество режимов работы"]
  • Откройте парсер Screaming Frog и введите параметр поиска: Configuration → Custom → Extraction → Extract Text.
  • Переключитесь в режим List. Он находится во вкладке Mode.
  • Выберите Upload, укажите ссылку на страницу и начните парсинг.
  • По окончании поиска перейдите в раздел Custom → Extraction.

Программа соберет все параметры, указанные под тегом <span>. Например, в количестве режимов отразится характеристика «2».

Заключение

Парсинг — это удобный способ получения информации для развития бизнеса. Он автоматизирует и ускоряет сбор данных, снимает часть нагрузки со специалиста и минимизирует ошибки.

Высоких вам конверсий!

blog comments powered by Disqus
Возвращайте до 18% с пополнений рекламы
  • Все популярные рекламные сети в одном окне
  • Рекламные инструменты — бесплатно
  • Доступ к конструктору лендингов и WebApp-приложений
  • Закрывающие документы точно в срок
ring svg
copyright © 2011–2024 Все права защищены
Запрещено любое копирование материалов ресурса без письменного согласия владельца — ООО "Центр рекламных бюджетов". ИНН:5902052888, КПП:590201001, ОГРН: 1195958009730, Пермь, ул. Окулова, д. 75 к. 8 офис 501Б

ООО «Центр рекламных бюджетов» — IT-компания с многолетним опытом работы, разрабатывающая инновационные решения для управления процессом лидогенерации (пост-клик маркетинг). Разработанное нами технологическое программное решение LPGENERATOR позволяет создавать целевые страницы в визуальном редакторе и управлять заявками (лидами) в CRM-системе в целях проведения эффективных, высококонверсионных рекламных кампаний