Показаны сообщения с ярлыком market. Показать все сообщения
Показаны сообщения с ярлыком market. Показать все сообщения

четверг, 16 ноября 2017 г.

Парсим известную маркет-площадку. Лениво и из командной строки Windows

Захотелось тут автоматизировать одну задачу. Вот у нас есть название какой-нибудь штуки, скажем, TP-LINK TL-SF1005D. А нам нужно: несколько изображений, технические характеристики и самую низкую цену в регионе. И, конечно, не руками всё это искать и сохранять. А ещё хорошо бы из одного источника – по одному шаблону.

Источников сегодня полно, так что второй вопрос сразу решаем – берём одну из самых известных маркет-площадок и, по совместительству, базу данных товаров. Ну, сами понимаете, какую.
Хорошо, а как не делать ничего руками? Самое адекватное решение это, конечно, API.
Только вот цены за API у нашего "маркета" как раз неадекватные. И только для юр. лиц.
При этом информация доступна – бери не хочу. Даже особого программирования не нужно.

Веселья ради и опыта для сделаем парсинг на чистом cmd. Ну, почти.

Поскольку у нас есть только название, прежде всего нам нужна ссылка на страницу товара. Смотрим сайт и видим, что получить её можно, отправив поисковый запрос, типа такого:

wget "http://market.some/search?redirect=2&suggest=test123"

Сразу натыкаемся на несколько проблем.