(доработка существующего парсера) Парсер авито и циан в google sheets
Нужно сделать несколько доработок к существующему и работающему проекту: 0. Доработать периодически отваливающихся ботов парсинга авито и циан 1. Парсинг в реальном времени 2. Оповещение телеграмм 3. Некоторые корректировки по вычисляемым полям внутри базы Также будут другие доработки в будущем за отдельную плату. Скриншот итоговый таблички, все исходники прилагаются. ---------------------- Вот что написал предыдущий разработчик ---------- Ищу человека на поддержку и доработку парсера. Стэк, используемый в проекте - PHP 7.2 - весь бэк на нем; Composer - потребуется установить один пакет (comoser.json в проекте); MYSQL - ничего сложного: транзакции, выборка данных, джойны. SSH - базовые знания на уровне найти нужную папку и найти файл. + Работа с composer само собой. Еще используем Google Sheet API для выгрузки данных в таблицу. В остальном это чистый PHP без использования фреймворков. Пару слов о проекте, с чем придется работать: используем мобильное API для разбора json`ов (парсить DOM не придется). Все данные складываются в базу, обрабатываются (рассчитываются нужные поля), а после выгружаются по API в Google Sheets. Так же используем прокси - просто следить за тем, что бы ничего не отвалилось (см. дальше). Что бы сразу найти причину произошедшего - в проекте ведутся логи (если например отвалились прокси вы увидите сразу что вылезла капча и достигнуто макс. кол-во попыток). В остальном - вы можете посмотреть проект в прикрепленном файле к этому заданию (нет папки config - там распологаются все чувствительные данные - будет предоставлена исполнителю). Для скорейшего старта работы готовы так же предоставить объяснения о не понятных моментах, как и что работает. ---------- Текущая проблематика, через каждые несколько дней отваливается парсинг авито или циан. Замена прокси лишь даёт время (около 2 недель). Поэтому за это время вам необходимо найти исполнителя и поставить перед ним 2 задачи: 1. по каким критериям отсекаются боты 2. как подделать эти критерии, что бы площадки не думали что это бот. Одни из гипотез которые необходимо протестировать (можно все и сразу) - передавать реферер (сейчас он пустой) - слать запросы на рекламу/релевантные объявления - слать всю теллеметрию *циан ее почти не собирает (но не авито) - выкачивать DOM страницы + все скрипты оттуда и css файлы (просто гет запросы, сохранять ничего не нужно) п с. остальные пункты можно на свое усмотрение. но это лишь первое что приходит в голову. исходя из не малого срока почти убежден что накапливается много данных и нейронка выпиливает нас если эти данные не соответствуют реальному юзеру. и один из главных критериев - тайминги на мой взгляд - слишком часто плохо как и слишком долго (но уже лучше) - нужно найти середину - минимальный и максимальный порог который соответсвует реальному юзеру. Как искать что передавать - открываем инспектор в хроме и смотрим что передается площадке (домены и поддомены например циан) все что туда передается - нам и нужно эмулировать. п.с.с абзац выше можно проигнорировать если найти человека с опытом написания парсеров и который сталкивался с такой задачей. Можно конечно постоянно менять каждые 2 недели прокси - но если забить на эту проблему - дальше она превратится только в снежный ком - поэтому лучше ее решить и уже затем - двигаться дальше | |
Обязательные требования | |
Стэк, используемый в проекте - PHP 7.2 - весь бэк на нем; Composer - потребуется установить один пакет (comoser.json в проекте); MYSQL - ничего сложного: транзакции, выборка данных, джойны. SSH - базовые знания на уровне найти нужную папку и найти файл. + Работа с composer само собой |