123ru.net
Работа
Декабрь
2020

(доработка существующего парсера) Парсер авито и циан в google sheets

0
Нужно сделать несколько доработок к существующему и работающему проекту:
0. Доработать периодически отваливающихся ботов парсинга авито и циан
1. Парсинг в реальном времени
2. Оповещение телеграмм
3. Некоторые корректировки по вычисляемым полям внутри базы
Также будут другие доработки в будущем за отдельную плату.

Скриншот итоговый таблички, все исходники прилагаются.

----------------------
Вот что написал предыдущий разработчик
----------
Ищу человека на поддержку и доработку парсера.

Стэк, используемый в проекте -
PHP 7.2 - весь бэк на нем;
Composer - потребуется установить один пакет (comoser.json в проекте);
MYSQL - ничего сложного: транзакции, выборка данных, джойны.
SSH - базовые знания на уровне найти нужную папку и найти файл. + Работа с composer само собой.

Еще используем Google Sheet API для выгрузки данных в таблицу.

В остальном это чистый PHP без использования фреймворков.

Пару слов о проекте, с чем придется работать: используем мобильное API для разбора json`ов (парсить DOM не придется). Все данные складываются в базу, обрабатываются (рассчитываются нужные поля), а после выгружаются по API в Google Sheets. Так же используем прокси - просто следить за тем, что бы ничего не отвалилось (см. дальше). Что бы сразу найти причину произошедшего - в проекте ведутся логи (если например отвалились прокси вы увидите сразу что вылезла капча и достигнуто макс. кол-во попыток).

В остальном - вы можете посмотреть проект в прикрепленном файле к этому заданию (нет папки config - там распологаются все чувствительные данные - будет предоставлена исполнителю). Для скорейшего старта работы готовы так же предоставить объяснения о не понятных моментах, как и что работает.
----------
Текущая проблематика, через каждые несколько дней отваливается парсинг авито или циан. Замена прокси лишь даёт время (около 2 недель). Поэтому за это время вам необходимо найти исполнителя и поставить перед ним 2 задачи:
1. по каким критериям отсекаются боты
2. как подделать эти критерии, что бы площадки не думали что это бот.

Одни из гипотез которые необходимо протестировать (можно все и сразу)
- передавать реферер (сейчас он пустой)
- слать запросы на рекламу/релевантные объявления
- слать всю теллеметрию *циан ее почти не собирает (но не авито)
- выкачивать DOM страницы + все скрипты оттуда и css файлы (просто гет запросы, сохранять ничего не нужно)

п с. остальные пункты можно на свое усмотрение. но это лишь первое что приходит в голову. исходя из не малого срока почти убежден что накапливается много данных и нейронка выпиливает нас если эти данные не соответствуют реальному юзеру. и один из главных критериев - тайминги на мой взгляд - слишком часто плохо как и слишком долго (но уже лучше) - нужно найти середину - минимальный и максимальный порог который соответсвует реальному юзеру. Как искать что передавать - открываем инспектор в хроме и смотрим что передается площадке (домены и поддомены например циан) все что туда передается - нам и нужно эмулировать.

п.с.с абзац выше можно проигнорировать если найти человека с опытом написания парсеров и который сталкивался с такой задачей. Можно конечно постоянно менять каждые 2 недели прокси - но если забить на эту проблему - дальше она превратится только в снежный ком - поэтому лучше ее решить и уже затем - двигаться дальше


Обязательные требования
Стэк, используемый в проекте -
PHP 7.2 - весь бэк на нем;
Composer - потребуется установить один пакет (comoser.json в проекте);
MYSQL - ничего сложного: транзакции, выборка данных, джойны.
SSH - базовые знания на уровне найти нужную папку и найти файл. + Работа с composer само собой






Загрузка...


Губернаторы России
Москва

Собянин заявил, что за пожарной безопасностью смоленских лесов будут следить с воздуха


Спорт в России и мире
Москва

РМОУ презентовал издательский проект «Притяжение Сочи» на форуме «Мы вместе. Спорт»


Загрузка...

Все новости спорта сегодня


Новости тенниса
Андрей Рублёв

Теннисист Рублев разбил ракетку после поражения на турнире в Барселоне


Загрузка...


123ru.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.


Загрузка...

Загрузка...

Экология в России и мире
Москва

Эксперт Президентской академии в Санкт-Петербурге о сохранении экологии Севастополя





Путин в России и мире
Москва

Эксперт Президентской академии в Санкт-Петербурге о догазификации СНТ  


Лукашенко в Беларуси и мире
Минск

Лукашенко сравнил Всебелорусское народное собрание с «пустотой»




123ru.netмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Ru24.net — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

123ru.net — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.





Зеленский в Украине и мире
Киев

Владимир Зеленский подтвердил ракетный удар по аэродрому в Джанкое


Навальный в России и мире


Здоровье в России и мире


Частные объявления в Вашем городе, в Вашем регионе и в России






Загрузка...

Загрузка...



Татьяна Рязапова

Если ты не поступил в колледж или вуз



Москва

Синоптик Позднякова: апрельская погода ожидается в первые майские праздники

Друзья 123ru.net


Информационные партнёры 123ru.net



Спонсоры 123ru.net