Сообщения без ответов | Активные темы Текущее время: 15 июл 2020, 00:27



Ответить на тему  [ Сообщений: 186 ]  Страница 1, 2, 3, 4, 5 ... 19  »
Парсер avito.ru и OLX.ua 
Автор Сообщение
Администратор
Аватара пользователя

Зарегистрирован: 20 сен 2010, 21:15
Сообщения: 1317
Аватара пользователя

Коллеги, приглашаю принять участие в тестировании сервиса по скачиванию объявлений с авито.ру. Предлагаю протестировать не модуль для скрипта, а именно сервис, здесь на illusionweb.org. Хотя модуль для скрипта тоже понадобится, и не только.


Цитата:
Скучные подробности

При постановке задачи на разработку парсера авито предстояло решить три задачи
  • избегать бана по ip или сигнатурам клиента, не компрометировать сайт получателя контента
  • по возможности оперативно менять алгоритмы парсинга на случай смены дизайна страниц авито
  • не позволять клиентам бездумно скачивать весь авито, не перегружать БД :)

В результате появилась идея реализовать парсер в котором будут задействованы
  • единый сервер, который отдаёт команды и парсит контент
  • сайт с доской объявлений на базе Elite-Board, который принимает распарсенный контент
  • ...компьютер пользователя, который принимает команды с сервера и, маскируясь под браузер, скачивает контент с авито

Таким образом, решаются две первых задачи: мы не компрометируем сайт, не попадаем под бан, а как будто просто смотрим страницы сайта с ip местного провайдера. Использование единого командного сервера позволяет оперативно менять алгоритм парсинга. Также он позволяет решить последнюю задачу - избежать злоупотребления сервисом. И это плохая новость - использование сервиса будет платным. Лимиты и тарифы будут уточняться позже, а пока приглашаю протестировать сервис по этой ссылке.

http://www.illusionweb.org/parser.html

Для тестирования Вам потребуется сайт на Elite-Board и ваш компьютер. На сайт нужно будет загрузить небольшой модуль, а на компьютере запустить программу для Windows. Программа, имитируя действия пользователя в браузере, работает долго и с рандомными таймаутами. Но она может свернуться в трей и никак не мешать текущей работе.
Скорей всего программа не понравится вашему фаерволу т.к. потребует доступ в сеть. И нет, там нет вирусов.

Для начала работы нужно загрузить модуль на сайт, а затем добавить стартовую ссылку - ту ссылку, с которой парсер начнёт поиск объявлений на авито.
Например, продажа автомобилей в Санкт-Петербурге:
Код:
https://www.avito.ru/sankt-peterburg/avtomobili

Или вакансии бухгалтера в Москве:
Код:
https://www.avito.ru/moskva/vakansii?q=%D0%B1%D1%83%D1%85%D0%B3%D0%B0%D0%BB%D1%82%D0%B5%D1%80

Может быть сложный запрос с множеством параметров:
Код:
https://www.avito.ru/moskva/vakansii/buhgalteriya_finansy/svobodnyy_grafik/bolee_1_goda?pmin=20000&q=%D0%B1%D1%83%D1%85%D0%B3%D0%B0%D0%BB%D1%82%D0%B5%D1%80


При добавлении ссылки нужно будет указать регион и категорию в которые мы будем загружать объявления с этой стартовой ссылки, а также соотнести дополнительные поля. В настоящий момент парсер распознаёт и соотносит с вашим сайтом поля:
  • цена
  • телефон
  • адрес
Если сервис будет пользоваться популярностью, расширим список полей
Картинки скачиваются, но в количестве не большем, чем возможно на вашем сайте.

Далее запускаем клиент для Windows, жмём Старт и занимаемся своими делами. Вас сайт будет постепенно пополняться новыми объявлениями.

Перейдя по ссылке прямо сейчас в рамках тестирования сервиса вы можете скачать 1000 объявлений. Это примерно 4 часа работы клиента.

Если Вы ничего не поняли или лень разбираться, просто пройдите по ссылке
http://www.illusionweb.org/parser.html
Я постарался максимально упростить интерфейс.

Жду ваших отзывов и предложений в этой теме.

Обновление от 31.03.2016
Парсер теперь работает с популярным в Украине сайтом OLX.ua. Вместо стартовой ссылки на поиск Авито можно указать ссылку на страницу с объявлениями olx.
Например такую:
Код:
http://olx.ua/rabota/it-telekom-kompyutery/kiev/

Далее процесс парсинга происходит как обычно.
Водяной знак OLX пока остаётся.

_________________
support@illusionweb.org


22 сен 2015, 22:04
Профиль
Администратор

Зарегистрирован: 07 окт 2012, 11:18
Сообщения: 502

Очень интересно! Устанавливаю, настраиваю и начинаю тестить немедля.)
Большое спасибо!

_________________





23 сен 2015, 00:40
Профиль WWW
Администратор

Зарегистрирован: 07 окт 2012, 11:18
Сообщения: 502

Устанавливается и настраивается очень просто, панель интуитивно понятна с первого взгляда, парсит быстро.
Парсит четко, без выставленных и с выставленными параметрами на авито.ру.
Результат:
Внешняя страница спарсенных объявлений http://toros.coredo.ru/Russia/Moscow/Avtotransport/, определить объявления можно по наличию соответствующего ватермарк.
Внутренняя страница спарсенного объявления http://toros.coredo.ru/messages/43-BMW- ... -2008.html, а вот адрес внутренней страницы объявления у кого парсили
Код:
https://www.avito.ru/moskva/avtomobili/bmw_6_seriya_2008_646188914


Имя автора, описание объявления, категория, регион, срок публикации, телефон, фото(5 штук парсит точно), адрес и цена, всё чётко. Супер!

Предложения:
1. Фотографии с ватермарк авито.ру. Было б чудесно если бы парсер умел отклеивать чужой ватермарк.
2. Само собой нужны доп.поля. Например для категории Авто: год выпуска, пробег, привод, лошадки - это универсальные поля для данной категории, используются на всех авто досках. Тематических досок у нас на элит-борде много, авто, недвижимость, животные, здоровье, строительство, электроника и тд и тд. Доп. поля - это один из ключевых элементов любой доски. Очень не хочется кого-то обделить, но и удовлетворить абсолютно всех, полагаю, невозможно. Ребята, нужны ваши мысли.
3. Вроде у них тоже карта.яндекс, по возможности, спарсить метку.
4. Дата объявления = дата парсинга, либо дата объявления = дата спарсенного объявления.

_________________





23 сен 2015, 03:36
Профиль WWW
Администратор
Аватара пользователя

Зарегистрирован: 20 сен 2010, 21:15
Сообщения: 1317
Аватара пользователя

Насчёт отклеивания ватермарок ничего не обещаю :)
Разобрать доп. поля можно, это муторная работа, но не сложная. Я просто пока не представляю как соотносить их с полями на доске-реципиенте.
Метку на карте спарсим без проблем.
Дату объявлений поправил.

_________________
support@illusionweb.org


24 сен 2015, 17:51
Профиль
Администратор

Зарегистрирован: 07 окт 2012, 11:18
Сообщения: 502

Поля. Может начать постепенно, сначала одну тематику освоить, затем другую. Принцип основных полей на обеих досках одинаков, селекты и чекбоксы. Например для категории "авто", марка- селект, модель - селект, год выпуска - селект, тип двигателя - чекбокс, кпп - чекбокс, привод - чекбокс. Навряд ли кто-то из наших ребят будет создавать эти поля текстовыми,) При парсинге будем подставлять соответствующее поле, из своих селектов или чекбоксов. Примерно так, может где ошибаюсь.

Предложение
5. Поле Адрес. На авито поле адрес состоит из 2-х отдельных частей: Город и ст.метро или район, объединенных в одну строку. Когда парсим объявление, в настройках выставляем Регион в который оно будет помещено.
На выходе получается:
регион объявления: Россия/Москва
Адрес: Москва, м. Улица 1905 года
Ссылка примера http://toros.coredo.ru/messages/49-BMW- ... -1991.html
Т.е. фактически город задваивается, в поле регион и в поле адрес. Если возможно, в поле адрес убрать город, оставить только метро/район.
Тогда будет:
регион объявления: Россия/Москва
Адрес: м. Улица 1905 года
6. Спарсить урл видео с ютуб. Мы тоже любим видео.)


_________________





25 сен 2015, 01:33
Профиль WWW

Зарегистрирован: 28 окт 2014, 23:40
Сообщения: 13
Откуда: Гагаузия

Здравствуйте. Мне бы хотелось знать, данный парсер реально и сложно-ли подогнать под другой сайт-донор? Вместо Авито - 999.md

_________________
Доска объявлений Гагаузии


25 сен 2015, 19:20
Профиль WWW
Администратор
Аватара пользователя

Зарегистрирован: 20 сен 2010, 21:15
Сообщения: 1317
Аватара пользователя

Обнаружилась фатальная ошибка! Парсер назначалал для всех объявлений один и тот же телефонный номер какого-то риеэлторского агенства :)
Сейчас исправил ошибку и восстановил лимиты для всех, кто участвовал в тестировании.
Чтобы перезакачать объявления с теми же параметрами в настройках стартовой ссылки можно снять галочку "Остановить парсинг" и "Текущую страницу" установить в 0.

_________________
support@illusionweb.org


26 сен 2015, 09:22
Профиль

Зарегистрирован: 31 дек 2014, 18:51
Сообщения: 88

а как реагируют поисковики на копирование объявлений?


27 сен 2015, 19:49
Профиль

Зарегистрирован: 17 май 2015, 15:35
Сообщения: 100

Отличная новость! Долго ждал подобного сервиса, сам пытался освоить программу парсер, чтобы наполнить сайт контентом объявлений, но программой муторно,долго, требует особых знаний и навыков для работы с программой, а у вас без проблемм сделал все по инструкции EB, скачал архив с модулем и с копировал на сайт, скопировал архив с сервером и положил себе на ПК и т.д по инструкции, сейчас всё запущено, идёт парсинг 73 объявлений, пока писал сюда сообщение, парсер скачал все(почти все 72 объявления) всё закачалось чётко, сразу встало на место,куда указывал, в нужную рубрику,в нужную категорию! Спасибо разработчику, нужная вещь, планирую наполнить с помощью данного сервиса, свой сайт контентом объявлений.Единственное НО это как и писалось выше в данной теме- это ватермарк "а@вито", сверху накладывается мой ватермарк и фотография в объявлении выглядит вся ушлепанная ватермарками- теперь думаю, как сделать данный вопрос менее заметным что ли, наверное надо на момент парсинга отключать размещение своего ватермарка или ставить свой ватермарк в другой угол в отличии от а@витовского, не знаю вопрос остается действительно открытым.Но самое главное мой "молчаливый" сайт сдвинулся с места, в нем уже живут 72 объявления, ещё раз спасибо разработчику.Один только вопрос, как теперь удалить тот парсинг, который не понравился или не так пошел- как удалить последние добавленные объявления?


Последний раз редактировалось Евгений 29 сен 2015, 12:24, всего редактировалось 2 раз(а).



28 сен 2015, 16:48
Профиль

Зарегистрирован: 17 май 2015, 15:35
Сообщения: 100

У меня появилась идея насчет, как спрятать а@витовский ватермарк, надо свой ватермарк ставить в тот же угол,только фон должен быть не прозрачным, а в виде прямоугольника -любого цвета, свой ватермарк просто заклеит а@витовский ватермарк!


Последний раз редактировалось Евгений 29 сен 2015, 12:25, всего редактировалось 1 раз.



28 сен 2015, 16:58
Профиль
Показать сообщения за:  Поле сортировки  
Ответить на тему   [ Сообщений: 186 ] 
Страница 1, 2, 3, 4, 5 ... 19  »

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
cron