Содержание
Поиск объявления по карте Авито
QQROOZA
ЕКАТЕРИНА ОСИНОВСКАЯ
Содержание
- Введение
- Как пользоваться картой на площадке Авито
- Другие статьи
- Кто вы вообще такие?
Введение
Меня зовут Екатерина Осиновская, я руководитель отдела клиентского сервиса компании QQROOZA.
Представляю вам свой цикл статей, который поможет вам детально разобраться с интерфейсом площадки Авито.
Эта статья расскажет вам как искать объявления по карте Авито.
Приятного чтения!
Как пользоваться картой на площадке Авито
Искать объявления по карте очень удобно. Так вы можете найти работу, квартиру или найти нужные услуги в определенном районе. Только объявления в категориях «услуги», «вакансии» и «недвижимость» можно смотреть на карте.
Для поиска по карте введите нужные вам параметры: тип категории; название объявления, по которому будет совершен поиск; город или регион. Также вы можете указать метро или район. После того как вы ввели нужные вам параметры, нажмите на кнопку «Найти».
Чуть ниже поиска появится карта. Нажмите на «Показать объявления на карте».
На новой карте появятся все объявления. Вы можете выбрать нужный вам район, приблизив карту колесиком мышки или же нажать на плюсик с правой стороны. Также вы можете перемещаться по карте, зажав левую кнопку мыши и двигая стрелкой мыши в нужном для вас направлении.
Для выбора нужного объявления нажмите на него. Его значок на карте станет красным, а с левой стороны появится краткое описание объявления: название объявления; фото; цена; месторасположение.
Чтобы ознакомиться с объявлением подробнее, нажмите на название объявления. Вам откроется новая страница, на которой вы сможете прочитать полную информацию.
Остальные статьи из цикла об интерфейсе площадки:
Цикл статей о продвижении на Авито:
Несколько наших кейсов:
Агентство QQROOZA
Агентство QQROOZA – эффективная команда молодых и креативных профессионалов, которая обеспечит вам комфортное взаимодействие и высокий, а главное полностью прозрачный результат от вложенного вами рекламного бюджета. Наша задача — сделать так, чтобы каждый вложенный вами рубль приносил вам прибыль.
В наши услуги входит:
· Проведение аудита и конкурентного анализа вашего бизнеса на Авито
· Создание и правильное оформление магазина на Авито
· Составление продающих текстов
· Создание качественных уникальных объявлений
· Подбор и редактирование фотографий для объявлений
· Своевременный ежедневный постинг ваших объявлений
· Корректировка рейтинга вашего магазина
· Переговоры и решение конфликтных ситуаций с поддержкой площадки
· Гарантия на случай блокировки
· Помощь в интеграции Авито с вашей CRM системой
· Еженедельный отчет по 22 показателям вашей рекламной кампании
· Ежедневный краткий отчет за прошедший день продвижения
Оставьте заявку прямо сейчас
и получите бесплатный аудит и конкурентный анализ вашей ниши на Авито
Telegram-боты для пробива и поиска информации
Содержание
- 1 Как работают Telegram-боты для пробива
- 2 Telegram-боты для пробива и поиска информации
- 2. 1 Get Contact
- 2.2 «Глаз Бога»
- 2.3 AVinfo
- 2.4 SmartSearchBot
- 2.5 Quick_OSINT_bot
- 2.6 Himera
- 2.7 TeleSINT
- 2.8 «Архангел»
- 2.9 GetFB
- 2.10 Mailsearchbot
- 3 Заключение
В предыдущей статье, посвященной сыску, мы рассказывали о лучших сервисах для поиска человека по фото. Сегодня продолжим тему и рассмотрим популярные боты Telegram для пробива и поиска персональной информации.
Еще по теме: Угон Телеграм и как от этого защититься
Недавние разоблачительные публикации известного оппозиционера Алексея Навального всколыхнули волну небывалого интереса общественности к теневому бизнесу, связанному с услугами пробива. То, что почти любые данные у нас продаются и покупаются, — не секрет, но, говорят, кое‑что можно разузнать и вовсе бесплатно у ботов в «Телеграме».
Как работают Telegram-боты для пробива
Большинство ботов Telegram, выполняющих по запросу пользователя поиск и выдачу персональных данных, работают по схеме OSINT, то есть опираются на открытые источники, для чего эксплуатируют API различных служб и интернет‑ресурсов.
Другие используют слитые базы данных, но такие сервисы, во‑первых, не всегда функционируют стабильно, а во‑вторых, испытывают проблемы с актуализацией информации: любая утекшая в паблик база со временем устаревает и, разумеется, не обновляется.
Незаконный сбор персональной информации — это нарушение закона «О персональных данных» и других законов РФ. Также подобные действия могут образовать состав преступления по статье 137 УК РФ «Нарушение неприкосновенности частной жизни». Ни автор, ни редакция не несут ответственности за любые последствия использования приведенных в этой публикации сведений, которые представлены здесь исключительно ради информирования читателя.
Монетизируются подобные боты либо за счет донатов, либо за счет рекламы, или же админы ограничивают количество бесплатных запросов, после чего бот начинает просить денег за каждую следующую выдачу. Иногда — если админы ну очень жадные — используются все методы сразу.
Люди ищут персональную информацию по разным причинам. Кто‑то пытается таким образом отыскать своих отравителей должников или симпатичную соседку по подъезду с большими и красивыми си… ними глазами. Кто‑то разыскивает прямые контакты блогеров или владельцев пабликов либо пытается из чистого любопытства посмотреть посты в закрытых профилях соцсетей своей бывшей.
Еще можно по номеру машины отыскать мобильный телефон подрезавшего вас на дороге водятла, позвонить ему, назвать по имени‑отчеству и вежливо попросить объяснений. Некоторые «гонщики» в такие моменты почему‑то немного смущаются. В общем, причины могут быть разными, а средство одно: условно‑бесплатные Telegram-боты или услуги пробива, до сих пор широко рекламируемые в даркнете.
Далее мы рассмотрим боты для поиска информации о человеке, если вас интересует пробив самого пользователя Телеграм, тогда прочитайте статью «Как узнать информацию о пользователе Telegram».
Telegram-боты для пробива и поиска информации
Очевидно, что не все боты одинаково полезны. Некоторые просят денег, но в ответ либо не находят актуальную информацию, либо отдают откровенную туфту. Другие вроде бы работают, но настолько странно, что достоверность предлагаемых ботом данных остается сомнительной.
Чтобы вы не тратили драгоценное время и деньги на поиск жемчужин в куче органических удобрений, ваш любимый сайт spy-soft.net протестировал наиболее популярные боты Telegram для пробива и прямо сейчас поделится с вами полученными результатами. Погнали!
Get Contact
- https://t.me/get_kontakt_bot
Тот самый легендарный бот, сыгравший немаловажную роль в нашумевшем расследовании. Бот показывает, как именно записан номер мобильного телефона в адресной книге других абонентов. Информацию железяка черпает с мобильных устройств абонентов, установивших приложение Get Contact, поэтому, если на телефонах ваших друзей эта программа не установлена, никаких данных вы не получите. В день бот позволяет отправить не больше трех телефонных номеров.
В моем случае на все без исключения запросы бот выдавал один и тот же ответ:
Result: <wbr />Nothing <wbr />found |
При этом поиск по имени бота в «Телеграме» выдает пару десятков результатов, отличающихся друг от друга одной или парой букв (get_kontact_bott, get_kontakts_bot и так далее) — видимо, на волне возросшей популярности проекта число желающих поиметь с этого профит тоже резко увеличилось.
Некоторые службы, вроде @Getcontact_official_bot, с ходу требуют заплатить 200 рублей за подключение к сервису. Притом ни один из этих ботов, в общем‑то, не работает.
Не знаю, с чем именно связано это досадное явление — с нарушением в логике сервиса или с внезапным наплывом клиентов, но пользоваться сейчас Telegram-ботом Get Contact — бесполезная трата времени.
«Глаз Бога»
- https://t. me/EyeGodsBot
Еще один популярный бот, упоминавшийся в ряде недавних журналистских публикаций. Бот обладает довольно‑таки обширным набором функций: поиск по имени в простом текстовом формате, по номеру автомобиля, по номеру телефона, по адресу электронной почты, по названию юридического лица или ИНН.
Telegram-бот «Глаз Бога»
Для отправки команд бот требует подписаться на собственный канал, но даже это не гарантирует результата. По телефону «Глаз Бога» выдает название оператора и его регион (видимо, для тех, кто не умеет определять эти данные на глаз), возможное имя (я ввел несколько телефонных номеров — имена совпали).
Еще он может найти почтовые адреса (вероятнее всего, по базе администраторов доменов), страницу «ВКонтакте», аккаунт «Телеграм», WhatsApp, число интересовавшихся персонажем до вас. Но эту информацию бот предоставит за 30 рублей.
То же самое касается поиска по номеру автомобиля: бесплатно бот показывает только регион (который можно определить и так), а за тридцатку предлагает скачать отчет «Автокода». При этом данные об автомобиле по его номеру при желании нетрудно отыскать в этих ваших интернетах бесплатно.
Если вы введете адрес электронной почты, бот любезно покажет вам логин (то, что до символа
@) и домен (то, что после
@) — это особо ценная информация! Также вам предложат купить адрес привязанной к этому мылу странички «ВКонтакте» и связанные с email пароли из какой‑то слитой базы. По имени бот ищет только номер телефона в заданном регионе, находит неправильный и для его просмотра предлагает купить подписку.
В общем и целом, польза от этого бота показалась мне весьма сомнительной: инфу, которую «Глаз Бога» отдает бесплатно, можно при желании нагуглить и без него, а платная информация скудна и не всегда достоверна.
AVinfo
- https://t.me/AVinfoBot
Бот для проверки данных об истории автомобиля по госномеру, VIN, номеру ПТС, ФИО или телефону владельца, что теоретически позволяет выявить «перекупов». С его помощью нетрудно установить собственника транспортного средства, подпершего ваше ведро на стоянке у супермаркета. Возможности у бота довольно широкие, а цена относительно невысокая: один отчет стоит 150 рублей, но можно купить подписку.
Telegram-бот AVinfo
По номеру телефона можно найти профиль «ВКонтакте» и опубликованные объявления о продаже машин, что теоретически позволяет вычислить перекупщиков. А по госномеру транспортного средства или VIN бот формирует и предлагает купить отчет. В него входят полные сведения об автомобиле, его собственниках, пробеге, всех ранее использованных госномерах, данные об ограничениях, розыске, наличии страховки и ДТП, о работе в такси, о судебных решениях в отношении машины и имеющихся штрафах.
В целом информация крайне полезная, если вы собираетесь прикупить себе тачло, чтобы с ветерком катать подругу по улицам ночной Москвы, и при этом желаете узнать, не собрана ли эта ласточка из двух битых ведер где‑нибудь в Дагестане. Но для простого поиска сведений о собственнике авто этот объем данных явно излишний.
Если зайти на канал бота, но не заказывать у него платных услуг, через некоторое время он предложит получить один тестовый отчет на халяву. Я выбрал отчет по номеру телефона, в котором бот обнаружил… только зарегистрированную на этот номер левую страничку «ВКонтакте».
Объявлений на «Авито» и «Юле» он не нашел (вероятно, потому, что мои аккаунты привязаны к анонимным симкам), автомобиль — не найден (он зарегистрирован на другого человека, лол), в базе недвижимости также пусто. В общем, данные по госномеру машины AVinfo, может, и способен собрать, а вот с пробивом номеров мобильников дела у него явно обстоят неважно.
SmartSearchBot
- https://t.me/smart_searchbot
Довольно интересный бот, позволяющий искать по номеру телефона (выдает имя пользователя, регион, город, email, страничку во «ВКонтактике», ник и ID в «Телеграме», если таковые есть), по email (возвращает телефон, имя, страницу «ВК» и город), по номеру транспортного средства, нику или имени в соцсетях, а также по фотографии — бот ищет похожие.
Бесплатно бот позволяет выполнить только два запроса, после чего просит оплатить подписку: суточная стоит в районе 67 рублей, что, в общем‑то, недорого. Я решил потратить на благое дело столь нескромную сумму и потестить бот — исключительно в научных целях.
По нескольким введенным мною автомобильным номерам бот не нашел вообще ничего. С номерами мобильника дела обстоят получше: информация находится, и вроде как даже более‑менее релевантная, но по нескольким указанным мною номерам бот выдал только регион оператора и имя юзера, видимо из чьей‑то записной книжки, — никаких дополнительных сведений обнаружить не удалось.
По фамилии, имени и отчеству бот выдает название организации, с которой может быть связано это лицо, неполный адрес (город, улица) и ИНН: видимо, поиск выполняется по базе юридических лиц и ИП. Часть результатов содержат только номер мобильного телефона.
Если фамилия распространенная, результатов может найтись много, поэтому придется уточнять запрос комбинацией ФИО и даты рождения или ФИО и города проживания. Тем не менее мои эксперименты с ботом показали, что базы он использует старые, как ископаемые экскременты динозавра: все найденные им мобильные номера из скормленного мною тестового пула ФИО давным‑давно протухли.
Довольно полные сведения бот выдает по email — тут и страничка в «ВК», и привязанный к ней номер мобильного, и полное имя, указанное в профиле пользователя. Любопытный результат можно получить по запросу «история ВК».
Даже если профиль юзера закрытый, SmartSearchBot выкачивает оттуда несколько фотографий и возвращает информацию за несколько минувших лет. Эта функция может оказаться полезной, если юзер удалил и почистил свой профиль «ВКонтакте» — по крайней мере, бот поможет узнать его дату рождения, место жительства и работы (если они были указаны).
Telegram-бот SmartSearchBot
Напоследок я решил потестить поиск по фотографии в соцсетях — бот позволяет выполнять до трех таких запросов в сутки. На паре загруженных мною фоток SmartSearchBot почему‑то обнаружил несколько лиц (клянусь, там было только одно!), а на других, где человек развернут в профиль, не нашел лица вообще.
Методом перебора мне все‑таки удалось скормить ему небольшой набор фотографий. И в целом бот со своей задачей справился — правда, для этого необходимо, чтобы лицо на фото было анфас, а искомый юзер сохранил в своем профиле «ВКонтакте» именно эту или крайне похожую фотографию.
В целом я бы оценил работу Telegram-бота SmartSearchBot на троечку с плюсом. Вроде как и ищет, и среди найденной информации даже попадается полезная, но больше половины результатов выдачи — откровенный шлак, который придется отсортировывать вручную.
Quick_OSINT_bot
- https://t.me/Quick_OSINT_bot
По своим возможностям бот в целом похож на SmartSearchBot — он способен искать по телефону, адресу электронной почты, госномеру или VIN автомобиля, номеру паспорта, СНИЛС или ИНН. Интересная особенность — поиск по паролю: бот ищет в слитых базах адрес email, которому может соответствовать заданный пароль.
Telegram-бот Quick_OSINT_bot
Тест показал, что номер мобильника по госномеру авто Quick_OSINT_bot находит неправильно, по телефонному номеру выдает в основном регион оператора и имя, под которым абонент записан в телефонных книгах, а также имя, которым он подписывается на досках бесплатных объявлений.
Весьма познавательные результаты получаются при поиске по адресу email: бот возвращает учетки с таким адресом в различных соцсетях, никнеймы, номер мобильного, имя и фамилию (не всегда корректно), а также связанные с этим мылом пароли из слитых баз.
Бот позволяет выполнить несколько бесплатных запросов в сутки, после чего начинает клянчить денег: 0,1 доллара за каждый отчет или предлагает оформить подписку.
Himera
- https://t.me/HimeraSearch_bot
Бот, по слухам, подключен к системе проверки контрагентов Unirate24, и он платный. Самый дешевый тариф с ограничением на количество поисковых запросов стоит 1199 рублей. Бот позволяет искать информацию по ФИО, номеру телефона, номеру автомобиля, адресу электронной почты, а также данным юридического лица. Найти он может сведения о прописке гражданина, записи о нарушении им закона, данные о родственниках.
По слухам, этот Telegram-бот неплохо справляется с поиском по Москве и области, а вот с регионами могут возникнуть проблемы: там находится не все и не всегда. Значительная часть инфы по юрлицам есть в свободном доступе. Но в целом бот может быть полезен для проверки контрагентов, потенциальных деловых партнеров или, скажем, при найме мутного кандидата на работу в золотохранилище вашего личного банка.
TeleSINT
- https://t.me/telesint_bot
Бесплатный бот, позволяющий найти по нику, в каких группах в «Телеге» состоит тот или иной пользователь. Теоретически эта информация может рассказать вам что‑то о моральном облике интересах и увлечениях интересующего вас персонажа.
Значительный недостаток этого бота заключается в том, что он показывает участие юзера только в открытых публичных группах, а вот закрытые паблики (то есть самое интересное!) остаются вне его поля зрения.
«Архангел»
- https://t.me/AngelProbiv_Bot
Бот, активно рекламировавшийся в сентябре 2020 года на хакерских форумах. По слухам, он подключен к информационно‑аналитической системе Solaris, используемой пробивщиками‑профессионалами. База позволяет искать данные по ФИО, серии и номеру паспорта, фамилии и году рождения, по ИНН, СНИЛС, по адресу, номеру телефона или автомобиля.
Стоимость одного запроса «Архангелу» до недавних пор составляла 250 рублей, но после известных событий бот отключили, и сейчас он выдает сообщение о «временных технических работах». Остается надеяться, что проблемы там действительно временные.
GetFB
- https://t.me/getfb_bot
Бот работает очень просто: по введенному номеру мобильного телефона в международном формате (+7XXXAAABBCC) GetFB находит зарегистрированную на этот телефон страничку в Facebook. Денег за свою работу бот не просит и работает отменно.
Mailsearchbot
- https://t.me/mailsearchbot
Бот ищет по слитым базам пароли, соответствующие адресам электронной почты, логинам или номеру телефона. Бесплатно бот показывает только часть обнаруженных паролей, а за полной версией отправляет на сторонний сайт, где посетителю с ходу предлагают оплатить подписку.
Заключение
Мои эксперименты показали, что боты для поиска персональных данных в целом могут быть полезны, но с небольшими оговорками:
- большинство из них — платные, и качество поиска информации там все равно среднее, выдачу придется верифицировать и перебирать вручную;
- есть пара бесплатных вариантов с ограничением на количество запросов, но в выдаче присутствует высокий процент шлака.
Даже несмотря на то, что большинство ботов использует одни и те же источники информации, для уточнения данных лучше применять сразу несколько инструментов — это повысит релевантность поиска и качество результатов. Тем не менее для серьезного расследования без услуг профессиональных пробивал все равно не обойтись: они имеют доступ к актуальным служебным базам различных государственных и коммерческих организаций, вернее, связь с сотрудниками, которые, в свою очередь, могут обращаться к этим базам.
Боты могут подсказать направление поиска и расширить набор исходных данных, но в качестве полноценного инструмента для пробива персональных данных они вряд ли сгодятся.
Еще по теме:
- Сколько стоит пробить человека
- Лучшие сайты для пробива человека
Российский веб-сайт Avito удвоил доходы
Миа Шэнли
3 Min Read
СТОКГОЛЬМ (Рейтер) — Шведский соучредитель крупнейшего в России сайта объявлений Avito ожидает более чем двукратного увеличения доходов в этом году, доказывая, что более мелкие игроки могут выдержать лидерство в отрасли, где доминируют такие тяжеловесы, как eBay и Craigslist.
Последний стартап Йонаса Нордландера, запущенный в 2007 году, входит в рейтинг Craigslist в США и китайский сайт 58. com с 40 миллионами уникальных посетителей в месяц, и его быстрый рост уже привлек интерес инвесторов.v
«Я думаю, что у них очень хорошие перспективы», — сказал Питер М. Золлман, аналитик Advanced Interactive Media Group.
«Я бы, конечно, сказал, что Avito создал хорошие возможности, но я бы не сказал, что их будущее уже гарантировано. Это очень, очень ранний рынок».
Доход Avito в 2012 году составил 30 миллионов долларов. Согласно отчету AIM, доход Craigslist, самого популярного в мире сайта объявлений, в прошлом году составил около 126 миллионов долларов.
Avito еще не приносит прибыли, и его охват далеко не так широк, как eBay, норвежский Schibsted или южноафриканский Naspers, каждый из которых владеет десятками онлайн-брендов по всему миру.
Но это может быть началом экспансии на новые рынки, такие как Иран, Бангладеш или Пакистан. Недавно он был запущен в Египте и Марокко.
В прошлом месяце Naspers выкупила около 20% акций фирмы и объединяет свои российские сайты с Avito.
Среди других инвесторов — шведские Kinnevik и Vostok Nafta, а также венчурные компании Accel и Northzone — одни из первых спонсоров Spotify.
Партнер Accel Сонали де Рикер отметила, что более 90% онлайн-роста в России приходится на регионы, где, по ее словам, все больше людей выходят в интернет в поисках товаров и услуг.
«Из-за отсутствия инфраструктуры для розничной торговли часто лучше всего подходит местная торговая площадка», — сказала она.
Сайт Avito служит местом встречи покупателей и продавцов всего, от недвижимости до домашних животных и рабочих мест, причем каждый пятый подержанный автомобиль, проданный в России, торгуется на сайте.
«Я был бы очень разочарован, если бы мы не увеличили выручку более чем вдвое по сравнению с прошлым годом», — сказал Нордландер, который в 2006 году продал шведский сайт объявлений eBay и пообещал держаться подальше от его территории в течение двух лет.
Быстрый рост за пределами Санкт-Петербурга и Москвы, новые поступления от малого и среднего бизнеса и продажи рекламы будут стимулировать рост в этом году.
Есть куда расти. Только 60 процентов 140-миллионного населения России имеют доступ к Интернету.
Нордландер, который вместе с соучредителем Филипом Энгельбертом владеет 15 процентами Avito, считает, что компания может быть кандидатом на поглощение, но пока к нему не обращались.
Листинг в Лондоне или Нью-Йорке может быть более вероятной альтернативой, хотя это еще только начало.
«Я думаю, что эта компания готовится к IPO, потому что оно будет слишком большим», — сказал он.
Репортаж Мии Шэнли; Под редакцией Алистера Скраттона и Дэвида Коуэлла
Kaggle и индустрия через призму конкурса Avito
Конкурс Avito заключался в прогнозировании незаконного содержания в тематических объявлениях. Это сводилось к классификации текста на русском языке. Мы предлагаем обзор того, что сработало для лучших участников, и некоторые мнения о том, чем соревнования Kaggle отличаются от реальности в отрасли.
Поскольку в этой статье несколько русских акцентов, давайте проясним, что мы бы предпочли, чтобы Россия жила в мире, а не воевала на Украине. Это трудная задача, но, может быть, со временем русские станут лучше руководить.
Учебный набор содержал примерно 1,3 миллиона записей, каждая из которых состояла из заголовка, описания, некоторых атрибутов ( пар ключ:значение ), назначения категории и подкатегории и нескольких числовых характеристик, включая цену.
Наше решение было довольно типичным для крупномасштабной классификации текста (и регрессии, если на то пошло): используйте пару скриптов Python для ввода и вывода данных, пусть Vowpal Wabbit сделает все остальное.
Метрика оценки: средняя точность , используется для ранжирования. Контрольный показатель лучших прогнозов Avito составлял 0,927, и мы надежно превзошли его, достигнув 0,971, что соответствует примерно 25-му процентилю в итоговой таблице лидеров. Победители получили 0,987. Показатель ROC AUC находился в аналогичном диапазоне. Обратите внимание, что это довольно высокие цифры.
Более широкий взгляд
Мы считаем, что при реальном внедрении машинного обучения существует компромисс между сложностью решения и его производительностью с точки зрения оценки. В случае с Avito, они, вероятно, захотят, чтобы лучшие прогнозы помечались для проверки модератором, возможно, автоматически деактивировались, если классификатор действительно уверен. Вероятно, это не имеет большого значения, если показатель равен 0,9.6 или 0,97 или 0,98 или 0,99. Если объявлений действительно много, возможно, будет дешевле нанять еще одного модератора, чем добиваться лучших результатов.
С другой стороны, для тяжеловесов рычаг настолько велик, что небольшие улучшения действительно имеют значение, как отмечено в этом докладе: Сивилла: Система для крупномасштабного машинного обучения в Google.
Дело в том, что есть точка убывающей отдачи. Соревнования Kaggle выигрываются путем тщательного улучшения оценки на крошечную долю, обычно за счет разработки функций, создания различных наборов функций и объединения моделей. Пройти этот путь в производстве было бы довольно сложно.
Одним из доказательств является знаменитый конкурс Netflix. Люди трудились в течение трех лет, чтобы получить целевой балл, и большую часть времени ушло на то, чтобы пройти последнюю милю. В конце концов это привело к значительному росту матричной факторизации и общих исследований в области машинного обучения, но Netflix не реализовал выигрышное решение:
чтобы оправдать инженерные усилия, необходимые для внедрения их в производственную среду.
Не все идет так гладко, как производство слизи в Северной Корее.
Что сработало на этот раз
Допустим, вы не работаете в отрасли, а просто хотите подняться на вершину таблицы лидеров. Как люди это делают, в частности? Обычно в конце участники размещают информацию о своем подходе, а иногда и свой код на форуме конкурса. Это фантастический способ учиться, особенно если вы сами принимали участие.
Несколько наборов функций
Кажется, что победители действительно далеко продвинулись в подготовке различных наборов функций и изучении различных моделей для каждого набора, наконец, объединив прогнозы, чтобы получить более высокий балл. Прислушайтесь к признаниям barisumog (1-е место с Джулио):
- извлеките необработанный текст из каждого сообщения, объединив разделы заголовка, описания и атрибутов (мы пробовали множество других функций, некоторые работали для Джулио, но не для меня. Я использовал только текстовые функции)
- для каждой категории и подкатегории, создайте 3 матрицы tf-idf: одну с необработанным текстом, одну с основами и одну со стоп-словами (по отдельности они дали похожие результаты, но я заметил, что они немного улучшили оценку и стали более стабильными, когда вместе)
- для каждой категории и подкатегории, обучить 2 набора SVC с разными параметрами C на каждом tf-idf (опять же, аналогичные результаты по отдельности, но немного лучше в сочетании)
- , так что теперь у меня есть 2 x 3 SVC для каждой категории и 2 x 3 SVC для каждой подкатегории (12 моделей для использования для каждой точки данных)
И Михаил Трофимов (2 место):
Наш подход очень похож на описанный Джулио. Мы используем разные фрагменты данных (заголовок, заголовок+описание, заголовок+описание+атрибуты, заголовок+атрибуты) и сделали 3 уровня детализации для каждого (топ-100 тыс. слов, все слова, все пары слов). Для всех этих наборов функций была обучена SVM, для некоторых — дополнительные модели LibFM. Только они дают 0,97 — 0,983.
TF-IDF
Частота термина — обратная частота документа — метод предварительной обработки текста. Его цель — придать больший вес редко встречающимся словам, особенно если они часто встречаются в данном документе:
Значение tf-idf увеличивается пропорционально количеству раз, которое слово встречается в документе, но компенсируется частотой слово в корпусе, что помогает контролировать тот факт, что одни слова вообще встречаются чаще, чем другие.
Его использование в этом соревновании было оплачено, но, к сожалению, Vowpal Wabbit не реализовал его. В Scikit-learn есть TfidfVectorizer.
Повторное обучение классификатора на его собственных предсказаниях
Победители использовали метод, который они называют «обучение с полуучителем», вероятно, из-за отсутствия лучшего определения. Идея состоит в том, чтобы обучить модель, получить прогнозы для тестового набора, затем использовать их в качестве меток и повторно обучить на обучающих и тестовых наборах. В результате классификатор становится более уверенным в своих прогнозах, поскольку в основном получает положительную обратную связь.
Эта техника уже использовалась на соревнованиях. Йошуа Бенжио сказал, что Он поддерживает разделение между классами с низкой плотностью, что обычно считается приоритетом для задач классификации в машинном обучении . Вот соответствующая ветка форума.
кНН
Проклятие размерности? Какое проклятие размерности? Видимо kNN с большим k и косинусным сходством дали хорошие результаты. Минус: очень медленно. Есть способы ускорить его, например, google-all-pairs-similarity-search.
Машины факторизации
Майкл Ярер сообщает, что использовал libFM для получения 0,98.
Отдельные модели для каждой категории
Объявления делятся на разные категории и подкатегории.