Портал электронной коммерции Avito использует большие данные для своевременного обнаружения мошенничества с рекламой
Стенограмма
обсуждения BriefingsDirect о том, как российская электронная коммерция и поиск
сайт двигателя использует аналитику больших данных для выявления мошенничества.
Слушайте подкаст. Найдите его в iTunes. Получить мобильное приложение для iOS или Android. Скачать стенограмму. Спонсор: HP.
Дана Гарднер: Здравствуйте! Добро пожаловать в следующий выпуск серии подкастов HP Discover. Я Дана Гарднер, главный аналитик Interarbor Solutions,
ваш организатор и модератор этой продолжающейся спонсируемой дискуссии об ИТ
инновации и то, как они влияют на жизнь людей.
Станьте участником MyVertica
Зарегистрируйтесь сейчас
И получите доступ к бесплатной версии HP Vertica Community Edition.
O Наше интервью о следующем примере инноваций рассказывает о том, как Avito, российский сайт и портал электронной коммерции, использует технологии больших данных для
улучшить обнаружение мошенничества, а также лучше понять, как
их пользователи адаптируются к новым рекламным подходам.
Гарднер |
Чтобы узнать больше о том, как большие данные предлагают новые идеи для пользователей портала электронной коммерции, присоединяйтесь ко мне и поприветствуйте Николая Голова, главного архитектора хранилища данных Avito в Москве. Добро пожаловать.
Николай Голов: Привет.
Gardner: Расскажите нам немного о своем сайте
и свой бизнес на Авито. Звучит как Craigslist в России.
Голов: Да, Авито — это российский Craigslist. Это большой сайт, а также крупнейшая поисковая система для некоторых товаров. У нас в Авито больше поисковых запросов, например, с айфонов, чем с Google или Яндекса. Яндекс — это российский Google.
Голов |
Gardner: Покрывает ли Avito все типы
товаров, услуг, межкорпоративной торговли?
Голов: Вкл.
На Авито можно продать практически все, что можно купить на рынке.
Например, вы можете продавать автомобили, дома или сдавать их в аренду. Ты
могут даже найти лодки или бизнес-джеты. Сейчас у нас около трех бизнесов.
перечислены струи.
Гарднер: Такое разнообразие. Что
вам нужны большие данные? Звучит так, как будто в такой большой стране, как
Россия — с таким количеством товаров и услуг — у вас большой объем данных
проблема.
Преимущество размера
Голов:
Главным преимуществом Авито является, прежде всего, его размер. В России все знают
что если вы хотите что-то купить или продать, лучшее место для этого
Авито. Это первое.
Второй
это скорость. Его очень легко использовать. У нас очень простой интерфейс. Так
мы должны сохранить эти два преимущества. Но есть и такие люди
которые хотят использовать Avito для продажи оружия, наркотиков и запрещенных лекарств.
Для Авито крайне важно содержать все в чистоте, чтобы предотвратить
элементы от появления в запросах наших посетителей.
Мы
растет очень быстро, и если мы воспользуемся модераторами, нам придется увеличить
расходы на модерацию в линейной прогрессии по мере роста. Таким образом, единственный
решение избежать линейного роста расходов — использовать автоматизацию.
Gardner: Чтобы быстро решить, что следует или не следует
появляются на вашем сайте, вы решили использовать хранилище данных, которое
обеспечивает эффект автоматизации потоковой передачи данных в реальном времени. Скажи мне, что твой
требования для этой технологии?
Голов: У нас разные требования. Например, нам нужно быть
способный выполнять быстрое обнаружение мошенничества. На складе должно быть очень
небольшая задержка. Часы не допускаются, должно быть 10 минут, не больше.
Наше хранилище данных должно быть большим. Он должен хранить месяцы, а возможно, и годы данных.
Второй,
у нас должны быть данные за длительные периоды времени, чтобы изучить наши данные
алгоритмы майнинга, для создания отчетов и анализа тенденций. Итак, наш
хранилище данных должно быть очень большим. Он должен хранить месяцы, а может быть, и годы
данные. Это должно быть быстро или с небольшой задержкой, и это должно быть
большой.
В-третьих, мы очень быстро развиваемся. мы добавляем
некоторые новые услуги, и мы интегрируем с партнерами. Не так давно,
например, мы добавили информацию из Google AdWords для оптимизации баннеров. Поэтому склад должен быть очень гибким. Он должен иметь возможность расти всеми тремя способами.
Гарднер: Как долго вы используете HP Vertica и как вы пришли к выбору именно этой платформы?
Голов:
Уже больше года. Мы выбрали Vertica из-за двух основных преимуществ. Первый,
скорость загрузки и данных. Скорость ввода-вывода, обеспечиваемая Vertica, потрясающая.
Станьте участником MyVertica
Зарегистрируйтесь сейчас
И получите доступ к бесплатной версии HP Vertica Community Edition.
S вторая
является его возможность обновления, благодаря стандартному оборудованию. Итак, если вы
есть некоторые новые требования, которые требуют от вас повышения производительности, вы
можно просто купить новое оборудование — стандартное оборудование — и его мощность всего лишь
увеличивается.
Это здорово, и это можно сделать очень быстро. Победителем стала Вертика.
Измерение воздействия
Gardner: Есть ли у вас представление о производительности и характеристиках
Vertica и ваше хранилище данных принесли вам пользу? У тебя есть смысл
снижения мошенничества на X процентов или лучшей аналитики, которая дала вам
какое-то деловое преимущество? Существуют ли способы измерения
истинное воздействие?
Голов: За последний год Avito очень быстро вырос. У нас есть
команда модераторов из около 250 человек в начале этого процесса.
Теперь у нас та же команда модераторов, но количество предметов изменилось.
увеличился в два раза. Я полагаю, что это одна из лучших мер, которые могут быть
использовал.
Гарднер: Достаточно честно. Теперь, глядя на
будущем, когда вы работаете в бизнесе, где ваша маржа, ваша
бизнеса, ваш доход зависит от возможности предоставлять рекламу
размещения, повышая эффективность и ценность
на фактическом распространении рекламы и связанных с этим затратах имеет решающее значение.
В дополнение к быстрому обнаружению и защите от мошенничества, есть ли ценность от вашего
аналитика, которая уточняет
бизнес-алгоритмы и, следовательно, розничная стоимость для вашего
клиенты?
Мы запускаем еще несколько продуктов. Основная их цель — создать собственный инструмент для оптимизации направлений рекламы.
Голов: Мы создаем больше продуктов. Основная их цель – создать собственную
инструмент для оптимизации направлений рекламы. У нас есть баннеры,
маркетинговые кампании и SMS.
Таким образом, мы добились определенных результатов в нашей отчетности и в предотвращении мошенничества.
Мы продолжим работать в этом направлении и планируем добавить некоторые
новые типы функциональности для нашего хранилища данных.
Гарднер: Это
определенно кажется, что хранилище данных
дает тактическую выгоду, но затем со временем переходит к стратегической выгоде. Чем больше
данных, умозаключений и понимания ваших процессов, тем больше
мощным вы можете стать как тотальный бизнес.
Голов: Да.
Один из моих учителей по хранилищам данных объяснил роль данных
склады на предприятии. Это как дизельный двигатель внутри корабля. Это просто
работает, работает и работает, а вокруг него жарко. Вы можете создавать различные
инструменты, чтобы увеличить его, чтобы сделать его лучше.
Но есть
всегда должно быть что-то глубоко внутри, что постоянно снабжает все связанные инструменты
мощность и надежные услуги передачи данных со всех сторон
бизнес.
Гарднер: Интересно, для тех, кто
слушая вас и говоря: «Нам действительно нужна эта основная платформа
для того, чтобы построить эти другие ценности с течением времени.» Есть ли у вас какие-либо
уроки, которые вы узнали, которыми вы могли бы поделиться. То есть, если
вы начинаете разрабатывать собственное хранилище данных и собственную
возможности бизнес-аналитики (BI) и аналитики, есть ли у вас какие-либо
совет?
Будь гибким
Голов: Во-первых,
вы должны быть гибкими. Если вы спросите компанию об изменении, они скажут
вы, что они не могут. Это будет абсолютно так каждый раз. И через два
месяцев, он все равно изменится. Если вы не готовы меняться с помощью
хранилище данных для получения необходимых данных и аналитики, это было бы катастрофой. Это первое.
Второй,
всегда будут ошибки в данных, будут пробелы, и это
крайне важно начать строить хранилище данных вместе с
автоматизированная система качества данных, которая будет автоматически контролировать и
следить за качеством всех данных. Это поможет вам увидеть проблемы, когда
они происходят.
Если вы не готовы изменить соотношение вашего хранилища данных, чтобы получить такие данные, это будет катастрофой.
Гарднер: Я
боюсь, что нам придется оставить его там. Мы обсуждали, как Avito,
крупный портал электронной коммерции и супер-ритейл в Москве, разворачивает
хранилище данных и возможности BI не только для предотвращения мошенничества, но и для
развивать свой бизнес за счет лучшего понимания своих клиентов и
процессы.
Итак, большое спасибо нашему гостю, Николаю Голову, главному архитектору хранилища данных Авито.
Большое спасибо.
Голов: Большое спасибо.
Станьте участником MyVertica
Зарегистрируйтесь сейчас
И получите доступ к бесплатной версии HP Vertica Community Edition.
Гарднер: И я также хотел бы поблагодарить нашу аудиторию за то, что они присоединились к нам сегодня для нашей специальной дискуссии об инновациях в области больших данных.
я
Дана Гарднер, главный аналитик Interarbor Solutions, ваш хост для
эта продолжающаяся серия дискуссий, спонсируемых HP. Спасибо
слушать и вернуться в следующий раз.
Слушайте подкаст. Найдите его в iTunes. Получить мобильное приложение для iOS или Android. Скачать стенограмму. Спонсор: HP.
Выписка
обсуждения BriefingsDirect о том, как российская электронная коммерция и поиск
Сайт Engine использует аналитику больших данных. Copyright ООО «Интерарбор Солюшнс», 2005-2015 гг. Все права защищены.
Вас также может заинтересовать:
- Разработчики аналитики GoodData о том, что они ищут в платформе больших данных
- Команда тегов ITIL-ITSM повышает качество операций мексиканского интернет-провайдера INFOTEC
- Новый анализ поведения потребителей в розничной торговле от InfoScout опирается на возможности обработки больших данных HP Vertica
- Модернизация ИТ-операций помогает энергетической компании Exelon приобретать предприятия
- Как подход хакатона способствует инновациям в приложениях больших данных для Thomson Reuters
- Как управление отходами создает мощный континуум услуг в рамках операций, инфраструктуры, разработки и ИТ-процессов
- GSN Games получает главный приз за использование больших данных для глубокого понимания предпочтений игроков
- Гибридные облачные модели требуют большей стандартизации инфраструктуры, говорит глобальный поставщик услуг Steria
- Поставщики услуг получают новые уровни оперативной информации о клиентах благодаря анализу больших данных
- Как британский разработчик решений для обработки данных Systems Mechanics использует HP Vertica для бизнес-аналитики, потоковой передачи и анализа данных
.
Блог о технологиях от Avito: Встречайте нас на Medium! | от АвитоДев | АвитоТех
Всем привет, сегодня мы запускаем технический блог Avito на Medium. Для начала несколько слов об Авито. Avito — это платформа онлайн-объявлений как для частных лиц, так и для компаний. В настоящее время Avito стабильно входит в топ-5 российских сайтов и в топ-3 мировых сайтов объявлений по разным данным. Вещи, выставленные на продажу на Авито, могут быть как новыми, так и бывшими в употреблении. На сайте также публикуются вакансии и резюме.
В этом блоге мы расскажем вам о технологиях, лежащих в основе платформы Avito. Начнем с нескольких слов о текущем состоянии проекта, функциях его инженерной команды и наших планах на ближайшее будущее.
Как и многие другие крупные проекты, Avito был запущен небольшой командой. Первая версия сайта была запущена еще в 2007 году, и первые шаги шли методом проб и ошибок. В своем нынешнем виде сайт появился лишь два года спустя. Веб-сервис изначально разрабатывался командой всего из 4 разработчиков, которые занимались абсолютно всем — от инфраструктуры до фронтенда. Версия веб-сайта 2009 года определенно не рассматривалась для участия в конкурсе на лучший дизайн веб-сайта. Но те, кто участвовал в проекте, до сих пор испытывают по нему ностальгию. И гордитесь этим, потому что проект был реализован с ограниченными ресурсами, и все же ему удалось заявить о себе и заложить основу успешного бизнеса.
Трудно представить, но до 2012 года размер команды разработчиков не менялся. Однако проект разрастался, и мы чувствовали потребность в новых талантах. В 2012 году команда вступила в фазу экспоненциального роста. Оно стало подразделяться на специализации, направления, проекты, команды и группы. Сейчас в Авито есть целый инженерный отдел, в котором работает более 300 специалистов.
Через свои веб-приложения и мобильные приложения платформа ежемесячно обслуживает более 35 миллионов пользователей, которые ежедневно добавляют около миллиона новых объявлений (в бэк-офисе накоплено более миллиарда объявлений) и совершают более 100 000 транзакций. По данным Яндекса, в некоторых городах России (например, в Москве) Авито считается высоконагруженным проектом по просмотрам страниц. Некоторые цифры могут дать лучшее представление о масштабах проекта: 300+ серверов, >20 ТБ в Postgres, 270 ТБ изображений, 13 Гбит/сек трафика в вечерние часы пик, около миллиона запросов в минуту к бэкенду. Поэтому опыт обработки данных имеет решающее значение для наших бизнес-процессов. При этом эти объемы данных нужно не только накапливать и хранить, но и обрабатывать, фильтровать, классифицировать и делать доступными для поиска.
Ни один инструмент не может эффективно справиться с этими задачами, поэтому Avito использует ряд решений, таких как: PostgreSQL (установка PostgreSQL от Avito — одна из крупнейших и справляется с одними из самых высоких нагрузок в мире), Tarantool, Vertica, MongoDB, Redis и другие системы хранения. Об архитектуре системы мы расскажем в следующих постах.
Тонны данных хороши для платформы, но представляют собой проблему для пользователя, который хочет найти именно то, что ему нужно. На помощь пользователю приходят инструменты классификации и поиска объявлений. Поиск — самая сложная задача. Проблема не столько в объеме данных, сколько в человеческом факторе. Реальность такова, что пользователи всегда ошибаются, как в текстах объявлений, так и в поисковой строке. Одна из основных задач — устранить ошибки в объявлениях и понять, что имел в виду пользователь.
Для устранения ошибок используются всевозможные справочные материалы и алгоритмы коррекции, а также более продвинутые подходы, такие как компьютерное зрение. Например, компьютерное зрение способно с очень высокой вероятностью (в некоторых категориях выше 95%) проверить, правильно ли пользователь выбрал категорию объявления. Кроме того, Avito регулярно отправляет специалистов по машинному обучению на конкурсы (проводимые такими платформами, как machinelearning. ru, boosters и kaggle), целью которых является поиск наиболее эффективных алгоритмов для решения различных прикладных задач.
Для полнотекстового поиска используется Sphinx, с которым мы регулярно делимся опытом и активно участвуем в развитии технологии.
Как уже было сказано, ежедневно пользователи добавляют около миллиона новых объявлений. Но мало кто знает, что больше половины из них — спам. Традиционно модерация использовалась для выявления спама. Забавный факт: первая версия системы модерации была написана всего за неделю, и она настолько эффективна, что с тех пор не потребовалось ни одного крупного обновления. Но, несмотря на улучшения, очевидно, что вручную обрабатывать такой объем информации невозможно. Поэтому используются более продвинутые методы, например, нейронные сети, которые непрерывно обучаются на основе решений модератора-человека.
Данные — не единственная проблема. Рынок постоянно диктует новые требования, которые выливаются во все более сложную бизнес-логику. Исторически бизнес-логика платформы реализована на PHP. В 2016 году мы перешли на новую версию — PHP 7, и серверы взяли передышку, нагрузки упали в три раза. Сегодня PHP — не единственный серверный язык, используемый на Авито. Изначально проект имел монолитную архитектуру, но уже давно движется в сторону микросервисов. В зависимости от задачи и нагрузок используются разные языки, такие как Python и Go.
Какими бы сложными ни были задачи на стороне сервера, все это скрыто от пользователя. За то, что видят пользователи при взаимодействии с сервисом, отвечает команда фронтенда. Изначально сайт строился с использованием доступных на тот момент технологий серверного рендеринга и jQuery. Но не так давно мы полностью отказались от jQuery в пользу браузерных API и небольших библиотек, решающих конкретные задачи. Frontend-разработка старается идти в ногу со временем, использовать новейшие технологии и решения. Например, сразу после утверждения спецификаций была внедрена новая версия JavaScript (сейчас используется ECMA2016). Кроме того, появляются новые веб-приложения (SPA), построенные на React и base.js. Фронтенд-разработчики также принимают участие в проектах с открытым исходным кодом (таких как CSSO (CSS Optimizer — минимизатор CSS со структурными оптимизациями), разрабатывают инструменты и делятся своим опытом на конференциях.
Авито появилось в момент зарождения мобильной платформы, какой мы ее знаем сегодня. Естественно, все началось с веб-версии, затем была запущена веб-версия для мобильных устройств. Но нативные приложения имеют функции, зависящие от платформы. Сегодня мобильные приложения находятся в центре внимания. Отдельные команды одновременно разрабатывают несколько приложений для iOS и Android. Ребята очень серьезно относятся к своей миссии, делятся опытом на конференциях и на GitHub. Один из их проектов — медиа-сборщик Avito Paparazzo, который мы разместили в прошлом году и о котором вы могли прочитать на сайте maniacdev.com или в технологическом блоге OLX Group.
Обе команды мобильных разработчиков — iOS и Android — используют передовые технологии. Во-первых, это Kotlin (который мы начали использовать еще до выхода версии 1.0) и Swift. Они почти полностью заменили наследие Java и Objective-C в наших продуктах. Во-вторых, мы инвестируем в разработку и продвижение лучших инженерных практик — CI, CD, Code Review и автоматизация тестирования. В-третьих, это слабосвязанная масштабируемая архитектура, которая позволяет нескольким группам разработчиков слаженно работать над большим проектом и оперативно реагировать на запросы пользователей.
Изначально в Avito не было функции тестирования, а первые QA-специалисты присоединились к команде в 2012 году. Сегодня у нас более 40 специалистов, треть из них специализируется на автоматизации. Инструментарий стандартный: PHP + PHPUnit, Selenium. У нас есть система запуска тестов, через которую проходит в среднем 110–120 тысяч тестов в день. На пике эта цифра достигает 200 000. Для организации взаимодействия между тестировщиками и разработчиками используется собственная система управления тест-кейсами, позволяющая хранить тест-кейсы, выполнять их и прикреплять баги в Jira.
Так устроена разработка на Авито, короче говоря. Конечно, многое остается за кадром. Мы постараемся восполнить этот пробел в ближайшее время.
Узнайте больше о внутренней работе Avito из статей в технологическом блоге OLX Group:
- Vertica + Anchor Modeling = Вырастите свой мицелий;
- Папараццо. Средство выбора мультимедиа с открытым исходным кодом для приложений iOS. Часть I;
- Папараццо. Средство выбора мультимедиа с открытым исходным кодом для приложений iOS. Часть II;
- Да пребудет с вами обзор кода;
- Мониторинг как услуга: модульная система для микросервисной архитектуры.
Здесь вы можете увидеть плейлист с видео со встреч, прошедших в нашем офисе или с конференций с нашими спикерами на английском языке.
Большинство ресурсов Авито по веб-разработке мы ведем на русском языке. Все наши новости мы публикуем на AvitoTech в Twitter, Facebook, Вконтакте, Telegram. Презентации наших разработчиков на конференциях и митапах есть на нашем слайдшере и спикердеке.