Аналитика vs Data Science: как я ускорил поиск себя в профессии и нашел те самые задачи

Мне 26 лет, я сменил направление карьеры с прикладной аналитики на Data Science. В моей истории не было кардинальной смены профессии, но я последовательно искал задачи «под себя».

Мой опыт может быть полезен тем, кто пытается найти себя в аналитике и смежных областях, но некоторые моменты и стратегии универсальны и будут полезны всем, кто задумался о переменах в карьере. Поиск «своих задач» похож на сборку LEGO, где блоки — это разные задачи, но вы можете выкидывать ненужные детальки, обмениваться ими с коллегами или даже брать элементы из другого набора, чтобы построить именно то, что нужно вам. Также я поделюсь списком из почти 20 источников и ресурсов, которые помогли мне сменить профессиональную область.


Как разогнаться на старте карьеры

Один из простых способов ускорить поиск себя в профессии — начать как можно раньше работать в коммерческих проектах. Я начал работать аналитиком в «Инфосистемы Джет» в отделе противодействия мошенничеству (антифроде) еще на четвертом курсе университета, где учился на прикладной математике. Нам давали хорошую теоретическую базу, но было понятно, что самые продвинутые и востребованные практики — в коммерческих компаниях.

Позиция антифрод-аналитика дала мне то, что я хотел — погружение в реальные проекты. С одной стороны, работа на бизнес помогает в учебе: часть знаний ты проверяешь на практике, освоение навыков происходит естественнее, быстрее, а результаты остаются с тобой, а не выветриваются через неделю после сессии.

С другой стороны, только практика в условиях реальных проектов дает настоящее понимание профессии. Это уже настоящие жизненные задачи, а не домашние задания. Ты понимаешь структуру работы, видишь, из чего складываются будни аналитика: что из этого тебя мотивирует, с чем ты готов мириться, а с чем — не очень.

На практике мы часто узнаем составляющие работы, о которых ни на вузовских лекциях, ни на онлайн-курсах не говорят или упоминают вскользь, при этом задачи этого класса занимают существенную часть времени и внимания. Я попробую декомпозировать свою деятельность на позиции прикладного аналитика, занимающегося антифродом.

Чем на самом деле занимаются каждый день антифрод-аналитики

Погрузиться в предметную область. До работы с нефтянкой я никогда не задумывался, что происходит, когда машина компании приезжает на АЗС, какие производятся операции и какие там есть возможности для мошенничества. После работы с ритейлерами я по-другому начал ходить в супермаркеты, внимательнее относиться к чекам и скидочным картам, потому что узнал о разных сценариях мошенничества с ними.

Одна из первостепенных задач прикладного аналитика (в моем случае, антифрод-аналитика) — это глубоко погрузиться в предметную область, проанализировать ключевые бизнес-процессы и выделить среди них интересующие и наиболее уязвимые. И здесь всегда есть выбор, куда пойти: ритейл, нефтянка, металлургия и т. д. Например, можно стать аналитиком, специализирующимся на фроде, связанном с финансовыми операциями в банках. И даже здесь будут варианты: можно заниматься внутренним фродом, то есть выявлением махинаций сотрудников, а можно — внешним, связанным с действиями мошенников вне организации.

Ставить себя на место злоумышленника. В профессии могут открыться и специфические задачи, и неожиданные требования. Например, в антифроде важно научиться ставить себя на сторону злоумышленника. Заказчик описывает бизнес-процессы компании, отмечает необычные и интересные сценарии, и ты должен посмотреть на происходящее через призму человека, который хочет незаконно получить прибыль, критичную информацию.

Общаться с заказчиком на его языке. Общение и требуемые для него развитые коммуникативные навыки — важная составляющая профессионализма аналитика. К тому же коммуникациям с заказчиками редко учат целенаправленно. Но аналитик должен общаться с заказчиком на его языке, чтобы глубоко погрузиться в процесс, доказать экспертность, заслужить необходимое для продуктивной работы доверие. Если ты анализируешь сделки трейдеров, ты должен разбираться в трейдерском деле. Если анализируешь систему начислений бонусов в ритейле — понимать всю цепочку от появления в системе нового клиента до момента списания бонусов. При анализе технологического процесса плавки стали в черной металлургии — должен разбираться в особенностях различных марок стали.

Решать инженерные задачи. Рано или поздно придет время внедрять разработанное решение для выявления и анализа мошеннических операций. В случаях, когда не требуется привлечение разработчиков для интеграции со специфичным источником данных, аналитику необходимо настраивать интеграции с различными системами. Например, это может быть сделано с использованием ETL-инструментов, которые позволяют настраивать набор процедур для загрузки, обработки и передачи данных в антифрод-решение. Как это реализуется на практике, зависит от требований заказчика, сложности и уникальности источника данных: чаще всего, переиспользуются или дорабатываются ранее разработанные интеграционные компоненты. Кроме проработки интеграции, любое решение адаптируется под нужды конкретной компании: настройка интерфейса, формирование уведомлений для ответственных лиц и создание регулярного отчета.

Разрабатывать документацию. Помимо настройки решения, на протяжении большей части проекта необходимо вместе с заказчиком разрабатывать и согласовывать документацию: технико-коммерческое предложение, техническое задание, аналитическую записку, спецификацию к формату обмена и др. Здесь необходимо опять же иметь системный подход — разрабатывать требования, которые бы удовлетворяли и заказчика, и подрядчика, и затем фиксировать их документально.

Что делать, если какие-то классы задач не подходят

Иногда есть классы задач, которые нам делать скучно или сложно. В профессии прикладного аналитика кого-то напрягает общение с заказчиками, кого-то — интеграции и оформление документации.

Чаще всего на проекте работает команда аналитиков, внутри которой разделены обязанности. Аналитик может фокусироваться на одной из зон ответственности:

  • Согласование с заказчиком требований к системе и разработка проектной документации.

  • Настройка антифрод-решения и реализация необходимых интеграций.

  • Анализ бизнес-процессов заказчика и выявление наиболее уязвимых мест и др.

Если есть серьезный интерес к какому-то из этих классов задач, а другие не столь интересны — имеет смысл развивать экспертизу в конкретном направлении.

Но есть ситуации, когда не удается собрать конструктор из имеющихся кубиков под свои особенности и потребности. Это и был мой случай. По мере наращивания опыта мне всё больше хотелось быть исследователем и глубже погрузиться в область Data Science: анализировать данные, строить прогнозные и оптимизационные модели, доказывать эффективность от внедрения сервисов на базе математических моделей. Мы часто застреваем на этапе таких сомнений и ничего не предпринимаем.

Не только в пабе: как мне помог разговор с руководителем

В такой ситуации мы иногда предпочитаем молчать и не делать ничего или резко меняем компанию и даже сферу деятельности. Но часто не нужны такие кардинальные действия, и работает теория «маленьких шагов».

На нашем корпоративном портале есть кнопка «Хочу перемен», и я ее нажал. Еще поговорил с руководителем. В команде не хотели, чтобы я уходил, но, когда поняли, что решение осознанное, никто ни разу мне не сказал: «Да куда ты собрался» и «Зря все это». Мой руководитель помог и познакомил с коллегами из центра машинного обучения. Когда я рассказываю знакомым, что поделился своим желанием с начальником, и он помог его осуществить, они удивляются: «А что, так можно было?». Можно. То есть в моем случае сработало то, что я озвучил запрос на изменения не друзьям в пабе, точнее, не только им, но и человеку, который может реально повлиять на ситуацию.

Плюсы большой компании для поиска своих задач

У работы в большой компании есть плюсы и минусы. В контексте темы поиска своих задач у масштабной организации есть преимущества. Если бы я с той же проблемой столкнулся в компании, у которой всего пара проектов, не факт, что мой запрос удовлетворили бы в силу объективных причин. Крупные компании развивают разные направления экспертизы, внутри каждого реализуется множество проектов и параллельно работают несколько команд.

В нашей компании много переходов из одного подразделения в другое, и многие из них — куда кардинальнее моего. Люди могут сменить сферу деятельности, профессию, не меняя компанию. Поэтому мне в этом смысле повезло: у нас уже появился центр машинного обучения, и я, пройдя несколько собеседований, перешел туда работать, и вот уже более двух лет занимаюсь разработкой и внедрением решений на базе моделей машинного обучения. На начальном этапе, конечно, максимально впитывал опыт команды и набивал руку в проектах. Сейчас руковожу группой Data Science специалистов, определяю, интересно ли нам браться за задачу, а еще:

  • продумываю архитектуру решения задачи с точки зрения Machine Learning (ML),

  • вместе с командой разрабатываю сервис на базе ML,

  • плотно общаюсь с заказчиками, выезжаю на площадки в другие города,

  • исследую применимость ML на рассматриваемом участке,

  • делаю презентации нашего подхода к решению и результатов, защищаю предложенный подход к решению

  • и, конечно, слежу за новыми SOTA-результатами в ML.

Из чего состоит Data Science: ключевые задачи специалиста

Data Science (DS) можно грубо разделить на два направления: исследовательское и прикладное. В исследовательском люди в большей степени занимаются созданием новых подходов к решению задач и развитием уже существующих алгоритмов. В прикладном — к вам приходит заказчик со своей «болью», или ты приходишь к заказчику и предлагаешь решения в зависимости от предметной области, и вы вместе ищете способ, чтобы улучшить текущий процесс с использованием методов машинного обучения.

Погрузиться в предметную область. Общаться с заказчиком на его языке. Это сходные с прикладной аналитикой задачи, и навыки, приобретенные ранее, мне очень пригодились. Здесь ты также делаешь обследование, глубоко изучаешь процесс, в который нужно встроиться, и общаешься с людьми, экспертами предметной области. Металлурги не будут разговаривать с тобой на языке математики, и ты с ними не должен. Сталевары в своих терминах расскажут, как происходит плавка и сколько нужно кинуть ферросплавов, чтобы все получилось. Они не будут описывать происходящее в терминах из теории вероятностей и математической статистики. Это тебе нужно будет услышанное и увиденное перевести на язык математики.

Провести первичный анализ данных. Специалист DS существенную часть времени тратит не на построение алгоритма, потому что множество методов и готовых алгоритмов уже есть. Львиная доля усилий уходит на правильную подготовку имеющихся данных ко всем этим моделям и алгоритмам. При анализе данных и DS-специалист, и антифрод-аналитик первым делом пытаются разобраться в логике и структуре их формирования, выделить ключевые элементы и характерные показатели для рассматриваемого процесса.

Антифрод-аналитик в большей степени анализирует часть данных, которая существенно отличается от характерного поведения, разбирает единичные кейсы (схемы мошенничества) и декомпозирует их на последовательность или совокупность событий. DS-специалист сосредотачивает внимание на выявлении общих закономерностей. Это работа с большим объемом данных, который проблематично отсмотреть глазами, и поэтому необходимо использовать инструменты для визуализации и автоматизированной обработки.

Мы получаем от заказчика доступы к различным системам, базам данных, системам логирования или сырые данные, например, трендовые данные набора датчиков на агрегате для обработки стали. Затем разрабатываем скрипты для первичной обработки данных, после чего с помощью графиков и статистик смотрим, насколько то, что мы видим в данных, реально отображается в процессе.

Допустим, мы исследуем технологический процесс плавки стали, и нам нужно определить характерные режимы работы агрегатов. После того, как мы из данных получим интересующие режимы, их нужно верифицировать со специалистами производства, поскольку и данные могут врать.

Первичный анализ данных, их подготовка — один из самых важных этапов. И 50-60% времени работы над проектом уходит на эту задачу. При этом DS-специалисты больше любят строить модели — но этот этап составляет 5-10% от объема работы.

Построить ML-модель. Тот самый момент, который для многих и является привлекательным в специальности. И именно этот класс задач делает работу DS-специалиста настолько отличной от работы прикладного аналитика. Для различных антифрод-решений привычен больше экспертный подход, когда формируется набор правил для выявления инцидентов. Для разработки моделей на базе машинного обучения необходимо знать нюансы различных методов прогнозирования, их отличия друг от друга и уметь объяснить, почему в той или иной задаче лучше использовать определенный алгоритм.

Запустить модель нетрудно. Сложнее решать задачи, для которых нужны развитые математические скиллы и опыт использования различных фреймворков машинного обучения:

  • правильно подготовить данные;

  • верно сформировать математическую постановку задачи;

  • корректно скрестить математическую постановку, технологию процесса и бизнес-потребность заказчика;

  • корректно оценить эффект от разработанной модели.

Разработка прогнозной модели, моделирование. Это тоже одна из самых любимых задач для DS-специалиста: 5-10% работы, когда видишь результат. Этот этап для многих и составляет всю романтику профессии. В этот момент мы понимаем, можно ли из данных, на предподготовку которых ушло столько сил и времени, получить какой-то сигнал, или нет. Причем всегда нужно быть готовым, что наша подготовка и усилия не оправдали ожиданий, и надо начинать пусть не с самого начала и чистого листа, но заново.

К заказчику и обратно. На этом этапе DS-специалист должен идти к бизнесу, менеджерам и экспертам заказчика и показывать результаты. Если мы решили проблему бизнеса — прекрасно, если нет — должны предложить необходимые изменения, чтобы получилось. И вот умение слышать обратную связь, спокойно и критично относиться к замечаниям заказчика, комментариям — это про развитые навыки общения и формирование у заказчика правильных ожиданий, умение ими управлять.

Оценить результат. Предположим, у нас получилось, и есть результат. Теперь нужно оценить, принесла ли разработанная система пользу для бизнеса или производства. Не просто сказать, что модели хорошо работают, а проанализировать, провести эксперименты и оценить реальный прирост «в бою». Большая часть ML-проектов уникальна, поэтому для оценки эффективности нужно каждый раз придумывать новый сценарий для доказательства полезности внедренного решения (не всегда есть возможность провести A/B тестирование). Важно «на берегу» вместе с заказчиком определить архитектуру такого эксперимента.

Как найти задачи под себя

Когда мы учимся или только присматриваемся к какой-то деятельности, мы часто искаженно представляем ее содержание: то, чем мы будем заниматься на этой работе изо дня в день. Нас могут поджидать неожиданные типы задач. Например, аналитикам и DS нужно много и эффективно общаться с заказчиками, которых, как известно, не выбирают. При этом важно учитывать специфику бизнеса и отрасли. Или в DS идут для того, чтобы строить модели и всегда получать wow-результат, а в реальных проектах эти задачи составляют всего 10%, и крутой результат мы получаем не всегда.

Поэтому желательно как можно раньше приходить работать в реальные проекты и изучать свои возможности и предпочтения. И, если какие-то задачи не устраивают, настраивать работу под себя: обсуждать с руководителем и командой, пробовать разные задачи, заглядывать в смежные области.

У меня получилось настроить под себя задачи, и сейчас я полностью доволен как профессией в целом, так и тем, чем занимаюсь каждый день. Для аналитиков, которые хотят полностью переехать в новую профессию, я собрал список источников и ресурсов, которые мне помогли это сделать. Также он может быть полезен и прикладным аналитикам, кто счастлив и доволен на своем месте, поскольку, как мне кажется, всем имеет смысл изучать инструменты Data Science, так как они пригодятся в любой аналитической работе.

Книги, курсы и ресурсы, которые помогут погрузиться в Data Science

Теория вероятностей и математическая статистика:

  1. А.И.Кибзун, Е.Р.Горяинова, А.В.Наумов, А.Н.Сиротин. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами

  2. Печинкин А.В., Тескин О.И., Цветкова Г.М. Теория вероятностей

  3. Горяинов В.Б., Павлов И.В., Цветкова Г.М. и др. Математическая статистика.

Data Science:

  1. Блог Александра Дьяконова

  2. Материалы ODS-сообщества: DataFest, ML-тренировки

  3. Блог Антона Мальцева

ML-классика:

  1. Курс OpenDataScience

  2. МФТИ: Лекторий ФМПИ
    Видео лекций
    Видео семинаров

  3. Курс от CSC: Анализ данных на Python в примерах и задачах. Часть 1 (весна 2018)

  4. Курсы от DMIA

  5. Материалы и курсы от факультета компьютерных наук ВШЭ

  6. Книга Pattern Recognition and Machine Learning

Deep Learning:

  1. Курс Deep Learning на пальцах

  2. Книга Николенко С.И., Кадурин А. А. «Глубокое обучение. Погружение в мир нейронных сетей»:

  3. Курс от CSC: Анализ данных на Python в примерах и задачах. Часть 2 (осень 2018).

  4. МФТИ: Лекторий ФМПИ: Видео лекций, Видео семинаров

  5. Курс по компьютерному зрению от Stanford

  6. Видеозаписи лекций по классическому компьютерному зрению

Python

Курс на Stepik

Андрей Тарасов

Руководитель группы машинного обучения

Читайте так же:

  • Хи ВодолеяХи Водолея Загадочная, неправильная, непредсказуемаяДрузья, сразу сообщу: в конце статьи прикреплена её видео-версия. Если кому-то легче слушать, чем читать, можете этим воспользоваться. Плюс ко всему, в видео-версии существенно больше иллюстраций и есть несколько анимаций.Неяркая звезда пятой […]
  • Контент сайтов работают в рекламных агентствах пишут книги создают обучающиеКонтент сайтов работают в рекламных агентствах пишут книги создают обучающие Узнайте, как создать лучшее учебное пособие и помочь своим сотрудникам стать более продуктивными с помощью Bit.ai. Читать дальше… Если ваша компания похожа на автомобиль, ваши сотрудники-это двигатель, который поддерживает ее работу. Однако время от времени двигатель требует некоторой […]
  • Google рассказал, как атрибуты external, noopener и noreferrer влияют на SEOGoogle рассказал, как атрибуты external, noopener и noreferrer влияют на SEO Сотрудник поиска Google Джон Мюллер на форуме Reddit ответил на вопрос. Как внешние ссылки с атрибутом rel = external влияют на SEO. Некоторые специалисты по поисковой оптимизации считают. Что внешние (обратные) ссылки имеют большее влияние в SEO и остаются фактором ранжирования. Мюллер […]
  • Чаты на вебсокетах. Теперь про бэкендЧаты на вебсокетах. Теперь про бэкенд Продолжаем рассказывать про чаты на вебсокетах, но уже со стороны бэкенда. Когда-то использовали сторонний сервис, но было важно решить ряд моментов, которые он не мог покрыть. Выбирать особо не пришлось, и мы принялись разрабатывать собственное решение.Ниже подробности о том, что было […]