Содержание:
Вернуться назад
Количество данных растет с каждым днем. Их массу необходимо не только где-то хранить, чему в ближайшие годы может способствовать развитию технология блокчейна. Эти данные также нужно анализировать – и тот, кто сможет делать это качественно, будет в приоритете. Сегодня мы в общих чертах расскажем о том, что такое data science, чем занимаются эти специалисты, какую пользу они приносят и сколько зарабатывают в Украине в 2023 году.
Кто такой data scientist?
Data Scientist (исследователь данных, далее просто DS) – это тот, кто работает с big data. Big data – это общее название для огромных объемов данных, которые не являются структурированными. Это может быть что угодно: метеоданные за определенный период времени, результаты спортивных соревнований за последние тридцать лет, базы данных геномов микроорганизмов и т. д. Нас, как арбитражников, интересуют такие вещи, как базы данных клиентов, статистика запросов в поисковиках, данные о продажах. Big data может включать и это. Структуризация этих данных требует специфических знаний и умения пользоваться определенными инструментами. Таким образом, исследование данных – это область, пересекающаяся с несколькими другими связанными областями и науками:
- компьютерными науками;
- математикой и статистикой;
- системным анализом.
То есть DS – это что-то на пересечении математики и Dev (о необходимых навыках программирования немного ниже).
Итак: Data scientist – это специалист, который из огромного массива данных умеет получать полезную информацию: прогнозировать поведение клиента, разрабатывать стратегию удержания клиента, оптимизировать рекламные каналы, прогнозировать сбои в работе различных систем.
Ключевое слово в этом определении – “прогноз”. Вид прогноза зависит от поставленной задачи. На выходе DS должен получить прогнозную модель, то есть программный алгоритм, который находит оптимальное решение для поставленной задачи. Ниже – отрасли, в которых исследователи данных сейчас являются наиболее полезными и востребованными.
Где может работать data scientist
Ответ: в диджитализированных бизнесах, которые имеют дело с большим количеством данных. Прежде всего это такие сферы:
Торговля/ритейл. DS позволяет анализировать поведение клиентов, их привычки и интересы. А дальше – персонализировать рекомендации и акции, увеличивая объемы продаж. Это лишь один из многочисленных примеров использования DS в сфере;
Банковская сфера и финансы. Исследователи данных могут в этой сфере действительно многое – от управления рисками до улучшения кибербезопасности. Да и вообще, где может быть полезным data scientist, как не в области цифр?
IT и технологии в целом. Это сфера, с которой DS ассоциируется в первую очередь. Здесь актуальны анализ большого объема автоматизация процессов данных, улучшение работы продуктов, работа нейросетей (поскольку big data – это сырье, на котором учится искусственный интеллект) и тому подобное.
Медицина и биотехнологии. Диагностика и прогнозирование заболеваний на основе данных пациента, разработка новых препаратов, аналитика клинических исследований и создание новых лечебных протоколов и т.д;
Маркетинг и реклама. Здесь использование DS пересекается с ритейлом: исследование данных позволяет качественнее сегментировать аудитории и прогнозировать их поведение. Также DS позволяет оптимизировать рекламные каналы, что может стать золотой жилой для арбитражников и таргетологов;
Наука и исследовательская деятельность. Кроме очевидных преимуществ, DS дает возможность работать с такими сложными вещами как сенсорные данные, генетические последовательности и тому подобное.
Но это не значит, что в других сферах отстают: если потребность в исследователях данных невысокая в сфере, к примеру, недвижимости, то это лишь вопрос времени. Количество данных увеличивается постоянно, и потребность в людях, умеющих их анализировать, в дальнейшем будет только расти.
Знания, навыки и инструментарий для исследователя данных
Hard skills:
– Программирование. Python это обязательно. Умение работать с некоторыми библиотеками значительно облегчит вам жизнь. Jupyter, SciPy, Matplotlib, Numpy – превращают пайтон из просто языка программирования в инструмент анализа и визуализации данных. Scikit-learn, TensorFlow, Keras – инструменты для анализа данных, машинного обучения и обучения сложных нейросетей;
– Математика. А именно линейная алгебра (применяется для решения задач DS, а именно – для работы с моделями, тренировки нейросетей); матанализ; прикладная математика;
– Статистика. Мысль о том, что постичь DS с помощью одних лишь готовых библиотечных решений, является ошибочной. Придется повторить (или освоить с нуля) статистические свойства выборки, валидацию данных, тестирование натренированной модели и т. Д.
Если вы поняли эту шутку, то вы на правильном пути
Модели в контексте Data Science – это математические и статистические алгоритмы, которые используются для анализа данных, прогнозирования будущих значений, классификации объектов, кластеризации и тому подобное. Модели могут иметь разный уровень сложности – от обычных статистических методов до многослойных интеллектуальных алгоритмов ML и AI.
Soft skills:
– Аналитический склад ума. Умение задавать правильные вопросы, делать предположения и находить связи между различными фактами и событиями;
– Критическое мышление. Объективный анализ вопросов, понимание того какие ресурсы являются критическими для решения того или иного вопроса. Умение смотреть на проблему под разными углами;
– Коммуникативные навыки. Умение простыми словами объяснять бизнесу и его владельцам содержание данных и их значение для этого бизнеса. Умение объяснить цепочку исследований и предположений, которые привели к тому или иному выводу.
Жажда знаний, понимание современных бизнес-трендов и потребностей бизнеса в целом, проактивность для заблаговременного выявления проблем – все это об исследователях данных. Как видите, софт-скиллз для DS важны не меньше, чем навыки программирования или знание математики.
Как стать data scientist
В первую очередь овладеть математической базой, которую мы упоминали выше. Без нее делать в профессии нечего.
Затем пройдите онлайн-курс: Datacamp, Coursera, Codecademy, Edureka. Хорошая новость в том, что на этом этапе не нужно знать код. Плохая новость в том, что учить его все-таки придется.
Эти курсы подходят как профессионалам для повышения скиллов, так и новичкам.
Переживаете, что вас не возьмут на работу без опыта создания проектов? Создайте их собственноручно! Если вы будете проходить онлайн-курсы, то создание соответствующих проектов будет чем-то вроде диплома. Поэтому берите их в руки и идите к работодателю.
Data Scientist: зарплата и перспективы профессии
Если верить данным Work.ua, то средняя зарплата DS в Украине в 2023 году составляет…23500 гривен. Или примерно 636$. Но мы с вами уже увидели сколько знаний надо получить и какими специфическими навыками надо овладеть, чтобы стать хотя бы джуном. И жизненный опыт редакции Affhub подсказывает, что эти цифры не совсем соответствуют действительности. DOU в своем исследовании пишет о средней зарплате в $2500-2700 в 2022 году, и это уже больше похоже на правду. Так что свой раф на кокосовом получит каждый DS. Как и возможность ходить в Pink Freud, не слишком беспокоясь о ценах на коктейли.
DS джун может рассчитывать на $1000-1500. Но цифры будут зависеть от специализации. Существует несколько специализаций Data Scientist, о них ниже. Но стоит иметь в виду, что это разделение является условным. Все зависит от комбинации навыков, которые имеет тот или иной DS. Плюс все это относительно новые направления в айти, по крайней мере в Украине, поэтому чтобы гармонично “Войти в айти”, нужен солидный бэкграунд в одном нескольких других направлениях.
Итак, о специализации.
Специализации Data Scientist
ML Engineer. Исследователь, который специализируется на машинном обучении. То есть разворачивает, тренирует и поддерживает его модели (о моделях в DS см. выше). Задача ML Engineer – имея большой объем неструктурированных данных, создавать модели для решения задач, которые ставит заказчик. Как выразилась одна из специалисток, имеющая отношение к этой специализации, ML Engineer должен “много экспериментировать и анализировать данные”.
Инженеры машинного обучения тесно взаимодействуют с разработчиками ПО.
Data Analyst. Известен просто как “дата-аналитик”. Препарирует данные и находит в них полезное в первую очередь для бизнеса. Это именно те вопросы, которые могут быть полезны и арбитражникам и маркетологам: сколько компания заработала за последнюю неделю/месяц? Почему упала активность пользователей, или наоборот выросла? Как улучшить работу приложения и какие нововведения работают, а какие нет? Data Analyst в своей работе генерирует гипотезы и тестирует их с помощью A/B. Как и в принципе во всей области DS, для начала карьеры дата-аналитика университетского диплома может быть недостаточно. Точнее работодатели смотрят не на него, а, как мы уже отмечали, на имеющиеся проекты. А создание собственных проектов предполагает упорный самостоятельный ресерч и неуемную жажду знаний.
Data Engineer. Если не залезать в дебри айти-терминологии, то дата-инженер это человек, который делает большие объемы данных доступными для других специалистов – маркетологов, аналитиков и тому подобное. DE обеспечивает бесперебойный поток данных от источника к системе анализа, развивает дизайн аналитического хранилища данных.
ML Researcher. Он же Machine Learning Researcher. Специалист, сосредотачивающийся на разработке новых моделей и алгоритмов машинного обучения – другими словами, “исследователь машинного обучения”, улучшает современное состояние машинного обучения. Если инженеры сосредоточены на практическом применении навыков, то исследователи – это история о теории и инновациях. Это те, кто прокладывает путь для инженеров. Обе роли требуют глубокого понимания концепций машинного обучения и навыков программирования, но фокус и обязанности совершенно разные. Инженер по машинному обучению больше сосредоточен на практическом применении и производственной готовности, в то время как исследователь по машинному обучению это о теоретических достижениях и инновациях.
Devops. Нельзя сказать, что девопс-инженеры являются “подвидом” исследователя данных. Опять же, это все для Украины вновинку, знания и навыки этих специалистов часто пересекаются, как и в сфере онлайн-рекламы: вы можете начать свой путь арбитражником/таргетолом, а затем стать байером. Итак, девопс это профессия на пересечении разработки и системного администрирования, которая служит эффективности процессов поставки ПО. Переводя на человеческий язык, главная задача DevOps – сделать разработку ПО предсказуемой, безопасной и эффективной. С этой точки зрения девопсы стоят несколько в стороне от других специалистов, о которых идет речь в этом материале.
Выводы
Data scienctist – это специалист, который обрабатывает и анализирует огромные объемы данных и получает за это хлеб с маслом. Специалисты DS нужны в первую очередь ритейлу, IT и маркетингу, но в целом их услугами пользуются все бизнесы, которые имеют дело с большими объемами данных.
Чтобы этот хлеб с маслом получать регулярно, исследователи данных должны уметь в математику, статистику и программирование. И это не только о знаниях из университета, но и об отдельных онлайн-курсах и постоянном самосовершенствовании. Специализация DS будет определяться пропорциями знаний из этих трех отраслей, но сегодня она является скорее условной, чем жесткой.