Что такое data science и как это работает?

Содержание:

Data Scientist: кто это и что он делает

В переводе с английского Data Scientist – это специалист по данным. Он работает с Big Data или большими массивами данных.

Источники этих сведений зависят от сферы деятельности. Например, в промышленности ими могут быть датчики или измерительные приборы, которые показывают температуру, давление и т. д. В интернет-среде – запросы пользователей, время, проведенное на определенном сайте, количество кликов на иконку с товаром и т. п.

Данные могут быть любыми: как текстовыми документами и таблицами, так и аудио и видеороликами.

От области деятельности зависят и результаты работы Data Scientist. После извлечения нужной информации специалист устанавливает закономерности, подвергает их анализу, делает прогнозы и принимает бизнес-решения.

Человек этой профессии выполняет следующие задачи: оценивает эффективность и работоспособность предприятия, предлагает стратегию и инструменты для улучшения, показывает пути для развития, автоматизирует нудные задачи, помогает сэкономить на расходах и увеличить доход.

Его труд заканчивается созданием модели кода программы, сформировавшейся на основе работы с данными, которая предсказывает самый вероятный результат.

Профессия появилась относительно недавно. Лишь десятилетие назад она была официально зафиксирована. Но уже за такой короткий промежуток времени стала актуальной и очень перспективной.

Каждый год количество информации и данных увеличивается с геометрической прогрессией. В связи с этим информационные массивы уже не получается обрабатывать старыми стандартными средствами статистики. К тому же сведения быстро обновляются и собираются в неоднородном виде, что затрудняет их обработку и анализ.

Вот тут на сцене и появляется Data Scientist. Он является междисциплинарным специалистом, у которого есть знания статистики, системного и бизнес-анализа, математики, экономики и компьютерных систем.

Знать все на уровне профессора не обязательно, а достаточно лишь немного понимать суть этих дисциплин. К тому же в крупных компаниях работают группы таких специалистов, каждый из которых лучше других разбирается в своей области.

Эти знания помогают ему выполнять свои должностные обязанности:

взаимодействовать с заказчиком: выяснять, что ему нужно, подбирать для него подходящий вариант решения проблемы;
собирать, обрабатывать, анализировать, изучать, видоизменять Big Data;
анализировать поведение потребителей;
составлять отчеты и делать презентации по выполненной работе;
решать бизнес-задачи и увеличивать прибыль за счет использования данных;
работать с популярными языками программирования;
моделировать клиентскую базу;
заниматься персонализацией продуктов;
анализировать эффективность деятельности внутренних процессов компании;
выявлять и предотвращать риски;
работать со статистическими данными;
заниматься аналитикой и методами интеллектуального анализа;
выявлять закономерности, которые помогают организации достигнуть конечной цели;
программировать и тренировать модели машинного обучения;

внедрять разработанную модель в производство.

Четких границ требований к Data Scientist нет, поэтому работодатели часто ищут сказочное создание, которое может все и на превосходном уровне. Да, есть люди, которые отлично понимают статистику, математику, аналитику, машинное обучение, экономику, программирование. Но таких специалистов крайне мало.

Еще часто Data Scientist путают с аналитиком. Но их задачи несколько разные. Поясню, что такое аналитика и как она отличается от деятельности Data Scientist, на примере и простыми словами.

В банк пришел клиент, чтобы оформить кредит. Программа начинает обрабатывать данные этого человека, выясняет его кредитную историю и анализирует платежеспособность заемщика. А алгоритм, который решает выдавать кредит или нет, – продукт работы Data Scientist.

Аналитик же, который работает в этом банке, не интересуется отдельными клиентами и не создает технические коды и программы. Вместо этого он собирает и изучает сведения обо всех кредитах, что выдал банк за определенный период, например, квартал. И на основе этой статистики решает, увеличить ли объемы выдачи кредитов или, наоборот, сократить.

Аналитик предлагает действия для решения задачи, а Data Scientist создает инструменты.

Дата-сайентисты в облаках

Что такое sql и как он работает

Облегчить и ускорить работу по сбору данных, построению и развертыванию моделей помогают специальные облачные платформы. Именно облачные платформы для машинного обучения стали самым актуальным трендом в Data Science. Поскольку речь идет о больших объемах информации, сложных ML-моделях, о готовых и доступных для работы распределенных команд инструментах, то дата-сайентистами понадобились гибкие, масштабируемые и доступные ресурсы.

Именно для дата-сайентистов облачные провайдеры создали платформы, ориентированные на подготовку и запуск моделей машинного обучения и дальнейшую работу с ними. Пока таких решений немного и одно из них было полностью создано в России. В конце 2020 года компания Sbercloud представила облачную платформу полного цикла разработки и реализации AI-сервисов — ML Space. Платформа содержит набор инструментов и ресурсов для создания, обучения и развертывания моделей машинного обучения — от быстрого подключения к источникам данных до автоматического развертывания обученных моделей на динамически масштабируемых облачных ресурсах SberCloud.

Футурология

«Я бы вакцинировал троих на миллион». Интервью с нейросетью GPT-3

Сейчас ML Space — единственный в мире облачный сервис, позволяющий организовать распределенное обучение на 1000+ GPU. Эту возможность обеспечивает собственный облачный суперкомпьютер SberCloud — «Кристофари». Запущенный в 2019 году «Кристофари» является сейчас самым мощным российским вычислительным кластером и занимает 40 место в мировом рейтинге cуперкомпьютеров TOP500

Платформу уже используют команды разработчиков экосистемы Сбера. Именно с ее помощью было запущено семейство виртуальных ассистентов «Салют». Для их создания с помощью «Кристофари» и ML Space было обучено более 70 различных ASR- моделей (автоматическое распознавание речи) и большое количество моделей Text-to-Speech. Сейчас ML Space доступна для любых коммерческих пользователи, учебных и научных организаций.

«ML Space – это настоящий технологический прорыв в области работы с искусственным интеллектом. По нескольким ключевым параметрам ML Space уже превосходит лучшие мировые решения. Я считаю, что сегодня ML Space одна из лучших в мире облачных платформ для машинного обучения. Опытным дата-сайентистам она предоставляет новые удобные инструменты, возможность распределенной работы, автоматизации создания, обучения и внедрения ИИ-моделей. Компаниям и организациям, не имеющим глубокой ML-экспертизы, ML Space дает возможность впервые использовать искусственный интеллект в своих продуктах, приложениях и рабочих процессах», — уверен Отари Меликишвили, лидер продуктового вправления AI Cloud, компании SberCloud.

Облака помогают рынку все шире использовать платформы для работы с данными, предлагая безграничные вычислительные мощности, подтверждают аналитики Mordor Intelligence.

По мнению экспертов из Anaconda, потребуется время, чтобы бизнес и сами специалисты созрели для широкого использования инструментов DS и смогли получить результаты. Но прогресс уже очевиден. «Мы ожидаем, что в ближайшие два-три года Data Science продолжит двигаться к тому, чтобы стать стратегической функцией бизнеса во многих отраслях», — прогнозирует компания.

Этап 5. Дополнительные технические навыки, необходимые в работе

Яндекс метрика: что это такое и как работает

Данные этап может занять 60-200ч, в зависимости от степени перфекционизма. Оптимальным кажется изучить всё на столько, чтобы понимать ключевые принципы и команды, но не обязательно тренироваться на большом количестве учебных примерах, т.к. если удастся устроиться на работу, то получение практики и оттачивание навыков можно делать уже в процессе работы

Conda, понимание проблем зависимостей версий библиотек, и как conda это может решить
основы bash
Python standard library, если не освоили ранее (необходимый минимум itertools, collections, contextlib), умение эффективно разбивать код на функции и модули, классы; умение применять context managers.
Основы git, также очень полезно умение работать с IDE: pycharm/vs code. Их использование облегчит работу с git, заменив графическим интерфейсом работу с командной строкой
Библиотеки визуализации (matplotlib+seaborn, plotnine, plotly), если не освоили их раньше.

С таким багажом знаний наверняка можно найти позицию джуниор дата сайентиста (может называться по-другому, но суть та же).

В принципе, на этом уровне знаний можно работать годами, практикуясь в применении разных из уже изученных моделей, библиотек и инструментов, осваивая вспомогательные методы (feature engineering), нюансы, и способы решения похожих же задач, с помощью разных библиотек (xgboost, cat-boost). Постепенно будет уровень рост ЗП. Но это не уровень Senior специалиста.

Этап 6

Углубление и развитие технических навыков

Что такое таргетированная реклама и как она работает

Если предыдущие этапы давали вам навыки, без которых работать ну вообще нельзя, то навыки этого этапа призваны повысить вашу продуктивность или повысить качество решаемых задач, повысить самостоятельность при запуске разработанных моделей машинного обучения в продакшн.

Python на хорошем уровне: декораторы, уверенное знание классов и наследования, изучение базовых классов, dunderscore __методы__ .
Уверенное пользование bash, понимание основ linux
Полезно изучить основы docker

Все эти вещи можно было бы учить и раньше. Но, как правило, раньше их знать просто не нужно. Т.к. вы больше будете страдать от нехватки других навыков, приведенных в предыдущих этапах.

Другие области машинного обучения

В какой-то момент вам может потребоваться выйти из сферы подготовки прогнозных моделей или изучения и объяснения данных (кластеризация, EDA и визуализация). Это может быть связано как с вашими интересами, так и с проектами на работе. Например, это могут быть рекомендательные системы. Наверное, базовые рекомендательные алгоритмы можно изучать и одновременно с основами машинного обучения, т.к. знание одного не является обязательным для знания другого. Но логичнее переходить к ним, когда вы уже разобрались с основными алгоритмами обучения прогнозирования и кластеризации: скорее всего, этого от вас будут ожидать любые коллеги до тех пор, как вы включитесь в работу над рекомендательными системами.

Нейронные сети

Начиная с этого этапа имеет смысл изучать нейронные сети как следует с тем, чтобы применять их на пратике. Неэффективно изучать их раньше, т.к. многие задачи эффективно можно решить другими методами. И пока ваши данные и прогнозы изначально числовые, обычно «классическими» методами их решать эффективнее.

Подробнее в этапы изучениях нейронных сетей вдаваться не стану: эта тема требует отдельной статьи. И потратить на них можно от 50, чтобы решать самые простейшие задачи, до сотен часов, чтобы решать задачи связанные с обработкой неструктурированных данных или с обучением сложных моделей.

Мой рабочий день

Обычно я встаю где-то с 7 до 10 утра, делаю завтрак и кофе в любимой гейзерной кофеварке. Если встаю рано, то использую утро для задач с максимальной концентрацией: например, чтения статьи на Хабре или Archive. До 10:30 я разбираю рабочую и личную почту и обдумываю задачи на день.

В 10:30 у нас ежедневный созвон с командой — после него я подключаюсь к VPN и начинается работа. В зависимости от загрузки я работаю до 5-8 вечера. Например, сейчас я работаю над классификатором временных рядов — это поможет выявить сезонность в банковских данных.

Вечером я преподаю Python по Zoom, а если занятий нет, езжу на тренировки по сноуборду в комплекс Снеж.ком — он всего в пяти минутах от моего дома. Если хватает времени, то сам прохожу разные курсы или читаю что-нибудь актуальное по работе, чтобы не отставать от жизни. С самодисциплиной по вечерам не очень, поэтому, к сожалению, на учебу время есть редко. Перед сном обычно залипаю в интернете или доделываю какие-то задачи. В выходные четкого расписания нет. C утра катаюсь, а днем и вечером могу делать что угодно: работать, учиться, гулять или кодить что-нибудь для себя.

Data Scientist Salary

A data scientist’s salary depends on years of experience, skillset, education, and location. According to The Burtchworks Study, employers place greater value on data scientists with specialized skills, such as Natural Language Processing or Artificial Intelligence. The BLS claims skilled computer research and information scientists, which include data scientists, enjoy excellent job prospects because of high demand. Salary data below comes from 2019 data from the Bureau of Labor Statistics.

Data Scientist
Average Data Scientist Salary: $122,840 per year
Lowest 10%: $69,990
Highest 10%: $189,780

Senior Data Scientist
Median Sr. Data Scientist Salary: $171,755
Total Pay Range: $147,000 – $200,000

Data Scientist Responsibilities

On any given day, a data scientist’s responsibilities may include:

Solving business problems through undirected research and framing open-ended industry questions
Extract huge volumes of structured and unstructured data. They query structured data from relational databases using programming languages such as SQL. They gather unstructured data through web scraping, APIs, and surveys.
Employ sophisticated analytical methods, machine learning and statistical methods to prepare data for use in predictive and prescriptive modeling
Thoroughly clean data to discard irrelevant information and prepare the data for preprocessing and modeling
Perform exploratory data analysis (EDA) to determine how to handle missing data and to look for trends and/or opportunities
Discovering new algorithms to solve problems and build programs to automate repetitive work
Communicate predictions and findings to management and IT departments through effective data visualizations and reports
Recommend cost-effective changes to existing procedures and strategies

Every company will have a different take on data science job tasks. Some treat their data scientists as data analysts or combine their duties with data engineers; others need top-level analytics experts skilled in intense machine learning and data visualizations.

As data scientists achieve new levels of experience or change jobs, their responsibilities invariably change. For example, a person working alone in a mid-size company may spend a good portion of the day in data cleaning and munging. A high-level employee in a business that offers data-based services may be asked to structure big data projects or create new products.

Профессия Data Scientist от Skillbox

Для анализа больших и неоднородных массивов данных используется технология Big Data. Машинные технологии научились делать выводы и использовать инфографику для визуализации данных. На услуги Data Scientist предъявляют спрос банки, мобильные операторы, производители программных продуктов. Уровень оплаты в Big Data стабильно высок. Обучиться профессии с нуля могут новички, а опытные программисты прокачают свои навыки. Курс от Skillbox задействует разные инструменты — языки кода, фреймворки, библиотеки и базы данных.

Освоение новых знаний происходит в контакте с наставником. Сообщество профессионалов Skillbox даёт обратную связь при выполнении заданий и помогает выпускникам с трудоустройством.

Characteristics of a Successful Data Scientist Professional

Data scientists don’t need to just understand programming languages, management of databases and how to transpose data into visualizations – they should be naturally curious about their surrounding world, but through an analytical lens. Possessing personality traits that resemble quality assurance departments, data scientists may be meticulous as they review large amounts of data and seek out patterns and answers. They are also creative in making new algorithms to crawl data or devising organized database warehouses.

Generally, professionals in the data science field must know how to communicate in several different modes, i.e to their team, stakeholders and clients. There may be a lot of dead ends, wrong turns, or bumpy roads, but data scientists should possess drive and grit to stay afloat with patience in their research.

“Successful data scientists have a strong technical background, but the best data scientists also have great intuition about data. Are the features meaningful, and do they reflect what you think they should mean? Given the way your data is distributed, which model should you be using? What does it mean if a value is missing, and what should you do with it? The best data scientists are also great at communicating, both to other data scientists and non-technical people. In order to be effective at Airbnb, our analyses have to be both technically rigorous and presented in a clear and actionable way to other members of the company.”

–Lisa Qian, Data Scientist at Airbnb

Required Skills for a Data Scientist

Programming: Python, SQL, Scala, Java, R, MATLAB

Machine Learning: Natural Language Processing, Classification, Clustering,
Ensemble methods, Deep Learning

Data Visualization: Tableau, SAS, D3.js, Python, Java, R libraries

Big data platforms: MongoDB, Oracle, Microsoft Azure, Cloudera

Что такое data science

Если переводить дословно, то data science – это наука о данных. Она позволяет обрабатывать большие объемы информации (Big Data), визуализировать результаты исследований, использовать сделанные выводы в дальнейшей работе.

Выделяют два этапа процесса:

Data. На первом этапе происходит сбор, хранение, обработка данных с выделением из общего массива полезных сведений. На него уходит до 80% рабочего времени специалистов.
Science. Применяя методы статистики, оптимизации, машинного обучения, информацию анализируют, формулируя полезные закономерности для последующего использования.

Data science, как прикладное исследование, включает:

выдвижение гипотезы;
планирование экспериментальных действий;
оценка полученного результата и его применимости к решению поставленной задачи.

Массивы информации для анализа неоднородны. Известны 3 вида данных:

структурированные;
полуструктурированные;
неструктурированные.

Наиболее сложен последний вид, так как для его цифровой обработки не подходят таблицы Exel, а требуются специальные программы.

Где учиться на Data Scientist — специалиста по большим данным

Изучение науки о данных с нуля лучше начинать сразу после окончания школы. Немногие ВУЗы обучают дата-сайентистов. Профессиональных аналитиков готовят по специальным программам ряд учебных заведений. Среди них:

Высшая Школа Экономики (ВШЭ) – факультет компьютерных наук – магистерская программа на русском и английском языках;
Московский физико-технический институт (МФТИ) – факультет инноваций и высоких технологий – магистратура;
Московский государственный университет имени М.В.Ломоносова (МГУ) – факультет вычислительной математики и кибернетики – магистерская программа на 2 года;
Санкт-Петербургский государственный университет (СПбГУ) – 2-годовая программа магистратуры на английском языке «Бизнес аналитика и большие данные».

Существуют некоммерческие курсы дополнительного образования для лиц любого возраста. Обучаться на них можно после сдачи вступительных экзаменов, преодолев необходимый порог по баллам. Срок обучения – 2 года.

Список курсов для подготовки специалистов в сфере Data science:

Школа Анализа Данных Яндекса;
Технопарк Mail.ru и МГТУ имени Баумана (упор на обучение системных инженеров);
Центр компьютерных наук (Яндекс с Jet Brains);
Петербургская школа данных (компания E-Contenta).

В интернете много коммерческих курсов по анализу данных. Их стоимость составляет 100-200 тысяч рублей. Срок обучения – от 2 до 8 месяцев. Перевод денег за учебу осуществляйте, убедившись, что выбранные курсы – не лохотрон, разводящий «чайников».

Удаленно обучиться анализу данных можно в институте интернет-профессий Нетология. В зависимости от раздела Data Science, стоимость курсов составляет от 25 до 200 тысяч рублей. Полная информация размещена на официальном сайте https://netology.ru/.

Компания Open Data Science обучает новичков и создает совместные аналитические проекты. Она организует бесплатные международные конференции по актуальным вопросам и направлениям развития, проводит конкурсы среди дата-сайентистов.

В сети доступны видео-уроки, книги, онлайн-лекции по этой тематике.

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.

Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка.

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков

Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.
Следите за Big Data Conference в Telegram, на и .

Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.

Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.

Что такое Data Science?

Пожалуй, самое лаконичное определение, которое мне удалось найти в интернете:

Я думаю, что если найти пересечение различных определений что же такое Data Science, то им будет лишь одно слово — данные. Всё это говорит о том, что широта применения Data Science огромна. Согласитесь, но ведь в этом нет ничего хорошего ни для кого: ни для вас, ни для бизнеса. Эта широта не дает никакой информации о вашей потенциальной деятельности. Ведь с данными можно делать всё, что угодно. Можно строить сложные отчеты или «шатать» таблички с помощью SQL. Можно предсказывать спрос на такси константой или строить сложные математические модели динамического ценообразования. А еще можно настроить поточную обработку данных для высоконагруженных сервисов, работающих в режиме реального времени.

А вообще, причем здесь слово «наука»? Безусловно, под капотом у Data Science серьезнейший математический аппарат: теория оптимизации, линейная алгебра, математическая статистика и другие области математики. Но настоящим академическим трудом занимаются единицы. Бизнесу нужны не научные труды, а решение проблем. Лишь гиганты могут позволить себе штат сотрудников, которые будут только и делать, что изучать и писать научные труды, придумывать новые и улучшать текущие алгоритмы и методы машинного обучения.

К сожалению, многие эксперты в этой области на разных мероприятиях зачастую связывают Data Science в первую очередь с построением моделей с помощью алгоритмов машинного обучения и довольно редко рассказывают самое важное, по-моему, — откуда возникла потребность в той или иной задаче, как она была сформулирована на «математическом языке», как это всё реализовано в эксплуатации, как провести честный эксперимент, чтобы правильно оценить бизнес-эффект

В каких случаях становятся специалистом по Data Science?

Когда нравится анализ и систематизация данных и есть интерес к передовым технологиям — дата-сайентисты работают с искусственным интеллектом, нейросетями и большими данными.
Когда хочется заниматься исследованиями и наукой на качественно новом уровне.
Когда есть опыт в обычной разработке и есть желание освоить больший набор инструментов и заниматься масштабными проектами.
Когда на текущей работе мало перспектив, хочется освоить перспективное направление и больше зарабатывать.

Глеб Синяков

аналитик-разработчик в «Тинькофф»

Всех, кто приходит в Data Science, можно разделить на четыре потока. Есть те, кто становятся дата-сайентистами после профессионального образования, но в университетах таких курсов пока немного. Также есть люди технических и научных профессий, которые хотят найти более перспективную работу с большой зарплатой. Третий поток — разработчики, которые устают от скучного программирования и ищут интересные задачи. Есть специалисты, которые начинали с нуля: если у новичков есть самодисциплина и интерес к большим данным, то они становятся хорошими дата-сайентистами. Наконец, есть те, к кому Data Science приходит сам, например к биоинформатикам.

Подробнее о том, чем занимается Глеб Синяков, читайте в рассказе о его профессии.

Соберем данные

Чтобы не быть голословным, я приведу простой пример. Соберем какие-нибудь данные.

Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе – и так далее.

Изобразим полученные данные на графике (визуализация – тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y – кофе в миллилитрах. Получим что-то вроде такого:

Заключение:

Предполагая, что в момент «развилки» не все прочитали часть 5, поэтому поделю свои впечатления на две части.

Пройдена только Data Science Fundamentals:

Ну в целом достаточно, для того, чтобы в самых общих чертах понять, что такое Data Science. Подготовки никакой не требуется, ни мат. анализом ни статистикой, ни программированием можно не владеть, главное «шпрейхать по-аглицки».

Думаю, итак очевидно, что за один день вы ничего толком не выучите и на 1500000 млн. рублей зарплату рассчитывать не стоит (я надеюсь вы еще не успели открыть «Хантер» и создать резюме?)

По идее этот курс должен развить у вас интерес к предмету и не напугать, в принципе разработчикам это удалось.

Пройдена Data Science Fundamentals + Data Science for Business + Statistics 101:

Рушит все надежды, потому что по-настоящему толковая практика так и не попалась, а курсы Data Science for Business + Statistics 101 выполнены несколько хуже по качеству чем Data Science Fundamentals, да еще и требуют установки триал версий программ от IBM.

Примеры в задачках не абы какие и оторваны во многом от реальности.

Наверное, пройдя все это, вы возможно, сдлаете для себя вывод — Data Science это ваше или нет, было ли вам до ужаса скучно или вы в восторге от колдовства над данными.

Подводя итог: Представленные курсы по пользе напоминают ситуацию, как если бы вас не умеющего водить машину, посадили бы за руль нормального автомобиля с автоматической коробкой передач, показали бы вам где газ и тормоз, как заводить машину и заливать бензин, как включить фары и дворники, ну и в конце под контролем дали бы проехать пару километров по проселочной дороге. С одной стороны водителем вы точно после этого не станете, с другой стороны если вы будете спасаться от маньяка с бензопилой возможно эти знания сохранят вашу жизнь. Ровно также и с этими курсами.

В любом случае, всем кто потратил время на обучение по программе от Cognitive class, советую не останавливаться на достигнутом. В конце концов даже у них там еще много чего интересного (Big Data, Hadoop, Scala и т.п.)

Спасибо за внимание, всем удачной недели!

UPD: Последующие статьи цикла ниже под спойлером: