Статистические методы — ключевая часть науки о данных, однако лишь немногие ученые, работающие с данными, имеют формальное статистическое образование. Курсы и книги по базовой статистике редко освещают эту тему с точки зрения науки о данных. Второе издание этого популярного руководства содержит подробные примеры на Python, предоставляет практические рекомендации по применению статистических методов в науке о данных, рассказывает, как избежать их неправильного использования, и дает советы о том, что важно, а что нет.
Многие ресурсы по науке о данных включают статистические методы, но не имеют более глубокой статистической перспективы. Если вы знакомы с языками программирования R или Python и имеете представление о статистике, этот краткий справочник восполнит пробел в доступном и читаемом формате.
Из этой книги вы узнаете:
Почему исследовательский анализ данных является ключевым предварительным шагом в науке о данных
Как случайная выборка может уменьшить систематическую ошибку и обеспечить более качественный набор данных даже при работе с большими данными
Как принципы планирования эксперимента дают окончательные ответы на вопросы.
Как использовать регрессию для оценки результатов и обнаружения аномалий.
Основные методы классификации для прогнозирования, к каким категориям принадлежит запись
< p>Статистические методы машинного обучения, которые «обучаются» на данных
Методы обучения без учителя для извлечения значения из неразмеченных данных.