В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab).
NumPy (произносится как нампай) – это один из основных пакетов для вычислений в Python. Он содержит функциональные возможности для работы с многомерными массивами и различными математическими функциями. Основа NumPy – это объект ndarray, n-мерный массив. В Python массив NumPy – это базовая структура данных. Библиотека scikit-learn, с помощью которой мы будем строить модели, требует, чтобы данные были записаны в виде массивов NumPy. Датафреймы pandas, с которыми мы познакомимся позднее, также будут внутренне преобразованы библиотекой scikit-learn в массивы NumPy. Массивы похожи на списки Python, за исключением того, что элементы массива должны иметь одинаковый тип данных, как float и int. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее, чем со списками.
Pandas – одна из самых популярных библиотек для исследования данных с открытым исходным кодом, доступных в настоящее время. Она дает своим пользователям возможность исследовать, манипулировать, запрашивать, агрегировать и визуализировать табличные данные. Табличные данные относятся к двумерным данным, состоящим из строк и столбцов. Обычно мы называем такую организованную структуру данных таблицей. pandas – это инструмент, который мы будем использовать для анализа данных почти в каждом разделе этой книги.
Matplotlib (произносится как матплотлиб) – это основная библиотека для построения научных графиков в Python. Она включает функции для создания визуализаций типа линейных диаграмм, круговых диаграмм, гистограмм, диаграмм разброса и т. д. Библиотека matplotlib имеет иерархическую структуру. Наиболее простыми для понимания являются высокоуровневые функции. Поэтому знакомство с библиотекой matplotlib обычно начинают с самого высокоуровневого интерфейса, предлагаемого модулем pyplot.
Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
Список книг: 1) Предварительная подготовка данных в Python: Том 1. Инструменты и валидация 2) Предварительная подготовка данных в Python. Том 2. План, примеры и метрики качества
Разместите ссылку на эту страницу в социальных сетях. Так о ней узнают тысячи человек:
Facebook
Twitter
Мой мир
Вконтакте
Одноклассники
Нашли ошибку? Сообщите администрации сайта: Выберите один из разделов меню и, если необходимо, напишите комментарий
За ложную информацию бан на месяц
Разместите, пожалуйста, ссылку на эту страницу на своём веб-сайте:
Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
Основы научных расчётов на языке программирования Python — Излагаются основы научных расчётов на языке программирования Python. Приводятся и демонстрируются базовые возможности библиотек NumPy для работы с многомерными массивами, Matplotlib для визуализации данных и SciPy для научных расчётов и анализа данных.
Python стал одним из самых популярных языков, применяемых в машинном обучении для выполнения научных и коммерческих проектов. Он объединяет в себе возможности языков программирования общего назначения с простотой использования скриптовых предметно-ориентированных языков типа R. Python предлагает библиотеки для cбора данных из Интернета, построения ...
Биоинформатика — активная область исследований, в которой используется ряд простых и сложных вычислений для извлечения ценной информации из биологических данных. Из книги вы узнаете, как управлять этими задачами с помощью языка Python. Вы рассмотрите ключевые методы секвенирования нового поколения, анализа отдельных клеток, геномики, метагеномики, ...
Python — первоклассный инструмент, и в первую очередь благодаря наличию множества библиотек для хранения, анализа и обработки данных. Отдельные части стека Python описываются во многих источниках, но только в новом издании «Python для сложных задач» вы найдете подробное описание: IPython, NumPy, Pandas, Matplotlib, Scikit-Learn и др. Специалисты по ...
Данный материал НЕ НАРУШАЕТ авторские права никаких физических или юридических лиц. Если это не так - свяжитесь с администрацией сайта. Материал будет немедленно удален. Электронная версия этой публикации предоставляется только в ознакомительных целях. Для дальнейшего её использования Вам необходимо будет приобрести бумажный (электронный, аудио) вариант у правообладателей.