Практические примеры анализа больших наборов данных с использованием Python и Spark
Книга посвящена практическим методам анализа больших объемов данных с использованием языка Python и фреймворка Spark, она знакомит с моделью программирования Spark и основами системы с открытым исходным кодом PySpark. Каждая глава описывает отдельный аспект анализа данных, показаны основы обработки данных в PySpark и Python на примере очистки данных, подробно освещается машинное обучение с помощью Spark. Книга поможет читателю понять, как устроен и работает весь конвейер PySpark для комплексной аналитики больших наборов данных: от создания и оценки моделей до очистки, предварительной обработки и исследования данных с особым акцентом на производственные приложения. Отдельные главы посвящены обработке изображений и библиотеке Spark NLP.
Как устроена эта книга: В главе 1 мы рассмотрим Spark и PySpark в более широком контексте науки о данных и анализа больших данных. Далее в каждой главе будет описан отдельный аспект анализа данных с использованием PySpark. Глава 2 познакомит с основами обработки данных в PySpark и Python на примере очистки данных. Следующие несколько глав посвящены машинному обучению с помощью Spark и демонстрируют применение некоторых наиболее распространенных алгоритмов в канонических приложениях. Остальные главы представляют собой скорее набор разрозненных тем и рассказывают о применении Spark для решения несколько более экзотических задач — например, для запросов к Википедии через скрытые семантические связи в тексте, анализа данных геномики и выявления похожих изображений.
Эта книга не рассказывает о достоинствах и недостатках PySpark. Книга знакомит с моделью программирования Spark и основами PySpark — API Python для Spark. Тем не менее она не претендует на то, чтобы служить справочником по Spark или быть исчерпывающим путеводителем по всем закоулкам Spark. Она также не претендует на роль справочника по машинному обучению, статистике или линейной алгебре, хотя во многих главах содержится небольшой вводный материал перед их использованием.
Эта книга поможет читателю понять, как устроен и работает весь конвейер PySpark для комплексной аналитики больших наборов данных, а это не только создание и оценка моделей, но также очистка, предварительная обработка и исследование данных с особым акцентом на производственные приложения. Мы верим, что лучший способ научить этому — личный пример и опыт.
Разместите ссылку на эту страницу в социальных сетях. Так о ней узнают тысячи человек:
Facebook
Twitter
Мой мир
Вконтакте
Одноклассники
Нашли ошибку? Сообщите администрации сайта: Выберите один из разделов меню и, если необходимо, напишите комментарий
За ложную информацию бан на месяц
Разместите, пожалуйста, ссылку на эту страницу на своём веб-сайте:
Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
Если у вас уже есть положительный опыт использования Spark для решения небольших задач, но вы по-прежнему ломаете голову – где та самая непревзойденная производительность Spark, позволяющая перемалывать колоссальные объемы данных – то эта книга для вас. Она расскажет, как эффективно использовать Spark для укрощения больших данных и вырасти из нович ...
Key FeaturesSet up real-time streaming and batch data intensive infrastructure using Spark and PythonDeliver insightful visualizations in a web app using Spark (PySpark)Inject live data using Spark Streaming with real-time eventsBook Description
Машинное обучение наконец-то достигло стадии зрелости. При помощи программного обеспечения H2O вы можете решать задачи машинного обучения и анализа данных с использованием простого в использовании и открытого (open source) фреймворка, который поддерживает большое количество операционный систем и языков программирования, а также масштабируется для о ...
Данный материал НЕ НАРУШАЕТ авторские права никаких физических или юридических лиц. Если это не так - свяжитесь с администрацией сайта. Материал будет немедленно удален. Электронная версия этой публикации предоставляется только в ознакомительных целях. Для дальнейшего её использования Вам необходимо будет приобрести бумажный (электронный, аудио) вариант у правообладателей.