Data analysis. NumPy. Часть 1



Скачать 107.25 Kb.
страница1/3
Дата09.07.2018
Размер107.25 Kb.
ТипСтатья
  1   2   3

Data analysis. NumPy. Часть 1

февраля 18, 2018

Эта статья первая в серии про базовый набор инструментов для первичного анализа данных с помощью Python.


В первую очередь рассмотрим базовую библиотеку для работы с многомерными массивами NumPy.
Pandas позволяет эффективно работать с неоднородными данными. Удобно загружать, обрабатывать и анализировать табличные данные  с помощью SQL-подобных запросов.
С помощью Matplotlib, Seaborn, Plotly реализуется отличная визуализация.

Часть 1. Введение в NumPy
Часть 2. Подробней о NumPy
Часть 3. Первичный анализ. Pandas
Часть 4. Визуализация. Matplotlib и Seaborn
Часть 5. Немного machine learning с помощью scikit-learn
Часть 6. Больше данных. Обучение с Vowpal Wabbit

В статье будет описания и различного рода заметки, а примеры с комментариями написаны в jupyter notebook



NumPy — это библиотека языка Python, добавляющая поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых математических функций для операций с этими массивами.
Создания массивов (notebook)

https://4.bp.blogspot.com/-f7sdn3lzxi0/wolqswznwki/aaaaaaaaefa/xypnfgwtgpq-ura2y2rwmummcvcgefjsgclcbgas/s640/anatomyarrayrus.png

ссылка на оригинальную картинку
Базовые операции с массивами (notebook)


  • атрибуты массивов - размер, форма, объем, тип

  • индексация - получение и задание значений элементам

  • срезы - получение и задания подмассивов

  • изменение формы массива

  • слияние и разбиение массовов

Срезы массивов возвращают представления(views), а не копии(copies) данных массива. Этим срезы массивов Numpy отличаются от срезов списков.



Вычисления над массивами (notebook)


  • Арифметические функции

  • Абсолютное значение

  • Тригонометрические функции

  • Показательные функции и логарифмы

  • Указание массива для вывода результата

  • Сводные показатели

Универсальные функции(universal functions, ufuncs) в Numpy могут намного ускорить выполнение повторяющихся вычислений над элементами массивов.
Проблемы возникают при повторении множества мелких операций, например при выполнении обработки всех элементов массива в цикле. Проблема в проверки типов и диспетчеризации функций, выполняемых CPython. Каждый раз Python сначала проверяет тип обьекта и выполняет динамический поиск подходящей для этого типа функции.
Библиотека Numpy предоставляет для многих типов операций удобный интерфейс для компилируемой процедуры со статической типизацией. Векторизованный подход спроектирован так, чтобы переносить цикл в скомпилированный слой.
Существует два вида универсальных функций: унарные универсальные функции, с одним аргументов, и бинарные, с двумя.

Агрегирование (notebook)


  • Минимум, максимум, сума и пр

  • Многомерные сводные показатели

Ключевое слово axis задает измерение массива, которое будет "схлопнуто"(collapsed), а не возвращаемое измерение.

В следующей части рассмотрим транслирование,  сравнение, "прихотливая" индексация, сортировка и т.д.



Data analysis. NumPy. Часть 2

марта 11, 2018

Это вторая статья в серии, где мы знакомимся с базовый набор инструментов для первичного анализа данных с помощью Python.


В этой части рассмотрим транслирование(broadcasting), сравнения массивов и маски, "прихотливая" индексация (fancy indexing), сортировки и структурированные данные.

Часть 1. Введение в NumPy


Поделитесь с Вашими друзьями:
  1   2   3


База данных защищена авторским правом ©psihdocs.ru 2017
обратиться к администрации

    Главная страница