Зарегистрироваться
Восстановить пароль
FAQ по входу

Грас Джоэл. Data Science. Наука о данных с нуля

  • Файл формата pdf
  • размером 9,72 МБ
  • Добавлен пользователем
  • Описание отредактировано
Грас Джоэл. Data Science. Наука о данных с нуля
Перевод с английского. — СПб: БХВ-Петербург, 2017. — 336 с. — ISBN 978-5-9775-3758-2.
Книга позволяет изучить науку о данных (Data Science) и применить полученные знания на практике. Она написана так, что способствует погружению в Data Science аналитика, фактически не обладающего глубокими знаниями в этой прикладной дисциплине.
В объёмах, достаточных для начала работы в области Data Science, книга содержит интенсивный курс языка Python, элементы линейной алгебры, математической статистики, теории вероятностей, методов сбора, очистки, нормализации и обработки данных. Даны основы машинного обучения. Описаны различные математические модели и их реализации по методу k ближайших соседей, наивной байесовской классификации, линейной и логистической регрессии, а также модели на основе деревьев принятия решений, нейронных сетей и кластеризации. Рассказано о работе с рекомендательными системами, описаны приёмы обработки естественного языка, методы анализа социальных сетей, основы баз данных, SQL и MapReduce.
Предисловие
Наука о данных
С чистого листа
Условные обозначения, принятые в книге
Использование примеров кода
Благодарности
Комментарий переводчика
Python 2 и Python 3
Установка и удаление дистрибутива Anaconda
Настройка дистрибутива Anaconda
Установка инструментальной среды Spyder
Настройка инструментальной среды Spyder
Настройка среды Spyder с Python для работы с Python
Факультативно
Запуск сервера записных книжек Jupyter
Установка библиотек Python из whl-файла
Подготовка среды Python в ОС Ubuntu Linux
Управление пакетами .deb в Ubuntu Linux
Об авторе
Введение
Господство данных
Что такое наука о данных?
Оправдание для выдумки: DataSciencester
Поиск ключевых звеньев
Аналитики, которых вы должны знать
Зарплаты и опыт работы
Оплата премиум-аккаунтов
Популярные темы
Вперед
Интенсивный курс языка Python
Основы
Установка
Дзен языка Python
Пробельные символы
Модули
Арифметические операции
Функции
Строки
Исключения
Списки
Кортежи
Словари
Словарь defaultdict
Словарь Counter
Множества
Управляющие конструкции
Истинность
Не совсем основы
Сортировка
Генераторы последовательностей
Функции-генераторы и генераторные выражения
Случайные числа
Регулярные выражения
Объектно-ориентированное программирование
Инструменты функционального программирования
Функция enumerate
Функция ZIP и распаковка аргументов
Переменные args и kwargs
Добро пожаловать в DataSciencester!
Для дальнейшего изучения
Визуализация данных
Библиотека matplotlib
Столбчатые диаграммы
Линейные графики
Точечные диаграммы
Для дальнейшего изучения
Линейная алгебра
Векторы
Матрицы
Для дальнейшего изучения
Статистика
Описание одиночного набора данных
Показатели центра распределения
Показатели вариации
Корреляция
Парадокс Симпсона
Некоторые другие ловушки корреляции
Корреляция и причинная зависимость
Для дальнейшего изучения
Теория вероятностей
Зависимость и независимость
Условная вероятность
Теорема Байеса
Случайные величины
Непрерывные распределения
Нормальное распределение
Центральная предельная теорема
Для дальнейшего изучения
Гипотеза и вывод
Проверка статистических гипотез
Пример: бросание монеты
Р-значения
Доверительные интервалы
Подгонка р-значения
Пример: проведение А/В-тестирования
Байесовский статистический вывод
Для дальнейшего изучения
Градиентный спуск
Идея в основе метода градиентного спуска
Вычисление градиента
Использование градиента
Выбор оптимального размера шага
Собираем все вместе
Стохастический градиентный спуск
Для дальнейшего изучения
Сбор данных
Объекты stdin и stdout
Чтение файлов
Основы работы с текстовыми файлами
Файлы с разделителями
Извлечение данных из веб-ресурсов
Анализ кода HTML
Пример: книги об анализе данных издательства O'Relly
Использование программных интерфейсов
Формат JSON (и XML)
Использование непроверенного APl
Поиск API
Пример: использование интерфейсов Twitter API
Получение учетных данных
Использование Twython
Для дальнейшего изучения
Обработка данных
Исследование данных
Исследование одномерных данных
Двумерные данные
Многомерные данные
Очистка и форматирование
Управление данными
Шкалирование
Снижение размерности
Для дальнейшего изучения
Машинное обучение
Моделирование
Что такое машинное обучение?
Переобучение и недообучение
Правильность модели
Компромисс между смещением и дисперсией
Извлечение и отбор признаков
Для дальнейшего изучения
К ближайших соседей
Модель
Пример: предпочтительные языки
Проблема проклятия размерности
Для дальнейшего изучения
Наивный Байес
Действительно глупый спам-фильтр
Более продуманный спам-фильтр
Реализация
Тестирование модели
Для дальнейшего изучения
Простая линейная регрессия
Модель
Применение метода градиентного
Метод максимального правдоподобия
Для дальнейшего изучения
Множественная регрессия
Модель
Другие допущения модели наименьших
Подбор модели
Интерпретация модели
Качество подбора модели
Отступление: бутстрапирование данных
Стандартные ошибки коэффициентов
Регуляризация
Для дальнейшего изучения
Логистическая регрессия
Задача
Логистическая функция
Применение модели
Качество подбора модели
Метод опорных векторов
Для дальнейшего изучения
Деревья принятия решений
Что такое дерево принятия решений?
Энтропия
Энтропия разбиения
Создание дерева принятия решений
Для дальнейшего изучения
Нейронные сети
Перцептроны
Нейронные сети прямого распространения
Метод обратного распространения ошибки
Пример: преодоление капчи
Для дальнейшего изучения
Кластеризация
Идея
Модель
Пример: встречи для специалистов
Выбор числа k
Пример: кластеризация цвета
Восходящий метод иерархической кластеризации
Для дальнейшего изучения
Обработка естественного языка
Облака слов
N-граммные модели языка
Грамматики
Ремарка: метод сэмплирования по Гиббсу
Тематическое моделирование
Для дальнейшего изучения
Анализ социальных сетей
Центральность по посредничеству
Центральность собственного вектора
Умножение матриц
Центральность
Направленные графы и рейтинг PageRank
Для дальнейшего изучения
Рекомендательные системы
Неавтоматическое кураторство
Рекомендация популярных тем
Коллаборативная фильтрация на основе пользователя
Коллаборативная фильтрация по схожести предметов
Для дальнейшего изучения
Базы данных и SQL
Операторы CREATE TABLE и INSERT
Оператор UPDATE
Оператор DELETE
Оператор SELECT
Оператор GROUP ВУ
Оператор ORDER ВУ
Оператор JOJN
Подзапросы
Индексы
Оптимизация запросов
Базы данных NoSQL
Для дальнейшего изучения
Распределенные вычисления MapReduce
Пример: подсчет частотности слов
Почему MapReduce?
MapReduce в более общей реализации
Пример: анализ обновлений ленты новостей
Пример: умножение матриц
Ремарка: сумматоры
Для дальнейшего изучения
Идите и займитесь аналитикой
Интерактивная оболочка IPython
Математический аппарат
Не с чистого листа
Библиотека NumPy
Библиотека pandas
Библиотека scikit-learn
Визуализация
Язык программирования R
Где найти данные?
Занятия анализом данных
Новости хакера
Пожарные машины
Футболки
А вы?
Предметный указатель
  • Чтобы скачать этот файл зарегистрируйтесь и/или войдите на сайт используя форму сверху.
  • Регистрация