Лаборатория обработки данных сверхбольшого объёма (Big Data Lab)

Создана в 2014 году. 
Программно-аппаратный комплекс обработки данных сверхбольшого объёма, объединяющий специализированный программно-аппаратный комплекс хранения и аналитического анализа структурированных данных IBM Puredata for Analytics (Netezza) с объёмом дискового пространства не менее 96ТБайт (с учетом 4-х кратного сжатия и полной репликации данных) и Hadoop-кластер распределённого хранения и аналитической обработки неструктурированных данных (сервер управления IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт памяти; 2 диска по 600ГБ) и четыре сервера обработки данных IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт оперативной памяти; 8TB дисковой памяти).
Основная особенность хранилища данных IBM Puredata for Analytics (Netezza) – интеграция РСУБД и специализированного аналитического инструментария с аппаратными ускорителями запросов на основе FPGA, что обеспечивает на задачах аналитики ускорение от 10 до 100 раз по сравнению с традиционными СУБД.
Учебные курсы:
  • "Интеллектуальный анализ данных" для магистров по направлению 010400.68 – Прикладная математика и информатика.
  • "Методы и технологии обработки сверхбольшого объёма данных (больших данных)" в рамках образовательной программы дополнительного профессионального образования (повышения квалификации).
  • "Принятие управленческих решений с использованием технологий BIG DATA: новые возможности и перспективы в государственном и муниципальном управлении" в рамках Программы дополнительного профессионального образования для заместителей руководителей органов государственной власти Самарской области.
Лабораторные практикумы:
  • Основы работы с большими данными в среде Hadoop на платформе IBM InfoSphere BigInsights.
  • Введение в инструмент анализа больших данных BigSheets.
  • Обработка структурированных данных в среде Hadoop с использованием Big SQL.
  • Обработка больших данных с использованием Hive.
  • Введение в базовые операции Apache Spark.
Опыт исследований:
  • анализ логов и регистрируемых контрольных параметров крупного сегмента сетевого оборудования телекоммуникационной компании (одна из компаний "большой тройки") с целью прогноза моментов времени и степени серьёзности отказов оборудования для выбора способа реагирования на них сервисных служб;
  • анализ социальных сетей (на примере обработки потока twitter-сообщений);
  • развёртывание и сравнительное исследование технологий потоковой обработки Apache Spark, IBM InfoSphere Streams, Apache Storm, Apache Flume, Apache Flink на задачах анализа потоковых видео данных в реальном времени.
Есть опыт разработки систем быстрой обработки и анализа потоковых видео данных в реальном времени: обнаружение лиц в потоке видеоданных с последующим распознаванием по текущей базе персонала.