Лаборатория обработки данных сверхбольшого объёма (Big Data Lab)
Создана в 2014 году.
Программно-аппаратный комплекс обработки данных сверхбольшого объёма, объединяющий специализированный программно-аппаратный комплекс хранения и аналитического анализа структурированных данных IBM Puredata for Analytics (Netezza) с объёмом дискового пространства не менее 96ТБайт (с учетом 4-х кратного сжатия и полной репликации данных) и Hadoop-кластер распределённого хранения и аналитической обработки неструктурированных данных (сервер управления IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт памяти; 2 диска по 600ГБ) и четыре сервера обработки данных IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт оперативной памяти; 8TB дисковой памяти).
Основная особенность хранилища данных IBM Puredata for Analytics (Netezza) – интеграция РСУБД и специализированного аналитического инструментария с аппаратными ускорителями запросов на основе FPGA, что обеспечивает на задачах аналитики ускорение от 10 до 100 раз по сравнению с традиционными СУБД.
Учебные курсы:
- «Интеллектуальный анализ данных» для магистров по направлению 010400.68 – Прикладная математика и информатика.
- «Методы и технологии обработки сверхбольшого объёма данных (больших данных)» в рамках образовательной программы дополнительного профессионального образования (повышения квалификации).
- «Принятие управленческих решений с использованием технологий BIG DATA: новые возможности и перспективы в государственном и муниципальном управлении» в рамках Программы дополнительного профессионального образования для заместителей руководителей органов государственной власти Самарской области.
Лабораторные практикумы:
- Основы работы с большими данными в среде Hadoop на платформе IBM InfoSphere BigInsights.
- Введение в инструмент анализа больших данных BigSheets.
- Обработка структурированных данных в среде Hadoop с использованием Big SQL.
- Обработка больших данных с использованием Hive.
- Введение в базовые операции Apache Spark.
Опыт исследований:
- анализ логов и регистрируемых контрольных параметров крупного сегмента сетевого оборудования телекоммуникационной компании (одна из компаний «большой тройки») с целью прогноза моментов времени и степени серьёзности отказов оборудования для выбора способа реагирования на них сервисных служб;
- анализ социальных сетей (на примере обработки потока twitter-сообщений);
- развёртывание и сравнительное исследование технологий потоковой обработки Apache Spark, IBM InfoSphere Streams, Apache Storm, Apache Flume, Apache Flink на задачах анализа потоковых видео данных в реальном времени.
Есть опыт разработки систем быстрой обработки и анализа потоковых видео данных в реальном времени: обнаружение лиц в потоке видеоданных с последующим распознаванием по текущей базе персонала.