Аналитика данных — это анализ необработанных данных, результатом которого должны стать выводы о содержащейся в них информации, выявление закономерностей и извлечение информации, имеющей практическую ценность. Главная цель — использовать ценные сведения для важных решений в организации и достижения реальных целей. Поэтому аналитику данных также называют бизнес-аналитикой.
С технической точки зрения аналитика данных представляет собой процесс очистки, подготовки, преобразования, моделирования и обработки данных для выявления ценной информации, получения обоснованных выводов и помощи в принятии решений. Из-за технического характера многие методы и процессы аналитики данных были автоматизированы с применением компьютерных алгоритмов для подготовки необработанных данных к использованию человеком. В зависимости от этапа рабочего процесса и требований к анализу данных существуют четыре основных вида аналитики с разной глубиной анализа: описательная, диагностическая, прогнозная и предписывающая.
Наборы данных в сценариях аналитики очень большие и сложные, поэтому для выявления закономерностей и ценной информации были определены четыре вида аналитики данных. Первые два —описательная и диагностическая аналитика — ориентированы на анализ прошлого и наиболее просты в использовании. Задачи прогнозной и предписывающей аналитики — понять будущее с помощью имеющихся данных. Эти два вида сложнее, но позволяют получить более ценную информацию.
Аналитика данных находит различное применение в компаниях и отраслях. Наиболее распространены веб-аналитика, позволяющая сделать выводы о поведении пользователей сайта на основе его трафика, и аналитика финансовых данных, используемая для создания необходимых отчетов по наборам финансовых данных. Кроме того, технологические тенденции продолжают продвигать аналитические возможности в новые области, такие как периферийные вычисления, где автоматизированный удаленный анализ значительно сокращает задержку и позволяет преодолеть проблемы современных технологий для периферии, связанные с изобилием данных.
Существует множество ролей, связанных с аналитикой бизнес-данных (поставщики данных, потребители данных и специалисты по подготовке данных), но роль разработки и проектирования конвейера данных между поставщиками и потребителями принадлежит специалистам по подготовке данных. В этой категории есть следующие роли, способствующие тому, чтобы необработанные данные превратились в ценный актив:
Высокая скорость обработки позволила сложному ПО как анализировать данные в реальном времени, так и оценивать старые результаты. Однако следует понимать, что эти процессы отличаются и направлены на разные цели.
Рассмотрим, к примеру, сетевой мониторинг, в рамках которого старые данные и поступающие в реальном времени используются по-разному. Пока трафик проходит по сети, маршрутизаторы и коммутаторы могут выявлять нежелательные пакеты данных путем сравнения сигнатур с базой данных об известных угрозах. Аналогично, благодаря автоматизации, интеллектуальный мониторинг сети в реальном времени может перенаправлять трафик, изменять настройки и даже выполнять незначительные задачи, восстанавливающие сеть. Анализ данных в реальном времени требует скорости и вычислительной мощности, достаточных для быстрого приема больших объемов данных. При этом скорости и автоматизации часто отдается предпочтение перед глубоким анализом данных.
Однако в случае вторжения в сеть и преступных действий, иногда требующих тщательного расследования, старые записи данных о сети могут оказаться единственным источником истины для аналитиков. Тем не менее поддержание источника истины связано с рядом трудностей. Обычно журналы регистрации трафика старше нескольких недель удаляются, чтобы снизить затраты на хранение данных. Хотя сводку сетевого трафика можно сохранить, детали будут потеряны, что может сделать невозможным тщательное расследование.
Поставщики услуг аналитики данных предоставляют предприятиям множество решений для достижения их целей в сфере анализа данных. Существуют автономные инструменты для работы с данными, но аналитические платформы предлагают предприятиям решения с широкими возможностями поглощения, организации, обнаружения и анализа их данных.
Некоторые платформы требуют участия ИТ-специалистов для настройки аналитической среды, подключения источников данных и подготовки данных к использованию, в то время как другие просты в использовании даже для людей без специальных знаний. Эти удобные платформы предлагают самообслуживание и позволяют потребителям данных подготавливать, моделировать и преобразовывать данные нужным образом для принятия бизнес-решений.
К платформам можно отнести программное обеспечение для аналитики данных со следующими комплексными функциями:
Аналитика данных и большие данные — это термины, значения которых часто очень близки, поэтому их можно спутать. Аналитика данных — поиск закономерностей в данных, обычно структурированных. Их наборы значительно меньше, чем в случае больших данных. Статистический анализ — основной инструмент анализа данных. Кроме того, цель обычно ориентирована на бизнес-задачи.
Аналитика больших данных характеризуется высоким разнообразием структурированных, полуструктурированных и неструктурированных данных, полученных из различных источников, таких как социальные сети, мобильные устройства, интеллектуальные устройства, текст, голос, датчики Интернета вещей и обычный Интернет, а также высокой скоростью и большим объемом в конвейере данных.
Размер больших данных не регламентирован официально, однако для eBay и Walmart операции с большими данными измеряются в терабайтах и петабайтах, а для Google и Amazon — в зеттабайтах. После сбора данные могут находиться в неструктурированной форме в озерах данных, доступных для обработки специалистам по подготовке данных. После обработки отфильтрованные и структурированные данные помещаются в хранилища данных для использования потребителями.