ru_ru

Часто задаваемые вопросы о типах данных

КАКИЕ ТИПЫ ДАННЫХ СУЩЕСТВУЮТ?

Цифровая революция и распространение больших данных привели к тому, что даже на среднем по размеру предприятии объем данных стал огромным. По итогам проведенного в 2017 г. исследования Data Age 2025: The Evolution of Data to Life-Critical компания IDC спрогнозировала увеличение глобального объема данных к 2025 г. до 163 ЗБ (зеттабайт, или один триллион гигабайтов).

Появление больших данных породило широкое разнообразие их типов, которыми компании должны управлять и которые необходимо защищать. К ним относятся описанные ниже типы.

  • Структурированные данные. В основном являются числовыми и поступают из транзакционных систем и технических инструментов, таких как системы планирования ресурсов предприятия (ERP).
  • Неструктурированные данные. Состоят из файлов произвольных типов, например изображений, аудио- и видеозаписей или файлов Microsoft Office, которые не подчиняются единым правилам.
  • Частично структурированные данные. Представляют собой смесь этих типов: файл может содержать числовые данные, но их трудно извлечь. Примером может служить электронная таблица Microsoft Excel.

Каждый из этих типов создает уникальные проблемы при разработке стратегии управления данными, которая позволяла бы хранить информацию с обеспечением ее конфиденциальности и безопасности и в соответствии с нормативными актами.

ЧТО ТАКОЕ СТРУКТУРИРОВАННЫЕ ДАННЫЕ?

Большинство компаний ясно понимают, что такое структурированные данные. Обычно они имеют табличный формат и явные метаданные, например дату. Как правило, числовые структурированные данные поступают из транзакционных систем, баз данных и внутренних приложений (например, систем ERP). Несмотря на огромный объем структурированных данных, зачастую управление ими, их анализ и использование не представляют сложности благодаря тому, что они четко определены.

ЧТО ТАКОЕ НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ?

Понимание и извлечение ценности из неструктурированных данных для большинства организаций представляет собой гораздо более сложную задачу. Неструктурированные данные имеют множество форматов разной степени сложности, таких как изображения, аудиофайлы, файлы офисных программ и отсканированные рукописные заметки. Эти данные могут поступать откуда угодно: из внутренних и внешних систем, от третьих сторон, через периферийные устройства и из других источников.

Неструктурированные данные не подчиняются строгим правилам и не имеют общего формата, поэтому управлять ими и применять к ним согласованную стратегию управления непросто. Однако в них может содержаться критически важная информация, которая необходима организациям в современных условиях высокой конкуренции и постоянной доступности.

Например, рассмотрим случай, когда клиент оставляет важную жалобу на голосовой почте. Для извлечения пользы из аудиофайла необходимо воспроизвести его с помощью программного приложения. Кто-то должен прослушать эту запись, а другой человек должен решить, какая информация в нем ценна, а какая нет. Преобразование аудио в текст в рамках стратегии обработки данных обеспечивает представление записи в согласованной форме, так что ее при необходимости может интерпретировать любое лицо с соответствующими правами доступа. Это также позволяет объединять голосовые сообщения с другими формами аналитики без компрометации первичного источника.

Другим примером неструктурированных данных, содержащих ключевые сведения, могут служить рукописные заметки технического специалиста, обслуживающего важный компонент производственного оборудования. Что касается сторонних данных, долгосрочный прогноз погоды или негативная публикация в социальных сетях со стороны влиятельного человека может существенно повлиять на спрос на некоторые продукты. Потенциальная ценность подобных данных очевидна.

ЧТО ТАКОЕ ЧАСТИЧНО СТРУКТУРИРОВАННЫЕ ДАННЫЕ?

Наконец, частично структурированные данные представляют собой гибрид этих двух типов. К ним может относиться электронная таблица Excel с важными финансовыми данными, которые трудно извлечь. Объекты данных могут иметь внутреннюю структуру, но внешняя структура, необходимая для стандартных процессов управления данными, отсутствует. Как и неструктурированные данные, такие объекты могут содержать важные сведения, которые трудно извлечь и использовать без интеллектуальной стратегии управления данными.

К частично структурированным данным относится любая информация, имеющая схему с самоописанием, например XML или JSON. Эти типы данных имеют открытую схему, которая обеспечивает гибкость данных приложения. Иногда такие данные используются в сочетании со структурированными для фиксации дополнительных свойств определенных типов записей в хранилище структурированных данных.

Открытая схема означает, что внутренняя структура частично структурированных данных не зависит от приложения, в котором они были созданы. Например, база данных Oracle относится к структурированным данным. Правила, которым она подчиняется, привязаны к приложению, в котором создается файл (в данном случае — база данных).

Что касается частично структурированных наборов данных, определения и ограничения внедрены в файл и не зависят от исходного приложения. Например, XML-файлы и каскадные таблицы стилей для веб-страниц — это формы частично структурированных данных. Их можно создавать практически в любом приложении, например в Блокноте, конструкторе веб-сайтов или приложении Office, таком как Word, поэтому приложение не может определять структуру или правила для данных такого типа.

Частично структурированными данными сложно управлять, так как они могут не обладать той же упорядоченностью и предсказуемостью, что и структурированные данные. Они не содержатся в фиксированных полях и записях. В то же время они имеют более строгую внутреннюю структуру по сравнению с неструктурированными, так как содержат элементы, позволяющие организовывать данные иерархически (пример: файлы с данными, разделенными запятыми или символами табуляции).

В отличие от структурированных данных, которые представлены в форме плоской таблицы, частично структурированные данные могут содержать n уровней вложения информации. Это означает, что к частично структурированным данным можно легко применять стандартные процессы управления и в то же время извлекать из них ценные сведения. Нужно лишь обеспечить организацию инструментами и технологиями для загрузки данных в структурированные или неструктурированные модели данных, к которым можно применять процессы управления.

КАКИЕ ДВЕ ВАЖНЕЙШИЕ ПРОБЛЕМЫ СВЯЗАНЫ С ЭТИМИ ТИПАМИ ДАННЫХ?

Вне всякого сомнения, важнейшая проблема, стоящая сегодня перед бизнесом, — это взрывной рост объемов неструктурированных данных. Фактически 80 % всех новых данных, создаваемых сегодня, относятся к неструктурированным. Справиться с таким объемом большинство организаций не в силах, из-за чего они могут накапливать информацию, о существовании которой даже не догадываются. В результате использование и защита неструктурированных данных может стать чрезвычайно сложной задачей, сопряженной с рисками: недостаточная информированность создает вероятность непреднамеренного нарушения нормативных актов, касающихся конфиденциальности данных.

Вторая проблема — непонимание, что делать с данными. Для хранения растущего объема данных требуется инфраструктура. Большинство организаций не располагают административными ресурсами и финансовыми средствами, необходимыми для обслуживания данных. Что еще важнее, из-за такого объема данных компаниям трудно извлекать из них важные стратегические сведения.

Объем данных будет расти постоянно, сложность данных всегда будет меняться, а количество создателей и потребителей станет практически бесконечным. Вот почему наилучший выход — интеллектуальное управление данными. Оно подразумевает определение политик и рекомендаций в отношении очистки, маркировки, защиты, контроля и обеспечения доступности неструктурированных, а также структурированных и частично структурированных данных. При наличии четко определенной стратегии управления данными ваша компания будет лучше подготовлена к тому, чтобы обеспечить качество, актуальность и удобство использования растущих объемов данных.

КАК УПРАВЛЕНИЕ ДАННЫМИ МОЖЕТ ПОМОЧЬ КОНТРОЛИРОВАТЬ РАЗНЫЕ ТИПЫ ДАННЫХ?

Выражаясь просто, интеллектуальное управление данными означает обеспечение контроля над ними, их защиты и доступа к ним для реализации общей бизнес-стратегии. Однако управление данными также подразумевает знание того, откуда появились данные, где они находятся в настоящий момент, кто имеет к ним доступ, что они содержат и как долго они должны храниться. Интеллектуальное управление данными также предполагает различение несущественных данных и стратегически важной информации.

Продуманное, централизованное управление данными позволяет раскрыть их истинный стратегический потенциал. Предприятия могут легко определять потребности клиентов, предвосхищать возникновение проблем, открывать для себя новые деловые возможности и отвечать на запросы регулирующих органов. Они могут оптимизировать затраты на хранение и администрирование информационных ресурсов, в то же время позволяя ключевым заинтересованным сторонам использовать данные для более эффективного принятия решений.

Когда речь идет об управлении данными, ключевое значение имеет правильный баланс. Организация должна тщательно контролировать данные всех типов и при этом поддерживать гибкий и быстрый доступ к ним, что жизненно необходимо в современном быстро меняющемся мире.

Обнадеживает то, что существуют инновационные, автоматизированные решения, которые могут упростить и ускорить процесс управления данными, чтобы сэкономить вашей организации ценное время и деньги.

КТО ЛИДИРУЕТ В СФЕРЕ УПРАВЛЕНИЯ ДАННЫМИ?

Специалисты Hitachi Vantara, признанного лидера в области хранения данных, знают буквально все об управлении данными и даже написали о нем книгу. Они могут сделать задачу управления данными простой и понятной с помощью автоматизированных решений, предоставляющих следующие возможности:

  • обеспечение качества данных;
  • обеспечение идентификации данных;
  • централизация данных и предоставление доступа к ним.

Внедрив автоматизированные решения для очистки, идентификации и централизации ваших структурированных, неструктурированных и частично структурированных данных, Hitachi может помочь вам создать единый источник достоверных сведений, имеющий огромное стратегическое значение. Вы сможете по-новому взглянуть на свою повседневную деятельность, своих клиентов и торговых партнеров, финансы и новые тенденции, которые будут влиять на вашу компанию и ее финансовые результаты.

КАК ИМЕННО ИНТЕЛЛЕКТУАЛЬНОЕ УПРАВЛЕНИЕ ДАННЫМИ МОЖЕТ ПОМОЧЬ МОЕМУ БИЗНЕСУ?

Интеллектуальное управление данными предоставляет типичной компании ряд стратегических преимуществ, в том числе описанные ниже.

  • Более эффективное принятие решений. К хорошо управляемым данным легче получать доступ, и их легче использовать. Это означает, что заинтересованные лица в компании могут принимать решения, опираясь на факты, а не на интуицию или догадки.
  • Эксплуатационная эффективность. Критически важные данные, в том числе показатели производительности, можно использовать для выявления и устранения узких мест и неэффективных методов в повседневной работе компании. Для этого необходимо иметь доступ к точным, актуальным данным.
  • Улучшенное понимание данных и анализ их происхождения. Понимание «следа данных» и контроль ответственности за них позволяет своевременно реагировать на запросы аудита, давать более эффективную оценку ситуаций и заблаговременно предотвращать повреждение и утечку данных.
  • Нормативно-правовое соответствие. Компаниям приходится соблюдать все более сложные требования к конфиденциальности и безопасности данных, которыми они управляют и которые хранят. Управление данными — критически важный фактор соблюдения организацией правил, изложенных в применимых нормативных требованиях.
  • Увеличение доходов. Имея в своем распоряжении точные, очищенные данные, поступающие в режиме реального времени, предприятия могут быстрее принимать правильные решения, что положительно сказывается на продажах и операционной рентабельности.
КАК ЧАСТО НАША КОМПАНИЯ ДОЛЖНА ПЕРЕСМАТРИВАТЬ ПОЛИТИКИ В ОТНОШЕНИИ РАЗНЫХ ТИПОВ ДАННЫХ?

Объемы данных демонстрируют экспоненциальный рост, поэтому Hitachi Vantara рекомендует вашей компании ежеквартально пересматривать свои политики и методы управления данными. Рассматривая «общую картину» данных каждые три месяца, ваша компания сможет выявлять новые тенденции, устранять проблемы и поддерживать функционирование данных в качестве стратегического ресурса.

Помимо регулярного пересмотра политик, Hitachi рекомендует каждой организации ввести должность директора по обработке и анализу данных. Его роль заключается в привлечении внимания к проблемам данных, их защите и повышении их стратегического значения на постоянной основе.

КАК РАЗЛИЧНЫЕ ТИПЫ ДАННЫХ ВЛИЯЮТ НА ИНИЦИАТИВЫ DATAOPS В КОМПАНИЯХ?

DataOps (операции с данными) — это новая концепция, под которой понимается методология управления корпоративными данными для эры искусственного интеллекта. Реализовав всеобъемлющую стратегию DataOps, вы можете легко связывать потребителей и создателей ваших данных, чтобы быстро выявлять и использовать всю ценность информационных активов.

DataOps — не продукт, услуга или решение. Это методология, технологическая и культурная новация, призванная улучшить использование данных в организации за счет повышения их качества, сокращения цикла и максимально эффективного управления ими.

Поскольку DataOps охватывает весь цикл сбора и использования информации, вашей организации жизненно необходимо эффективно управлять всеми типами данных. Благодаря очистке данных, надлежащему управлению ими и немедленному доступу к ним ваша инициатива DataOps подкрепляется информацией, необходимой для принятия стратегических решений на основе фактов, а не догадок.

Так как компания Hitachi Vantara обладает проверенным опытом в области DataOps и управления данными всех типов, партнерство с ней — естественный выбор. Прививая культуру и мышление на основе данных, Hitachi ставит данные в центр вашей повседневной деятельности.

ru