Как хранилище данных уберечь от информационного мусора

wpid 6c45e474665533a7d61535d4ab42c22d Как хранилище данных уберечь от информационного мусора

Когда создаются хранилища данных почти не уделяется внимание очистке информации, которая в него поступает. Распространенное мнение в этом вопросе - найти хранилище побольше. Это самый верный способ сделать из хранилища данных мусорную свалку. Любые поступающие данные необходимо очищать. Ведь источники ее очень различны, как и сама информация. Именно то, что информация собирается из разных точек придает процессу очистки актуальность.

Полностью избавится от ошибок не получится, поэтому они будут всегда. И все таки нужно максимально снизить уровень ошибок, что поможет более точно проанализировать полученную информацию.

Рассмотрим несколько популярных ошибок и методы их исправления.

Шум

Каждый раз, проводя анализ приходится сталкиваться с шумами. Он не содержит полезную информацию, и является помехой при рассмотрении картины. Можно использовать несколько методов борьбы с шумом.

Во-первых, - это спектральный анализ. Он помогает убрать высокочастотные составляющие поступающих данных. Во-вторых - авторегрессионый метод. Он позволяет находить функцию, описывающая процесс и шум отдельно, что позволяет удалить последний и сохранить данные основного сигнала.

wpid cloud computing datatrend1 1024x768 Как хранилище данных уберечь от информационного мусора

Аномальные значения

Очень часто во время анализа получают данные, сильно отличающиеся от всей картины, потому что средства, занимающиеся прогнозированием не понимают сути процессов. Поэтому они воспринимают аномалии за нормальные значения. Это приводит к сильному искажению картин будущего. Чтобы бороться с такой ситуацией, используют метод робастных оценок, который устойчив к возмущениям. После оценки данных, выходящих за установленные границы. При этом аномальное значение могут удалить, или же заменить на то, которое ближе к границе.

Для хранилища данных грязная информация является очень большой проблемой, ведь они могут свести к нулю усилия, прикладываемые в этом направлении. Для решения этой проблемы желательно создать шлюз, пропускающий через себя все данные, которые попадают в хранилище.

Фильтрация информации должна быть неотъемлемой частью хранилищ данных. Ведь без этого получится гора мусора, в которой невозможно будет найти что-то полезное. Это мнение еще непопулярно, и поэтому все стремятся увеличить размеры хранилищ. Но чем больше они будут становиться, тем раньше пользователи обязательно поймут идею фильтрации данных.


24.05.2014

Похожие статьи:

Классификация сайтов для заказчика

Классификация сайтов для заказчика 13.05.2014
Желая создать сайт, и обращаясь для этого в студию веб-дизайна, в большинстве случаев заказчик просто не знает, что именно он хочет. Главная проблема происходит из-за путаницы в терминологии, при обсуждении типов сайтов. Зачастую после бурного обсуждения проекта выясняется, что был необходим ...

Кому доверить раскрутку сайта?

Кому доверить раскрутку сайта? 17.05.2014
На сегодняшний день интернет является главной рекламной и торговой площадкой. Он позволяет бизнес компаниям и простым пользователям ознакомить со своим товаром или услугой максимально большое количество покупателей. Почему для создания списка запросов нужно обращаться к профессионалам? На ...

Нужна ли сайту кроссбраузерность?

Нужна ли сайту кроссбраузерность? 05.05.2014
Чтобы просматривать сайты в интернете нужно использовать специальную программу, которая называется браузером. Некоторое время назад люди, которые посещали интернет знали один-два браузера. Сейчас же можно насчитать десятки таких программ, каждая из которых имеет несколько версий, с разной ...

Ошибки в дизайне, снижающие конверсию

Ошибки в дизайне, снижающие конверсию 12.05.2014
После того, как пользователь попадает на сайт, он может остаться там дальше, рассматривая интересующую его информацию, или же покинуть веб-ресурс. Если вас интересует высокая конверсия с веб-сайта или целевой страницы, необходимо избегать некоторых ошибок в дизайне. Убрать все карусели Несмотря на ...

Поисковые системы: исследуем алгоритмы

Поисковые системы: исследуем алгоритмы 19.05.2014
Людям заинтересованным в успешном продвижении сайта в поисковых системах нужно знать принципы и алгоритмы их работы. Но владельцы поисковиков тщательно скрывают эту информацию от обычных пользователей. Как же можно узнать, каким функциям подчиняется поисковик? Методы изучения алгоритмов В основе ...