Собираем «Плохие данные» (bad data)

Не секрет что больше данных — это не означает что данные станут лучше. Чаще это происходит иначе, и примеров, когда данные публикуются в ужасающем виде, немало.

Например, данные Рособоронзаказа, о которых я писал ранее (http://habrahabr.ru/company/infoculture/blog/201260/), и где можно увидеть.
Точно также данные публикует и МВД России — это вот такой массив — http://mvd.ru/opendata/od1

А есть много других данных, когда CSV-файлы создаются на базе непригодных для анализа Excel-файлов, или когда данные публикуют без описания схем, или когда публикуют невалидные XML-файлы и многое другое.

Чтобы собрать все такие случаи, коллеги из Open Knowledge Foundation начали собирать все примеры.

Вот тут сайт проекта — http://okfnlabs.org/bad-data/, а вот тут раздел в github’е — https://github.com/okfn/bad-data/issues?page=1&state=open, где собраны примеры, из которых 5 прорабатывается и 2 уже зарегистрировано.

Конечно, пока описанное кажется не очень сложным, неправильное форматирование или таблицы, перемешанные с картинками в PDF. Но будет больше.

Давайте поможем коллегам, и если Вы встретите где-либо опубликованные данные, с которыми невозможно работать — предлагаю размещать их в комментариях к этому посту, а тем, кто готов включиться — еще и у коллег из OKF.

Из того, что мы уже собрали, можно увидеть такой пример, как закрытие данных каптчей у Федеральной Таможенной службы: http://okfnlabs.org/bad-data/ex/russian-foreign-trade-statistics/.

KNoJh6O