baddata – Open Knowledge Russia http://ru.okfn.org Открытые знания - Россия Thu, 13 Feb 2014 10:22:36 +0000 ru-RU hourly 1 http://ru.okfn.org/files/2016/06/cropped-ok-logo1-32x32.png baddata – Open Knowledge Russia http://ru.okfn.org 32 32 114359134 Собираем «Плохие данные» (bad data) http://ru.okfn.org/2013/12/15/baddata/ http://ru.okfn.org/2013/12/15/baddata/#respond Sun, 15 Dec 2013 12:39:39 +0000 http://ru.okfn.org/?p=18 Не секрет что больше данных — это не означает что данные станут лучше. Чаще это происходит иначе, и примеров, когда данные публикуются в ужасающем виде, немало.

Например, данные Рособоронзаказа, о которых я писал ранее (http://habrahabr.ru/company/infoculture/blog/201260/), и где можно увидеть.
Точно также данные публикует и МВД России — это вот такой массив — http://mvd.ru/opendata/od1

А есть много других данных, когда CSV-файлы создаются на базе непригодных для анализа Excel-файлов, или когда данные публикуют без описания схем, или когда публикуют невалидные XML-файлы и многое другое.

Чтобы собрать все такие случаи, коллеги из Open Knowledge Foundation начали собирать все примеры.

Вот тут сайт проекта — http://okfnlabs.org/bad-data/, а вот тут раздел в github’е — https://github.com/okfn/bad-data/issues?page=1&state=open, где собраны примеры, из которых 5 прорабатывается и 2 уже зарегистрировано.

Конечно, пока описанное кажется не очень сложным, неправильное форматирование или таблицы, перемешанные с картинками в PDF. Но будет больше.

Давайте поможем коллегам, и если Вы встретите где-либо опубликованные данные, с которыми невозможно работать — предлагаю размещать их в комментариях к этому посту, а тем, кто готов включиться — еще и у коллег из OKF.

Из того, что мы уже собрали, можно увидеть такой пример, как закрытие данных каптчей у Федеральной Таможенной службы: http://okfnlabs.org/bad-data/ex/russian-foreign-trade-statistics/.

KNoJh6O

 

]]>
http://ru.okfn.org/2013/12/15/baddata/feed/ 0 18
Как нельзя публиковать открытые данные и почему не все XML файлы одинаково полезны http://ru.okfn.org/2013/12/15/hownottopublish/ http://ru.okfn.org/2013/12/15/hownottopublish/#respond Sun, 15 Dec 2013 12:07:51 +0000 http://ru.okfn.org/?p=11 Когда пишешь о лучших и худших примерах публикации открытых данных очень сложно не превратить эту рубрику в кунсткамеру и не показать насколько странно иной раз происходит публикация данных и что может скрываться за данными на самом деле.

Случай который я опишу в этот раз не то чтобы уникальный, но редкий.
Речь пойдет об открытых данных, не много не мало, а Федеральной службы по оборонному заказу (сайт – www.fsoz.gov.ru).

На сайте этой службы совсем недавно появился раздел “Открытые данные” где собственно открытые данные в машиночитаемом формате и публикуются.
Размещено там немного не мало, а 15 наборов данных.

Ссылки на них есть на сайте, а я приведу полный список.

  • История и официальная символика
  • Структура Рособоронзаказа
  • Полномочия и порядок их исполнения
  • Руководство
  • Межрегиональные управления и подведомственные организации
  • Функции межрегиональных управлений и подведомственных организаций
  • Госслужба. Информационные материалы.
  • Информационные материалы по представлению (переоформлению) лицензий в сфере государственного оборонного заказа
  • Финансовая отчётность
  • Основные показатели и результаты деятельности
  • Антикоррупционная деятельность. Сведения о доходах.
  • Показатели размещения заказов
  • Коллегии Рособоронзаказа
  • Порядок обжалования решений, действий (бездействия)
  • Контакты

Данные не то чтобы очень интересные, но что-то можно было бы использовать и я решил открыть наугад массив Структура Рособоронзаказа

Внутри, всё по честному, оказался XML файл. Его можно скачать или разглядеть на картинке

Ничего не узнаете? Это ничто иное как Microsoft Office XML formats использованный еще в старых офисах вплоть до 2007-го.

Является ли этот файл действительно файлом XML? Да, безусловно. Является XML файлом текстовой разметки.
Давайте заглянем туда внутрь. После нехитных действий по сохранению файла на диске и открытию его с помощью MS Word получился такой прекрасный файл

с картинкой оргструктуры на выходе.

Итого, волшебная последовательность действий:

  1. Нарисовать картинку
  2. Засунуть картинку в Word файл
  3. Сохранить Word файл в формат MS Office XML formats
  4. Профит! Все требования соблюдены, а пользы людям никакой.

Формально они могут потом даже схемы описаний приложить и даже паспорт набора данных составить.

Больше примеров в следующих обзорах.

Иван Бегтин

Кросспост – http://habrahabr.ru/company/infoculture/blog/201260/

]]>
http://ru.okfn.org/2013/12/15/hownottopublish/feed/ 0 11