Страницы

19 февраля 2019

Публикация открытых исследовательских данных

Некоторые спрашивают, зачем вообще заниматься публикацией данных? Времени на подготовку массива уходит довольно много, а выхлоп неясен, да ещё кто-то может данные украсть или как-то неправильно использовать. На самом деле, открытые данные как раз сложнее украсть — это полноценный опубликованный результат исследования, с названием, авторами, ссылкой на цитирование и прочими атрибутами. Плюс, расшаренные данные увеличивают вероятность цитирования связанной публикации [Piwowar et al., 2007]. К тому же не за горами появление и “счётных” бонусов в виде индексов цитирования данных, а пока есть значки за их публикацию, которые добавляются к статье. Но главное — возможность использовать чужие данные увеличивает доступность информации и уменьшает дублирование усилий исследователей (как минимум, можно перепроверить какую-то часть своих результатов на чужих массивах). Так что агитирую выкладывать.

UPD: Особенно советую раздел "Инструменты и источники". В шагах я сделала краткую выжимку, которой нам было удобно пользоваться, а там более подробно, с первоисточниками и инструментами для оценки разных параметров данных.

План статьи

  • Принципы открытых данных
  • Шаг 1. Можно ли выкладывать мои данные?
  • Шаг 2. Какой репозиторий выбрать?
  • Шаг 3. Какой формат данных использовать?
  • Шаг 4. Как подготовить метаданные?
  • Шаг 5. Что делать с лицензией?
  • Шаг 6. Как залить данные и настроить репозиторий?
  • Инструменты и источники по категориям
Каждый шаг проиллюстрирован на двух примерах:
  • Пример 1: исследование ошибок. Это наш завершённый проект — сырые данные по эмоциональной реакции на ошибки и неконгруэнтность и скрипт их анализа из статьи “A different kind of pain: affective valence of errors and incongruence”.
  • Пример 2: модель электрической системы континентальной Европы “The RE-Europe data set” — найден на просторах сети.