Systematize!t: февраля 2019

Некоторые спрашивают, зачем вообще заниматься публикацией данных? Времени на подготовку массива уходит довольно много, а выхлоп неясен, да ещё кто-то может данные украсть или как-то неправильно использовать. На самом деле, открытые данные как раз сложнее украсть — это полноценный опубликованный результат исследования, с названием, авторами, ссылкой на цитирование и прочими атрибутами. Плюс, расшаренные данные увеличивают вероятность цитирования связанной публикации [Piwowar et al., 2007]. К тому же не за горами появление и “счётных” бонусов в виде индексов цитирования данных, а пока есть значки за их публикацию, которые добавляются к статье. Но главное — возможность использовать чужие данные увеличивает доступность информации и уменьшает дублирование усилий исследователей (как минимум, можно перепроверить какую-то часть своих результатов на чужих массивах). Так что агитирую выкладывать.

UPD: Особенно советую раздел "Инструменты и источники". В шагах я сделала краткую выжимку, которой нам было удобно пользоваться, а там более подробно, с первоисточниками и инструментами для оценки разных параметров данных.

План статьи

Принципы открытых данных
Шаг 1. Можно ли выкладывать мои данные?
Шаг 2. Какой репозиторий выбрать?
Шаг 3. Какой формат данных использовать?
Шаг 4. Как подготовить метаданные?
Шаг 5. Что делать с лицензией?
Шаг 6. Как залить данные и настроить репозиторий?
Инструменты и источники по категориям

Каждый шаг проиллюстрирован на двух примерах:

Пример 1: исследование ошибок. Это наш завершённый проект — сырые данные по эмоциональной реакции на ошибки и неконгруэнтность и скрипт их анализа из статьи “A different kind of pain: affective valence of errors and incongruence”.
Пример 2: модель электрической системы континентальной Европы “The RE-Europe data set” — найден на просторах сети.

Systematize!t

Страницы

19 февраля 2019

Публикация открытых исследовательских данных

План статьи