Страницы

19 февраля 2019

Публикация открытых данных

(посмотреть в PDF)

Некоторые спрашивают, зачем вообще заниматься публикацией данных? Времени на подготовку массива уходит довольно много, а выхлоп неясен, да ещё кто-то может данные украсть или как-то неправильно использовать. На самом деле, открытые данные как раз сложнее украсть — это полноценный опубликованный результат исследования, с названием, авторами, ссылкой на цитирование и прочими атрибутами. Плюс, расшаренные данные увеличивают вероятность цитирования связанной публикации [Piwowar et al., 2007]. К тому же не за горами появление и “счётных” бонусов в виде индексов цитирования данных, а пока есть значки за их публикацию, которые добавляются к статье. Но главное — возможность использовать чужие данные увеличивает доступность информации и уменьшает дублирование усилий исследователей (как минимум, можно перепроверить какую-то часть своих результатов на чужих массивах). Так что агитирую выкладывать.

План статьи

  • Принципы открытых данных
  • Шаг 1. Можно ли выкладывать мои данные?
  • Шаг 2. Какой репозиторий выбрать?
  • Шаг 3. Какой формат данных использовать?
  • Шаг 4. Как подготовить метаданные?
  • Шаг 5. Что делать с лицензией?
  • Шаг 6. Как залить данные и настроить репозиторий?
  • Инструменты и источники по категориям
Каждый шаг проиллюстрирован на двух примерах:
  • Пример 1: исследование ошибок. Это наш завершённый проект — сырые данные по эмоциональной реакции на ошибки и неконгруэнтность и скрипт их анализа из статьи “A different kind of pain: affective valence of errors and incongruence”.
  • Пример 2: модель электрической системы континентальной Европы “The RE-Europe data set” — найден на просторах сети.

Принципы открытых данных

Чтобы данные считались полноценно открытыми, они должны соответствовать нескольким критериям, для научных исследований — FAIR Data Principles [Wilkinson et al., 2016]:
  • Findability — у массива данных есть уникальный и постоянный идентификатор (например, DOI; обычный URL не подходит, потому что может меняться);
  • Accessibility — массив данных можно найти и скачать (это может быть обеспечено их размещением в известном в конкретной области исследований хранилище);
  • Interoperability — массив данных сопровождается метаданными (то есть, кроме самого массива есть информация, описывающая эти данные);
  • Reusability — массив данных описан так, чтобы его можно было повторно использовать (в частности, корректно процитировать).
Эти принципы реализуются на разных этапах подготовки данных: про Findability и Accessibility нужно подумать ещё на этапе выбора репозитория, а про Interoperability и Reusability — в процессе подготовки массива. Подробности в соответствующих шагах.

    Шаг 1. Можно ли выкладывать мои данные?

    Если есть возможность обсудить вопрос расшаривания данных с этическим комитетом, лучше это сделать. Данные нельзя выкладывать если они содержат конфиденциальную информацию, защищены законом или лицензией, или какая-то из заинтересованных сторон против (участники исследования, соавторы, представители организации). Кроме проверки этого, стоит [Meyer, 2018]:
    • включить пункт о возможности расшаривания данных в согласование с этическим комитетом и не включать обещания не расшаривать данные или анализировать их только в рамках конкретного исследования;
    • внимательно отнестись к анонимизации данных — например, если массив данных включает уникальную информацию об участниках, они могут быть деанонимизированы, поэтому из данных должна быть удалена информация, позволяющая идентифицировать участников исследования (для этого есть список Anonymization tools и мини-гайд от Европейской комиссии со ссылками);
    • подумать о том, с какой аудиторией вы хотите расшарить данные — есть репозитории, которые дают доступ к данным только при подтверждении статуса исследователя, в основном через регистрацию по университетской почте (список таких: List of approved protected access repositories).
    Особенно аккуратно нужно относиться к сбору персональных данных — это регулируется законом, в России Федеральным законом от 27.07.2006 № 152-ФЗ. В нём персональные данные определены как “любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу”. По идее, если персональные данные собираются и обрабатываются, то нужно уведомлять об этом Роскомнадзор. Подробности есть в материале Персональные данные — 2018: как избежать штрафов.

    Пример 1: исследование ошибок. В нашем случае всё было относительно просто:
    • мы вообще не собирали личную информацию об участниках (только инициалы, возраст и пол);
    • эксперимент не предполагал сбора какой-либо уникальной информации, по которой участника можно идентифицировать — только точность и скорость ответа в задаче фланкера и валентность и скорость аффективной реакции на изображение.
    Поэтому мы выложили массив практически “как есть”, но на всякий случай заменили инициалы участников номером.

    Пример 2: модель электрической системыДанные вообще не содержат персональной информации (то есть, анонимизировать там нечего), но могут быть объектом коммерческого интереса (в публикации по этому массиву авторы прямо говорят, что “renewable power production signals and forecasts at the level of each node are generally not available due to commercial interests”). В таких случаях надо согласовывать публикацию данных с компанией.

    Шаг 2. Какой репозиторий выбрать?

    Существует несколько видов репозиториев:
    • Общедоступные, на которых любой может выкладывать и использовать данные без ограничений. Некоторые из них ориентированы на определённые предметные области, например, Open Science Framework (OSF) — на социальные науки. 
    • Репозитории, выкладывающие данные, по которым были опубликованы статьи, такие как datadryad. Здесь выкладываются только данные исследований, прошедших peer-review, но скачивать их может любой зарегистрированный пользователь. 
    • Репозитории с защищённым доступом (Protected Access), на которых зарегистрироваться (а значит, загружать и использовать данные) могут только исследователи, подтвердившие свой статус (перечислены в List of approved protected access repositories);
    • Репозитории организаций. Например, свои хранилища могут быть у университетов или исследователи могут выкладывать данные на сайте научной группы. И те, и другие, могут находиться в открытом доступе, первые даже индексироваться поисковиками по данным.
    Согласно принципу Accessibility (то есть, доступности данных для других исследователей), лучше выбирать что-то из первой группы. Хуже всего в плане Accessibility дела у четвёртой группы. Частично эта проблема решается поисковиками по массивам данных — если университетское хранилище индексируется, то и другие исследователи смогут найти массив. Но в любом случае университетское хранилище не должно быть единственным — вряд ли вы всю свою карьеру проработаете на одном месте, а изменения может понадобиться внести. Кроме этого, не каждый университетский репозиторий предоставляет уникальный идентификатор для данных, что важно уже для нахождения и идентификации массива (принципа Findability).

    По открытым хранилищам есть поисковик REgistry of REsearch data REpositories (re3data.org) [Pampel, 2013]. Там можно отфильтровать репозитории по области знания, типу данных, стандарту метаданных и много чему ещё. Сейчас проиндексировано больше двух тысяч репозиториев научных данных, что и плюс и минус одновременно — с одной стороны, есть из чего выбрать, с другой — много таких, которыми в принципе никак не воспользоваться. Например, по социальным наукам находится больше двухста хранилищ, притом значительная часть из них — университетские.

    При выборе репозитория стоит ориентироваться на эти критерии:
    • популярность в конкретной области знания (начать можно со списка Recommended Data Repositories Nature);
    • предоставление уникального идентификатора;
    • объём бесплатно хранилища;
    • возможность защиты данных (доступ только для авторизованных исследователей; наличие периода эмбарго — отсроченной публикации);
    • возможность контроля версий;
    • возможность поиска по репозиторию (чтобы другие исследователи могли найти ваш массив);
    • обеспечение сохранности данных (например, если что-то случится с серверами или командой репозитория).
    Более полный сравнительный обзор для десятка самых популярных хранилищ есть у Dataverse: Comparative review of data repositories, можно открыть в гугл таблице (обратите внимание — в таблице кроме самого сравнения есть лист с метаданными).

    Пример 1: исследование ошибок. Наш массив содержал поведенческие данные, полученные в задаче фланкера (область знания — когнитивная психология). Похожие данные чаще всего встречаются на figshare и OSF. Так как OSF создавался для социальных наук и там много массивов психологических данных, мы выбрали его. Кроме того, у них есть “бэкап-фонд” — запас денег для сохранения данных на случай, если что-то случится с командой репозитория. Единственный минус — далеко не интуитивный интерфейс, без туториала не разобраться (но после некоторого количества страданий привыкаешь).

    Пример 2: модель электрической системы. Массив с данными по электрической сети (область знания — физика). Размещён на Zenodo, который создавался CERN’ом специально для физических данных, хотя сейчас там уже каких только нет. Zenodo не накладывает ограничений на размер, формат и лицензии выкладываемых файлов, поддерживает doi и ссылки на цитирование. Кроме этого, сотрудничает с OpenAIRE — одним из ключевых узлов европейской инфраструктуры для поддержки исследований. А также обладает самым приятным и понятным интерфейсом из всех известных мне репозиториев.

    Шаг 3. Какой формат данных использовать?

    Основное правило — подумать о максимальном количестве потенциальных пользователей. Например, один из лучших форматов для таблиц — .csv, потому что непроприетарный, то есть, без проблем открывается бесплатно распространяемыми программами (входящими в пакеты Open Office и Libre Office). Чуть хуже — .xls(x). И хотя доступ к Microsoft Office есть у большинства исследователей, но всё же это платный пакет, то есть у кого-то его может не быть, а бесплатные программы не всегда корректно отображают Excel-таблицы. Совсем плохой вариант — форматы для конкретной платформы или программы, например, .numbers или .mat — чтобы работать с такими файлами пользователю нужны MacOS и Matlab соответственно, получить которые не всем по карману. Правильно выбранный формат данных обеспечивает возможность повторного использования данных (принцип Reusability).

    Пример 1: исследование ошибок. В проекте использовано три формата файлов, все они открываются бесплатно распространяемыми программами:
    • .csv для самого массива данных;
    • .txt для описания массива, файлов метаданных и лицензии;
    • .R для скрипта обработки данных.
    Пример 2: модель электрической системы. Область знаний другая, а форматы похожие:
    • .csv для массивов;
    • .ods для сводных таблиц (формат открытых табличных редакторов);
    • .markdown для файлов с описаниями — неизвестный мне формат, без проблем открылся блокнотом.

    Шаг 4. Как подготовить метаданные?

    Чтобы массив данных в принципе можно было использовать (принцип Interoperability), он должен быть описан так, чтобы потенциальный пользователь мог понять, что в нём содержится, поэтому выкладывать данные нужно обязательно вместе с метаданными. В идеале, в одном файле. Например, если речь идёт об одной таблице, то лист с самими данными можно называть “Data” и вторым листом добавить “Metadata”, чтобы у пользователя не было шансов скачать данные без метаданных. Если такой возможности нет, то метаданные можно загрузить отдельным файлом.

    Есть множество стандартов метаданных для разных целей, в том числе и руководства для социальных наук. Минимально необходимый набор:
    • название массива данных;
    • авторы;
    • описание процедуры получения данных;
    • дата и место получения данных;
    • описание переменных;
    • ссылка на цитирование (она зачастую предоставляется репозиторием, если нет, то можно следовать рекомендуемым WoS [DCI Whitepaper] элементам: авторы, год, название массива, версия, репозиторий, уникальный идентификатор (DOI));
    • ссылки на статьи по этим данным (если есть).
    Пример 1: исследование ошибок. Минимально необходимые метаданные описаны в сопроводительных файлах:
    • название: Dataset and analysis script: A different kind of pain: affective valence of errors and incongruence (по сути, это название статьи, опубликованной по этим данным, но с добавкой “Dataset and analysis script:”);
    • авторы: Ivan Ivanchei Alena Begler Polina Iamshchinina Margarita Filippova Kuvaldina Maria Andrey Chetverikov (совпадают с авторами статьи);
    • краткое описание данных на главной странице проекта, продублировано в readme.txt;
    • подробное описание переменных в codebook.txt;
    • ссылка на цитирование тоже на главной странице и в readme.txt, в этом проекте нет ссылки на цитирование данных (это не очень хорошо) — просим цитировать статью при их использовании.
    Пример 2: модель электрической системы. Как и на предыдущем шаге, область другая, а принцип тот же:
    • название: The RE-Europe data set (отличается от названия статьи: RE-Europe, a large-scale dataset for modeling a highly renewable European electricity system);
    • авторы: Jensen, Tue V.; de Sevin, Hugo; Greiner, Martin; Pinson, Pierre (тоже отличаются от авторов статьи — над сбором данных работало больше людей);
    • краткое описание данных (включая дату и место — здесь это критичная информация) на главной странице проекта, продублировано в файле description.markdown;
    • описание переменных на отдельном листе в сводной таблице static_data_csv_summary.ods;
    • ссылка на цитирование в соответствующей секции на странице проекта, продублирована в файле с описанием description.markdown.

    Шаг 5. Что делать с лицензией?

    По умолчанию делать с продуктом интеллектуального труда ничего нельзя. То есть, просто выложить массив данных в сеть ещё не значит разрешить его использовать. Для этого необходима лицензия — в ней нужно указать, что использование данных разрешено и на каких условиях оно разрешено. Поэтому большинство репозиториев сразу предлагает лицензировать данные, и этим предложением стоит пользоваться. Про лицензии будет отдельный материал, а пока общее впечатление о видах лицензий можно составить на примере семейства открытых лицензий Creative Commons, они часто используются для лицензирования открытых данных (в скобках указаны обозначения):
    • Attribution (by) — разрешено копировать, распространять, воспроизводить и перерабатывать данные с указанием авторства;
    • Share alike (sa) — разрешено копировать, воспроизводить и перерабатывать, но при этом распространять можно только под этой же лицензией;
    • Non-commercial (nc) — разрешено копировать, распространять, воспроизводить и перерабатывать, но только для некоммерческих целей;
    • No Derivative Works (nd) — разрешено копировать, распространять и воспроизводить, но нельзя делать производные.
    Обычно при лицензировании данных исследований используется CC BY или её аналоги. То есть, если на странице массива данных в репозитории указано License: CC BY — данные можно смело использовать, но не забывать цитировать. Именно эта лицензия предлагается по умолчанию на большинстве репозиториев, так что если не указать другую, то данные скорее всего “автоматически” лицензируются под этой. Самая “запретительная” лицензия из этой группы: CC BY-NC-ND, данные, лицензированные под ней можно только скачивать и распространять.

    Пример 1: исследование ошибокЛицензия размещена в файле LICENSE.txt, в нашем случае это лицензия MIT, которая разрешает использовать данные как угодно, но обязательно со ссылкой на проект и статью (примерно соответствует CC BY).

    Пример 2: модель электрической системы. Авторы воспользовались стандартной лицензией репозитория — Creative Commons Attribution 4.0 International, которая разрешает копировать, распространять, воспроизводить, исполнять и перерабатывать произведение с указанием авторства.

    Шаг 6. Как залить данные и настроить репозиторий?

    После того, как все файлы подготовлены, остаётся только загрузить их в хранилище и проверить его настройки. При загрузке нужно предусмотреть возможность скачивания всех составляющих (массива, метаданных и лицензии) одним файлом. Многие репозитории предоставляют такую возможность автоматически, если нет, имеет смысл залить архив (в формате .zip, который сможет распаковать любой стандартный архиватор). После загрузки нужно проверить:
    • корректно ли отображаются названия, авторы и все файлы;
    • есть ли уникальный идентификатор — большинство репозиториев позволяет присвоить данным digital object identifier (DOI) — один из широко распространённых уникальных идентификаторов цифрового объекта. DOI никогда не дублируется у двух объектов, а также он не может быть изменён (такой идентификатор обеспечивает принцип Findability);
    • использованы ли возможности репозитория для обеспечения “находимости” данных — например, в большинстве есть категории и теги, лучше их добавить, чтобы они помогли другим исследователям найти массив.
    Пример 1: исследование ошибокДанные можно скачать как по отдельности, так и единым архивом (второе — встроенная возможность OSF, можно скачать все файлы проекта в формате .zip). Мы воспользовались встроенной возможностью OSF присвоить DOI. Кроме этого, отметили, что наш проект относится к категории Data и добавили ключевые слова, по которым другие пользователи могли бы искать наш массив: affective priming, conflict-related devaluation, conflicts, devaluation, error-related devaluation, errors, flanker task, negative affect, raw data. Видно, что часть тегов относится к задаче (affective priming, flanker task), часть — к исследуемым феноменам (devaluation, errors), часть — к характеристикам данных (raw data).

    Пример 2: модель электрической системы. Здесь данные в принципе нельзя скачать по отдельности — только единым архивом (в формате .zip). Правда, так как Zenodo не показывает даже превью файлов, чтобы просто понять, нужны ли тебе эти данные, нужно скачать 1,3 гигабайта. Данным присвоен DOI. Более того, использована возможность Zenodo связывать разные исследовательские результаты — ссылка на статью по данным и этот же массив на другом репозитории. Ключевые слова тоже есть (Energy system models, Electricity markets, Renewable energy), но не все возможные (в их же статье есть ещё Europe, electric power system, power plant).


    Как вы публикуете данные? Расскажите в комментариях.
    Если знаете полезные инструменты — пишите тоже, добавлю в подборку.

    Инструменты и источники

    (нажмите чтобы скрыть/показать)

    Принципы открытых данных:

    Этика при публикации данных:

    Подготовка данных к публикации:

    Выбор репозитория:

    Подготовка метаданных:

    Выбор лицензии:

    Цифровые идентификаторы:

    Отслеживание цитирования данных:


    Комментариев нет:

    Отправить комментарий