banner
Дом / Блог / Как создать и поддерживать мультимодальный набор данных исследований на животных с помощью DataLad
Блог

Как создать и поддерживать мультимодальный набор данных исследований на животных с помощью DataLad

Dec 17, 2023Dec 17, 2023

Научные данные, том 10, Номер статьи: 357 (2023) Цитировать эту статью

1 Альтметрика

Подробности о метриках

Для совместного использования данных, инструментов обработки и рабочих процессов требуются открытые службы хостинга данных и инструменты управления. Несмотря на рекомендации FAIR и растущий спрос со стороны финансирующих агентств и издателей, лишь немногие исследования на животных делятся всеми экспериментальными данными и инструментами обработки. Мы представляем пошаговый протокол для осуществления контроля версий и удаленного сотрудничества для больших мультимодальных наборов данных. Был введен план управления данными для обеспечения безопасности данных в дополнение к однородной структуре файлов и папок. Изменения данных автоматически отслеживались с помощью DataLad, и все данные размещались на платформе исследовательских данных GIN. Этот простой и экономически эффективный рабочий процесс облегчает внедрение рабочих процессов логистики и обработки данных FAIR, делая необработанные и обработанные данные доступными и предоставляя техническую инфраструктуру для независимого воспроизведения этапов обработки данных. Он позволяет сообществу собирать гетерогенно полученные и хранимые наборы данных, не ограничиваясь определенной категорией данных, и служит в качестве проекта технической инфраструктуры с богатым потенциалом для улучшения обработки данных на других сайтах и ​​распространения на другие области исследований.

Управление данными и обмен ими требуют лучших практик, недавно внедренных для МРТ человека1,2. По нашему опыту, большинство лабораторий полагаются на нестандартное хранение данных на локальных жестких или сетевых дисках с недостаточной возможностью управления пользователями и резервного копирования. Несмотря на то, что лишь в меньшинстве исследований МРТ используются мелкие животные, вызывает тревогу тот факт, что на OpenNeuro, широко используемой платформе для обмена данными нейровизуализации3, только 3% наборов данных содержат данные, полученные от мышей или крыс. Аналогично, на другой популярной платформе обмена данными, не предназначенной специально для нейровизуализации, Zenodo4, только около 30% наборов данных МРТ получены от мышей или крыс. Кроме того, удивительно и противоречит принципам FAIR5, если в большинстве этих наборов данных нейровизуализации представлены только данные визуализации. Это исключает большую часть сопроводительных данных, например, файлы микроскопии, используемые для перекрестной проверки in vivo. Мы также выявили явное отсутствие пошаговых руководств или автоматизированных процедур, необходимых для воспроизведения обработанных данных. Эти примеры подчеркивают предыдущие отчеты6, что обмен данными о мелких животных далеко не является обычным явлением и что не существует стандартизации с точки зрения сбора, хранения и обмена данными. Если данные не передаются и, следовательно, не доступны для повторного использования, как это имеет место в случае 93% биомедицинских публикаций в открытом доступе7, это также сильно контрастирует с принципом 3R минимизации количества экспериментов на животных8. Таким образом, по-прежнему очень сложно сравнивать исследования, проведенные в разных лабораториях, что усугубляет кризис воспроизводимости9, и исследования на мелких животных (нейровизуализация) не являются исключением10.

Мы предполагаем изменение условий надлежащей научной практики и принципов FAIR – находимость, доступность, совместимость, возможность повторного использования5 и открытость науки2 для повышения надежности и признания исследований на животных. Нашей целью было создать легко применимый подход для настройки мультимодального набора данных, который обеспечивает доступ к необработанным и обработанным данным, методам, результатам и их происхождению. Правильное управление исследовательскими данными (RDM), которое все чаще требуется финансирующим агентствам и издателям, является ключом к соблюдению этих стандартов2,11,12.

Здесь мы описываем нашу стратегию организации данных, сбора метаданных и отслеживания данных/анализа с использованием трех признанных инструментов: нашей реляционной базы данных13, платформы данных GIN (службы инфраструктуры G-Node, https://gin.g-node.org). и программное обеспечение для управления исследовательскими данными DataLad14. База данных используется для сбора всех экспериментальных метаданных о полной временной шкале продольных и мультимодальных экспериментов на животных, включая МРТ, гистологию, электрофизиологию и поведение. GIN и DataLad основаны на Git, популярной системе контроля версий, и git-annex, который расширяет возможности Git, особенно в отношении управления большими файлами. GIN — это веб-служба управления данными с открытым исходным кодом и различными функциями для совместной обработки данных, например, встроенное управление версиями, безопасный доступ, постоянные идентификаторы данных для публикации (DOI), автоматическое индексирование и проверка данных. DataLad — это программное обеспечение для управления данными, предназначенное для поддержки различных этапов разработки цифровых объектов. Важно отметить, что DataLad можно рассматривать как надстройку над существующими структурами данных и сервисами: отслеживание файлов не приводит к изменению самих файлов или места, из которого их можно получить с помощью инструментов обработки данных.

/p>

/p>