Решив остановиться на вопросе Big Data чуть поподробнее, хотелось бы рассказать об их применении в экологии. Для этого возьмём конкретный пример - проект, организованный в 2014м году корпорацией EMC, компанией Pivotal и природоохранной благотворительной организацией Earthwatch Institute совместно с исследовательским институтом Schoodic Institute в национальном парке Акадия объявили о запуске программы «Большие данные на страже экологии» (Big Data vs. Climate Change: EMC & Citizen Scientists Team Up).
Эта программа, призванная поддержать инициативу по климатическим данным правительства США (White House Climate Data Initiative), поставила цель продвинуться в изучении взаимосвязи между живой природой и климатом, а также способствовала вовлечению ученых-любителей в эту исследовательскую работу за счет использования «озер больших данных», инструментов анализа и визуализации.
Профессиональные исследователи и ученые-любители из разных стран мира собирают данные о влиянии климатических изменений на окружающую среду. Это крайне содержательная информация, позволяющая сделать важные выводы. При этом данные очень разнородны – неспециалисту сложно в них разобраться. Цель проекта «Большие данные на страже экологии» — более эффективное использование и анализ собираемых данных, а также интерактивная визуализация информации в форме, которая будет понятна международной аудитории преподавателей, ученых и любителей.
На первом этапе программы исследователи, работающие в национальном парке Акадия, использовали для изучения миграции птиц лучшее в своем классе решение Data Lake. Архитектура Data Lake, в основе которой лежат платформы EMC и программные решения Pivotal, позволяет собрать в едином пуле общедоступные массивы данных, созданных учеными-любителями, на порталах eBird, iNaturalist, HawkWatch, National Phenology Network и National Park Service. Результаты анализа данных демонстрировались в виде наглядных графиков и схем. Это помогло ученым-любителям понять, как используются их данные и как изменения климата могут отразиться на изучаемых ими животных, а руководству парка — подобрать нужные инструменты и ресурсы для поддержки программ парка.
В дальнейшем в рамках программы стали обрабатываться и другие массивы данных, предоставленные партнерами Earthwatch в области научных исследований из разных стран мира.
Очень близко к экологической науке лежат такие отрасли, как сельское и лесное хозяйство, поэтому завтра мы поговорим о применении Big Data как раз в этих сферах.