Фабрики - рабочим, данные - учёным (В эфире Big Data. Часть 2)


Сегодня мы поговорим о роли "больших данных" в научных исследованиях. Для начала необходимо разобраться, зачем они науке в целом.

В эпоху больших данных каждая научная дисциплина должна найти способ решения проблем, связанных с хранением, обработкой и интерпретацией больших объемов информации. Результаты научных наблюдений накапливаются в цифровом виде, поэтому управление и обмен данными становятся все более важными составляющими работы ученых.

Есть ли наука, в которой еще не назрела необходимость использовать большие данные? Исследования, основанные на них, всё больше распространяются в астрофизике, ядерной физике, материаловедении, генетике, истории, социологии и других фундаментальных и прикладных научных дисциплинах. Так в чём же заключается их столь значительная роль?

Рост количества данных предъявляет новые требования не только к квалификации ученых, но и к материальному обеспечению исследований. Сохранение данных имеет решающее значение для воспроизводимости научных результатов, а также обеспечения их доступности для широкой аудитории. Это приводит к важным вопросам о том, кто несет ответственность за эти данные, где их хранить, кто будет платить за хранение, как обеспечить безопасное использование. Кроме того, сохранения данных недостаточно, они также должны оставаться пригодными для использования будущими исследователями. А это не всегда легко обеспечить во времена, когда аппаратное и программное обеспечение может устареть в течение нескольких месяцев.

По мере того, как наука интегрирует информационные технологии в свои составные части, она наращивает "сетевой эффект": между узлами в сети образуется гораздо больше связей, чем в традиционной линейной схеме, при которой ученый изолированно создает свои собственные данные, программное обеспечение и идеи. Сетевой эффект позволяет ускорить научный прогресс с экспоненциальной скоростью: не только данные, созданные одной командой, могут использоваться всем миром, но и новые стороны могут вносить свой вклад в создание программ и развитие идей. Таким образом, анализ больших массивов данных в 21 веке станет обязательным компонентом науки.

Однако рассмотренный нами сегодня вопрос больше напоминает философский и методологический, а вот следующие несколько "репортажей" будут посвящены использованию Big Data в конкретных отраслях науки.