Клермонтский отчет об исследованиях в области баз данных
Автор: Сергей Дмитриевич Кузнецов,
Институт системного программирования РАН , kuzloc@ispras.ru
Источник: Институт системного программирования РАН synthesis.ipi.ac.ru
Автор: Сергей Дмитриевич Кузнецов,
Институт системного программирования РАН , kuzloc@ispras.ru
Источник: Институт системного программирования РАН synthesis.ipi.ac.ru
В мае 2008 г. в Калифорнии прошла очередная встреча ведущих специалистов в области управления данными. Из числа наиболее известных исследователей во встрече приняли участие Ракеш Агравал, Филипп Бернштейн, Майкл Кери, Сураджит Чаудхари, Даниэла Флореску, Майкл Франклин, Гектор Гарсиа Молина, Йоханнес Герке, Лаура Хаас, Элон Хэлеви, Джозеф Хелерстейн, Яннис Иоаннидис, Дональд Коссман, Сэмюэль Мэдден, Майкл Стоунбрейкер, Герхард Вейкум и другие. За последние 20 лет это была седьмая встреча специалистов, посвященная выработке планов исследований на ближайшие годы.
В 2008 г. общий рефрен встречи состоял в том, что исследования баз данных и индустрия управления данными находятся в точке поворота, что создает благоприятные возможности для технических и интеллектуальных достижений, предпринимательства и наращивания воздействия на науку и общество. При наличии большого числа возможностей исследовательскому сообществу важно обратиться к решению проблем, оказывающих максимальное воздействие внутри сообщества баз данных, внутри компьютерного сообщества в целом и во внешних областях.
Важнейшими направлениями будущих исследований были признаны следующие:
Пересмотр архитектуры серверов баз данных. В последнее десятилетие появилось много популярных задач, связанных с обработкой больших объемов данных, для которых реляционные СУБД обеспечивают плохое соотношение «цена/производительность», и при решении которых от использования РСУБД пришлось отказаться: индексирование текста, обслуживание Web-страниц и доставка мультимедийного контента. Новые рабочие нагрузки появляются в научных приложениях и приложениях в стиле Web 2.0.
К числу наиболее важных исследовательских тем в этой области относятся:
Декларативное программирование для новых платформ. Хотя разработка новых парадигм программирования не является проблемой баз данных как таковых, декларативное программирование и оптимизация на основе оценок обеспечивают обнадеживающий угол атаки. Имеются существенные основания, чтобы полагать, что подходы, ориентированные на обработку данных, в краткосрочной перспективе могут сильно воздействовать на программирование в целом.
Одним из примеров потенциала этих подходов является наблюдаемая в последнее время популярность Map-Reduce [1]. Другим примером может служить то, что в последнее время разрабатываются новые декларативные языки, часто основывающиеся на Datalog для разных проблемно-ориентированных систем в различных областях: сетевых и распределенных систем, компьютерных игр, машинного обучения и робототехники, компиляторов, протоколов безопасности и извлечения информации. Третий пример происходит из области программирования корпоративных приложений. В недавно появившихся языковых расширениях, таких как Ruby on Rails [2] и LINQ [3] поддерживается логика запросов в паттернах конструирования программ. Одним из существующих языков является XQuery [4], который может способствовать этому виду декларативного программирования.
Взаимосвязь структурированных и неструктурированных данных. Значительной долговременной целью сообщества баз данных является переход от управления традиционными базами данных к намного более сложной задаче управления обширными коллекциями структурированных, полуструктурированных и неструктурированных данных, распределенных по многим репозиториям предприятий и Web. Иногда это называют проблемой управления пространствами данных [5-6].
Требуется разработка методов эффективной обработки запросов к результирующему множеству разнородных данных и обеспечения понимания результатов этих запросов. Конкретной проблемой является обеспечение ответов на запросы по ключевым словам над большими коллекциями разнородных источников данных. Требуется анализировать запросы для извлечения их предполагаемой семантики и направлять данный запрос к уместным источникам данных в коллекции. Не предполагаются наличие семантического отображения источников данных и известность прикладной области запроса и источников данных.
Облачные службы данных. Экономические факторы приводят к появлению инфраструктур, обеспечивающих программные и вычислительные средства в виде служб, обычно называемых облачными (cloud) сервисами, или облачным компьютингом. Имеется набор разнообразных облачных сервисов, включая прикладные сервисы (salesforce.com), сервисы хранения Amazon S3), вычислительные сервисы (Google App Engine, Amazon EC2) и сервисы данных (Amazon SimpleDB, Microsoft SQL Server Data Services, Google's Datastore). Многие будущие приложения, ориентированные на обработку данных, будут опираться на облачные сервисы данных.
В облачных средах особенно важным качеством является управляемость. Потребность в управляемости делает более срочной разработку технологий самоуправления баз данных, которые исследовались в последнее десятилетие. Отдельной проблемой является абсолютный масштаб облачного компьютинга. Сегодняшние SQL-ориентированные системы баз данных просто не могут масштабироваться на тысячи узлов при размещении в облачном контексте. При совместном использовании физических ресурсов в облачной инфраструктуре требуется обеспечение безопасности и конфиденциальности данных, которые не могут гарантироваться за счет наличия физического разграничения машин или сетей. Следовательно, облачные сервисы обеспечивают плодородную почву для усилий по объединению и ускорению исследований, выполняемых сообществом баз данных в этих областях.
Мобильные приложения и виртуальные миры. Имеется новый класс приложений, примерами которых являются мобильные службы и виртуальные миры, характеризуемые потребностью в управлении крупными объемами разнообразных данных, создаваемых пользователями, в интеллектуальном синтезе этих данных и обеспечении над ними служб реального времени. Сообщество управления данными начинает понимать проблемы, стоящие перед этими приложениями, но здесь требуется намного больше исследований. Соответственно, обсуждение этих тем на встрече носило более умозрительный характер, чем тем, которым посвящались предыдущие подразделы, но участники встречи сочли их заслуживающими внимания в своем отчете.
Кроме этих тем, во время встречи многократно упоминались следующие проблемы и области исследований:
Слайды к докладу в формате PPT: kuznetsov20081225.ppt