Хранилище facebook разрастается на 180 петабайт ежегодно

Просмотр списком
Хранилище Facebook разрастается на 180 петабайт ежегодно

Хранилище данных крупнейшей мировой социальной сети Facebook ежесуточно разрастается на пол-терабайта, говорится в данных инженерной команды Facebook. Такие данные Facebook Engineering Team приводит одновременно с публикацией части исходных кодов программного обеспечения Facebook. В данных Facebook постоянно хранятся большие массивы внутренних нерегламентированных запросов, очереди данных, кастомизированные данные MapReduce для кластерного поиска, а также масса других "сырых" данных, обеспечивающих быстрое функционирование громадного хранилища информации.

В компании говорят, что многие работы здесь возложены на плечи Apache Hadoop. Многие, но не все...



В Facebook говорят о создании кастомизированной Hadoop-подобной платформы Corona, которая расширяет базовый функционал работы с Большими Данными за счет возможностей по огромному разрастанию архивов информации. "Мы изначально использовали реализацию технологии MapReduce в Apache Hadoop в качестве основы для нашей инфраструктуры. Она успешно работала на протяжении нескольких лет, Но в начале 2011 года мы поняли, что достигли пределов этой технологии", — рассказали в Facebook.

В конце концов система стала работать довольно медленно и это вынудило Facebook создавать нечто новое. Система Corona по своей организации напоминает Hadoop, но она имеет несколько дополнительных слоев, придающих ей бОльшую масштабируемость.

Здесь реализован так называемый кластер-менеджер, в задачи которого входит только то, что он отслеживает другие узлы в системе и следит за их нагрузкой, а также отвечает за освобождение системных ресурсов в кластере. Кроме того, здесь же есть выделенный трекер рабочих процессов, который управляет выделением процессор для небольших и больших заданий по обработке данных. Главное отличие Corona от Hadoop заключается в том, что новинка — это как бы Hadoop наоборот: задания здесь идут не от узлов, а к ним. Кроме того, здесь же работает более централизованная система управления ресурсами внутри кластера, создающая не только сами ресурсы для вычислений, но и сама регламентирующая работу.

В самой Facebook система Corona пока развернута не полностью, а примерно на 500 серверах, где идет ее обкатка. Позже она будет установлена на 1000 серверов.

Код Corona доступен на GitHub по адресу https://github.com/facebook/hadoop-20/tree/master/src/contrib/corona

Источник: cybersecurity
1895
facebook
Нажмите «Нравится»,
чтобы читать Relax.ru в Facebook
 Top