Введение к работе
Актуальность темы
Важнейшими проблемами современных высокопроизводительных вычислений являются развиваемая на многих задачах низкая реальная производительность суперкомпьютеров в сравнении с заявленной пиковой производительностью, а также низкая продуктивность параллельного программирования суперкомпьютеров. Эти проблемы существенно усиливают ряд других серьезных трудностей, например: высокое энергопотребление и чрезмерная стоимость систем.
Главные работы по решению проблем низкой реальной производительности и низкой продуктивности программирования в настоящее время ведутся фирмами Cray (проект Cascade) и IBM (проект PERCS) с целью создания суперкомпьютеров стратегического назначения (СКСН) транспетафлопсного уровня реальной производительности с перспективной мультитредово-векторной архитектурой и глобально адресуемой памятью. Эти проекты ведутся в рамках крупной американской программы DARPA HPCS, начатой в 2002 году. Всего лишь с задержкой в 4 года к работам по созданию СКСН такого же типа приступили ведущие фирмы и государственные организации Японии (проект Keisoku-Keisan-Ki) и Китая (проект "программа 863"). При этом наиболее близок к основным решениям проектов программы DARPA HPCS проект создания китайской перспективной СКСН, который предполагает создание собственного микропроцессора и собственной специальной коммуникационной сети с большой пропускной способностью и малым диаметром. В России работы по перспективной СКСН ведутся в рамках проекта "Ангара" по созданию мультитредово-потокового суперкомпьютера с глобально адресуемой памятью.
Главной задачей, решаемой в этих проектах, является преодоление так называемой проблемы «стены памяти». Суть этой проблемы состоит в сложившемся на сегодняшний день значительном отставании (сотни раз) времени выполнения операций с оперативной памятью от времени выполнения арифметико-логических операций в процессоре. Эта проблема обусловлена особенностями развития микроэлектронной компонентной базы - задержка обращения к внекристальной DRAM-памяти с учетом промахов в кэш-память дескрипторов сегментов и/или страниц может составлять 300-500 тактов процессора. Задержка обращения к коммуникационной сети может составлять десятки тысяч тактов процессора. Значимость этой проблемы усилена качественными изменениями требований перспективных прикладных программ - увеличение необходимого задаче логически неделимого объема памяти, рост доли команд обращений к памяти,
нарастающее ухудшение пространственно-временной локализации обращений к памяти (нерегулярность). Следует отметить важность приложений с интенсивной нерегулярной работой с памятью (сокращенно DIS-задачи), особенно в областях обеспечения национальной безопасности.
Наличие проблемы "стены памяти" приводит к тому, что на DIS-задачах из-за простоев процессора при ожидании данных из памяти реальная производительность (sustained performance) СКСН может деградировать до 0.1-5 % от пиковой производительности. Эта проблема также не позволяет существенно масштабировать реальную производительность при увеличении количества процессоров, используемых при выполнении задачи. В результате многие DIS-задачи практически невозможно решить за приемлемое время на существующих суперкомпьютерах.
Решение проблемы "стены памяти" позволит реально работать с глобально адресуемой памятью и перейти на одностороннее взаимодействие параллельных процессов, что важно для эффективного выполнения программ на языках класса PGAS (Partitioned Global Address Space -языки UPC, CAF), а также для перспективных языков с иерархическим описанием параллельных программ (языки Chapel, Х10 и Fortress). В целом, это позволит повысить продуктивность параллельного программирования, по оценкам мировых экспертов, в 10-40 раз.
Повышение реальной производительности и продуктивности программирования повысит коэффициент полезного использования как оборудования, так и человеческого ресурса, поэтому повлияет на снижение энергопотребления, снизит стоимость систем и сократит сроки разработки приложений.
Решение проблемы «стены памяти» в создаваемых перспективных СКСН производится за счет комплексного использования новых архитектурных принципов построения процессоров, памяти и коммуникационной сети, а также применения новых вычислительных моделей программ и соответствующего системного и прикладного программного обеспечения. Архитектура глобально адресуемой памяти определяет организацию виртуального адресного пространства, методы его защиты, отображения на физическую память, алгоритмы трансляции виртуальных адресов в физические. Вопрос выбора этой архитектуры является одним из основных в перспективных СКСН. Выбор этой архитектуры должен быть компромиссным. С одной стороны, она не должна ограничивать функциональность и эффективность ее использования в приложениях. С другой стороны она не должна быть слишком сложной, чтобы ее реализация была эффективной в контексте применяемых в СКСН других решений.
Данная диссертационная работа посвящена разработке архитектуры глобально адресуемой памяти СКСН «Ангара», исследованию ее
функциональности, эффективности и ее реализации в базовом для этой СКСН мультитредово-потоковом микропроцессоре с учетом выбранной коммуникационной сети и памяти, а также исследованию применяемых программ с разной мультитредовой организацией и используемыми моделями памяти.
Цель и задачи диссертационной работы
Целью диссертационной работы является разработка архитектуры глобально адресуемой памяти для суперкомпьютера мультитредово-потокового типа. Для достижения этой цели решались следующие задачи:
Разработка архитектуры глобально адресуемой памяти мультитредово-потокового суперкомпьютера "Ангара", которая является развитием вариантов организации глобально адресуемой памяти известных суперкомпьютеров заказного типа.
Реализация глобально адресуемой памяти в параллельной имитационной модели суперкомпьютера "Ангара" для исследования эффективности применения разработанной архитектуры глобально адресуемой памяти при решении прикладных задач.
Исследование возможностей использования разработанной архитектуры глобально адресуемой памяти в сочетании с другими особенностями суперкомпьютера "Ангара" для достижения высокой реальной производительности.
Исследование возможности использования разработанной архитектуры глобально адресуемой памяти при реализации перспективных языков параллельного программирования PGAS-класса.
Научная новизна работы
Полученные результаты являются новыми и состоят в следующем:
Разработана архитектура глобально адресуемой памяти мультитредово-потокового суперкомпьютера.
Разработаны и исследованы блоки, имитирующие работу глобально адресуемой памяти в составе параллельной программной потактовой имитационной модели суперкомпьютера «Ангара».
Показано, что применение разработанной глобально адресуемой памяти в сочетании с другими возможностями мультитредово-потокового суперкомпьютера "Ангара" в сравнении с опубликованными данными по существующим суперкомпьютерам позволяет:
повысить реальную производительность на задачах с интенсивным нерегулярным доступом к памяти до одного-двух порядков при совпадении реальной производительности на остальных задачах;
использовать при получении высокой реальной производительности короткие односторонние коммуникационные передачи, при помощи которых
проще создавать параллельные программы по сравнению с традиционным программированием с использованием MPI.
4. Продемонстрирована возможность использования разработанной архитектуры глобально адресуемой памяти при реализации перспективных языков параллельного программирования PGAS-класса на примере языка UPC.
Разработанная архитектура защищена патентом Российской Федерации № 2396592 "Способ организации глобально адресуемой общей памяти в многопроцессорной ЭВМ" от 21 октября 2008 года и обладает следующими основными свойствами:
имеет сегментно-страничную организацию с двухуровневой виртуализацией адресов и широким диапазоном размеров сегментов и страниц, а также возможностью работы с сегментами сверхбольшого размера;
обладает расширенными возможностями отображения виртуальной памяти на физическую за счет использования блочного и блочно-циклического методов, а также зашумления адресов;
использует теги состояния в ячейках памяти и теги доступа в адресах, что позволяет выполнять мелкозернистую синхронизацию непосредственно на ячейках памяти без участия процессора;
включает набор атомарных операций для односторонних взаимодействий параллельных процессов, векторных операций чтения-записи, операций синхронизации обращений к памяти.
Практическая ценность работы
Разработанная архитектура глобально адресуемой памяти является одним из основных архитектурных решений, принятых при разработке мультитредово-потокового суперкомпьютера "Ангара".
Программная параллельная имитационная потактовая модель мультитредово-потокового суперкомпьютера используется в ОАО "НИЦЭВТ" для отработки принципов работы суперкомпьютера "Ангара" и вариантов их аппаратной реализации, создания и отработки системного программного обеспечения, построения моделей прикладных задач.
Практическую ценность работы подтверждает акт №83/6-4328 от 26.10.2010 о внедрении архитектуры глобально адресуемой памяти мультитредово-потокового суперкомпьютера в ОАО "НИЦЭВТ".
Полученные результаты исследования возможностей реализации средств продуктивного параллельного программирования используются при реализации интерфейсов и языков PGAS-класса для суперкомпьютера "Ангара" и суперкомпьютеров поколения СКИФ-4.
Апробация работы и публикации
Основные положения работы докладывались на второй международной конференции "Параллельные вычислительные технологии" (ПАВТ-2008), на XIV международной конференции студентов, аспирантов и молодых ученых Ломоносов-2007, на научных семинарах в НИВЦ МГУ под руководством член-корр. РАН д.ф.-м. н. Вл. В. Воеводина, в ОАО "НИЦЭВТ" под руководством к. ф.-м. н. Л. К. Эйсымонта, а также в ИПМ РАН (направление - "Программирование").
По результатам работы имеется восемь публикаций [1, 2, 3, 4, 5, 6, 7, 8], в том числе три статьи в журналах из списка ВАК [1, 6, 7] и патент РФ [5].
Объем и структура работы