Новинка от Intel

Долгожданный тип фабрики для HPC-кластеров был представлен Intel на выставке SC 15, которая стала крупнейшим мероприятием в этой сфере. Европейский вариант ICS 2015 проиграла в 4 раза по потоку посетителей, как впрочем, и по площади, и по количеству участников. Но некоторые странности все же было. Например, появление многих экспонатов в летних анонсах, фактическихновинок было маловато. РФ представляла только РСК, представившая уже готовые системы PetaStream и Tornado. Реально свежие анонсы были известны до старта мероприятия, к тому же не все заявленные продукты обнаружились на стендах. Ну и наконец, выставка изобиловала стендами, которые были только косвенно связаны с HPC.

Радует, что эра экзофлопных вычислений уже не за горами, а HPC становятся доступнее, позволяя решать множество задач. Сегодня в сложных вычислениях нуждаются не только крупные корпорации, фирмы среднего размера тоже пользуются ими для управления финансами, применяют их в инженерии, области здравоохранения и биологии. Другой востребованной темой сезона стало машинное обучение, о котором наперебой твердят компании.

Основываться новинка станет на SSF, которая была анонсирована еще летом. На выставке же Intel объявила о скором выходе решений на базе системы и сотрудничестве со многими компаниями в этой сфере. Также Intel занимается созданием 5 центров для осуществления  параллельных вычислений, которые будут необходимы во время последующей разработки элементов SSF. Для создания программной модели для HPC-решений объявили о создании нового сообщества OpenHPC. Этот шаг поможет ускорить развертывание кластеров и улучшить совместимость разработок различного авторства. Одним из основателей нового сообщества стала Интел, которая планирует в его рамках предложить продукты в составе SSF уже в этом году.

Важнейшим же заявлением Интел стала технология каналов передачи данных на высокой скорости OPA, которая при всем своем техническом совершенстве будет работать с текущей версией TrueScale Fabric. Нередко новую архитектуру считают аналогом Infiniband EDR, происходит это из-за типа подключения (сочетание оптического кабеля и медного) и скорости (100 Гбит/с для 4 портов). Но эти две технологии существенно различаются. Intel отдает работу с кабелями соответствующим производителям, делает ПО для OPA с открытым кодом, предпочитая жестко контролировать другие компоненты. Intel занимается производством ASIC (для свитчей и хост-адаптеров), которые применяются в устройствах компании, а также будут предлагаться OEM-партнерам.

Устройствам существующего поколения Интел устанавливает два типа однопортовых адаптеров, которые различаются только количеством используемых линий PCIe (минимум 8). Оба варианта будут использованы и в новом варианте на базе Intel Xeon, а текущие в некоторых случаях имеет подключения Omni-Path. Интересно, что Intel собирается сделать их общедоступными в текущем году, но суперкомпьютеры Atos, Cray и Penguin Computing уже оснащены этими чипами, да и одна партия устройств уже распродана. Все эти системы могут использовать коммутаторы на 24…768 подключений. Планируемые Intel Xeon будут иметь процессоры с Omni-Path, а последующее поколение, по всей видимости, будет обладать комплексом этих решений.

Самым интересным в Intel OPA является фабрика, обеспечивающая организацию узлов для прохождения сигнала по кратчайшему пути без сбора в центре с последующим распределением. Такая оптимизация позволяет объединить множество узлов в систему для выполнения одной задачи, что является отличительной чертой HPC. Получается, что фабрика и разрабатывалась для работы с приложениями определенного типа.

По большому счету, концепция не является новаторской, фабрики создавались и при помощи других технологий, например, Infiniband. Но наличие OPA рядом с основным кристаллом у Intel дает надежду на серьезное снижение задержек. Также новинка позволит сохранять связь даже с повреждением на линии, Infiniband в аналогичной ситуации прекратит работу или предоставит соединение на минимальной скорости. OPA скорость тоже уменьшит, но пропорционально. Сначала будет отключена одна из линий, если ошибка не исчезнет, то перестанет действовать вторая. При продолжении появления ошибок подключение останется на 1Ч (25 Гбит/с). Этот подход незаменим при долгих расчетах, когда даже кратковременная потеря связи приводит к необходимости повторного запуска обработки данных.

Если копнуть поглубже, то можно обнаружить и изменения для улучшения процесса передачи данных. Для этого был увеличен наибольший размер блока до 8 и 10 килобайт для MPI-данных и пакетов, работающих с хранилищем, соответственно. Все пакеты разбиваются на флиты (65 бит), которые собираются в LTP по 16 штук (в сумме не больше 1056 бит). Далее кортеж путешествует по фабрике, важно, что LTP хранятся в буфере отправителя. Это позволит в случае выявления ошибки в передаче сразу же повторить процесс с места неполадки. Эта немного запутанная схема обработки повышает скорость и надежность передачи, а также упрощает внутрифабричное управление трафиком.

Теоретически OPA способна обеспечить 32 класса трафика с заранее определенным приоритетом, по факту будет востребовано 4-8. Конечно, действительное устройство более сложно, позволяя выставлять приоритеты на различных уровнях – от линий до фабрик. В результате каждый узел сам определяет очередь передачи полученного пакета, ориентируясь на приоритеты, а не на время получения. Механизм интересен, но не беспроблемен, придется справиться с распределением ресурсов, разделением задач, особенностями протоколов отдельных приложений.