NVIDIA А5500: реальная мощь или фейслифтинг? +4


Одной из новинок конференции GTC 2022 стала видеокарта RTX A5500, расширяющая ассортимент профессиональных графических ускорителей NVIDIA. Она построена на архитектуре Ampere с RT-ядрами второго поколения и тензорными — третьего. Видеокарта выделяется наличием 24 Гбайт памяти GDDR6 с функцией коррекции ошибок ECC и пиковой пропускной способностью 768 Гбайт/с.

В составе выполненного по технологии 8 нм графического чипа RTX A5500 присутствуют 10 240 ядер CUDA, 80 RT-ядер и 320 тензорных ядер. В компании NVIDIA отмечают, что производительность ускорителя в операциях одинарной точности (FP32) составляет 34,1 Тфлопс, а в операциях половиной точности (FP16) — 272,8 Тфлопс.

Все это, как говорится, на бумаге. Проверим реальные способности видеокарты, благо возможность выбора машины с ней у HOSTKEY недавно появилась.

Энкодинг

Сравнивая RTX A5000 и RTX A4000, мы убедились, что ни рост частоты процессора, ни объем видеопамяти не оказали большого влияния на производительность блоков энкодинга видеокарт. Читатели также справедливо заметили, что мы использовали автоматическую настройку квантования (а следовательно, и качества получаемого видео) вместо готового пресета кодека h264, а также упустили важный для  стриминга 60 fps энкодинг.

Повторим те же тесты на RTX A5500 и первым делом запустим энкодинг потока 1080p в 30 fps. Если взять результаты A5000, то она (как и A4000) осилила только 14 потоков.

A5500 показывает себя лучше и при 14 потоках явно имеет запас прочности (NVIDIA обещает до 16 потоков). При этом видеокарта потребляет меньшую на 5 Вт мощность и имеет более низкую температуру видеоядра (+35° C против +47° C у A5000), но видеопамяти задействует на 500 Мб больше.

Вывод nvidia-smi dmon -s pucm:

gpu

pwr

gtemp

mtemp

sm

mem

enc

dec

mclk

pclk

fb

bar1

Idx

W

C

C

%

%

%

%

MHz

MHz

MB

MB

0

92

35

-

13

3

100

0

7600

1890

4141

32

Вывод ffmpeg дает нам следующее:

frame = 1051 fps = 32 q = 33.0 size = 9472 kB time = 00:00:34.93 bitrate = 2221.2 kbits/s speed = 1.07x

16 видеопотоков адаптер явно не вытягивает:

gpu

pwr

gtemp

mtemp

sm

mem

enc

dec

mclk

pclk

fb

bar1

Idx

W

C

C

%

%

%

%

MHz

MHz

MB

MB

0

96

44

-

13

4

100

0

7600

1905

4732

32

frame = 901 fps =28 q= 26.0 size = 7680 kB time = 00:00:29.93 bitrate = 2101.8 kbits/s speed = 0.917x

Начинается пропуск кадров, и картинка наполняется артефактами: кодек не справляется и автоматически ухудшает качество (параметр q при этом прыгает от 26 до 50).

Попробуем записать видео в высоком качестве. Задаем параметры, соответствующие high profile для кодека h264: он считается основным для цифрового вещания и видео на оптических носителях, особенно для телевидения высокой четкости (используется также для видеодисков Blu-Ray и вещания DVB HDTV). 

Снова запускаем 14 потоков. Нагрузка на видеокарту возрастает, но карта держится:

gpu

pwr

gtemp

mtemp

sm

mem

enc

dec

mclk

pclk

fb

bar1

Idx

W

C

C

%

%

%

%

MHz

MHz

MB

MB

0

95

43

-

13

4

100

0

7600

1890

4141

32

Вывод ffmpeg:

frame = 968 fps = 32 q = 23.0 size = 7680 kB time = 00:00:32.16 bitrate = 1955.9 kbits/s speed = 1.07x

Пробуем 4K и 30 fps. Три потока в high profile карта осиливает без проблем:

frame = 257 fps = 37 q = 33.0 size = 2304 kB time = 00:00:08.46 bitrate = 2229.3 kbits/s speed = 1.2x

На четырех потоках она слегка пасует (как помните, A5000 при четырех потоках и автоматической настройке качества смогла выдать только 25–26 кадров с артефактами):

frame = 985 fps = 30 q = 37.0 size = 7424 kB time = 00:00:32.73 bitrate = 1858.0 kbits/s speed = 0.995x

Аппаратно имеем следующую картину:

gpu

pwr

gtemp

mtemp

sm

mem

enc

dec

mclk

pclk

fb

bar1

Idx

W

C

C

%

%

%

%

MHz

MHz

MB

MB

0

89

32

-

9

4

100

0

7600

1920

1659

11

По факту видеокарта работает на более высокой частоте, чем при энкодинге видео в FullHD, но основные ядра у нее не загружены (чип холодный, как и видеопамять).

Стриминг 4K при 60 кадрах в секунду ожидаемо просел до двух потоков, но мы использовали уже не мультфильм, а запись геймплея игры Doom Eternal, что создавало некоторые проблемы для аппаратного декодера. A5500 справилась, но на пределе, и без ложки дегтя не обошлось: энкодинг в AV1 аппаратно недоступен, а при вещании через VLC c Ubuntu 20.04 мы не смогли выдать 60 fps, поскольку поток постоянно резался до 30 кадров в секунду. Пришлось городить костыль из ffmpeg и сервера вещания:

frame = 240 fps = 61 q = 32.0 size = 2304 kB time = 00:00:09.48 bitrate = 3991.0 kbits/s speed = 1.03x

Вывод: энкодеры в RTX A5500 улучшили, и при равных условиях она превосходит по мощности A5000, выдавая субъективно лучшую картинку и работая на меньших частотах.

CUDA/RT/Тензорные ядра

А как с остальными блоками? Мы сравнили новинку с A5000 в нескольких тестах (подробнее о методиках можно прочитать в одной из предыдущих статей):

  1. Тест возможностей для майнинга (с помощью PhoenixMiner).

  2. Тест возможностей машинного обучения. Для этого мы провели на каждой из карт обучение нейросети на определении, кошка или собака изображена на фотографии, использовав для этого 100 эпох.

  3. Тест V-Ray 5 Benchmark на рендер как в связке CPU + GPU (CUDA-тест), так и чисто на GPU (тест RTX).

  4. Тест LuxMark в трех разных сценах, проверяющий скорость в OpenCL на GPU.

  5. Тест Blender в разных сценах в режиме OptiX с использованием всех возможностей RTX.

Итоговая таблица:

NVIDIA GPU

Скорость майнинга, MH

ML test 100 epoh

V-Ray 5 Benchmark (vpaths/vrays)

LuxMark

Blender

RTX A5000

86.66

9 мин. 9 сек.

V-Ray GPU CUDA — 1381 vpaths

V-Ray GPU RTX — 2288 vrays

Lux ball — 74 795

Hotel — 15 794

Mic — 45 640

Monster — 2312

Junkshop — 1331

Classroom — 1148

RTX A5500

87.319

8 мин. 59 сек.

V-Ray GPU CUDA — 1594 vpaths 


V-Ray GPU RTX — 2613 vrays

Lux ball — 78 554

Hotel — 16 219

Mic — 48 832

Monster — 2468

Junkshop — 1388

Classroom — 1223


RTX A5500 лучше показывает себя в рендеринге, но тут все зависит от оптимизации: в V-Ray 5 мы имеем отрыв в 13–14%, в LuxMark — 5–7%, похожие цифры в 5–7% и в Blender. С учетом погрешности выдаваемых «попугаев» в пару процентов в зависимости от прогона, итоговый прирост производительности не сильно впечатляет.

В машинном обучении A5500 быстрее минимум на 15%, а вот для майнеров будет неприятным сюрпризом практически одинаковый хэшрейт у обеих карт. Отметим, впрочем, что решение позиционируется производителем для профессионалов в графике и нейросетях.

Выводы

Увы, чуда не случилось. Реальный прирост производительности составляет 5–10% в зависимости от выполняемой задачи, а в случаях майнинга и энкодинга прироста не наблюдается.

В плюсах имеем: меньшее энергопотребление, лучшее охлаждение за счет меньшего тепловыделения видеочипа, а также больший объем видеопамяти, что должно положительно сказаться на интенсивно использующих ее задачах.

Стоит ли это потраченных денег? Решать покупателю, а у нас вы можете заказать выделенный сервер с NVIDIA RTX A5500, если захотите изучить новинку самостоятельно.

А специальный промокод «Я С ХАБРА» откроет врата щедрости: назовите его консультанту на сайте при размещении заказа — и получите дополнительную скидку. Платить можно как всегда в рублях с НДС российской компании или в евро — компании в Нидерландах.




К сожалению, не доступен сервер mySQL