Как работает первый гибридный процессор x86 +18




Диаграмма вычислительной микросхемы в процессоре Intel Lakefield: одно ядро Core (Sunny Cove) и четыре ядра Atom (Tremont)

Десять лет назад ARM представила гетерогенную архитектуру многоядерных процессоров big.LITTLE с разными ядрами: одни были высокопроизводительными, а другие — энергоэффективными. Такая гибридная система позволила значительно уменьшить энергопотребление CPU во время фоновой работа приложений (то есть почти всегда). Следствием стало увеличение времени работы устройств.

В 2019 году гетерогенную архитектуру наконец-то впервые применила Intel в процессорах x86. В 2020 году на рынок выйдут два процессора Lakefield с конфигурацией 1+4 (одно ядро Core и четыре ядра Atom), пишет AnandTech.

Процессоры Lakefield


Процессоры Intel Lakefield
Ядра Базовая
частота

турбо
nT
турбо
Gen11
IGP
IGP
частота
DRAM
LP4
TDP
i5-L16G7 1+4 1400 3000 1800 64 EU 500 4267 7 Вт
i3-L13G4 1+4 800 2800 1300 48 EU 500 4267 7 Вт

Сравнение с другими CPU


Сравнение Lakefield с другими процесоорами
Intel
i7-L16G7
Intel
i3-1005G1
Intel
m3-8100Y
Intel
N5030
Qualcomm
SD 7c
SoC Lakefield Ice
Lake-Y
Amber
Lake-Y
Goldmont+ Kryo
Конфигурация ядер 1+4 2+0 2+0 0+4 0+8
TDP 7 Вт 9 Вт 5 Вт 6 Вт ~7 Вт
CPU 1 x SNC
4 x TNT
2 x SNC 2 x SKL 4 x GMN+ 8 x Kryo
GPU Gen 11
64 EU
0,5 ГГц
Gen 11
32 EU
0,9 ГГц
Gen 9
24 EU
0,9 ГГц
Gen 9
18 EU
750 МГц
Adreno
618
 
LPDDR 4267 3733 LPD3-1866 2400 4267
Wi-Fi Wi-Fi 6* Wi-Fi 5* - - Wi-Fi 6
Модем - - - - Cat15/13

Бенчмарки




Сами процессоры пока не появились в свободном доступе, поэтому остаётся ориентироваться только на бенчмарки от Intel. Компания приводит только два сравнения: с Amber Lake-Y, то есть i7-8500Y на 5 Вт, а также i5-L16G7 сам с собой в режимах 1+4 и 0+4 (по сути, сравнение с четырёхъядерным дизайном Atom).

По первому пункту в сравнении с Amber Lake-Y:

  • +12% производительность одного треда по SPEC2006 (3,0 ГГц у Lakefield против 4,2 Ггц у Amber Lake-Y)
  • +70% производительность графики по 3DMark11 по сравнению с HD615 (24 EU, Gen 9,5 на 1,05 ГГц, 2x4 GB LPDDR3-1866) против HD (64 EU, Gen11 на 500 МГц, 2x4 GB LPDDR4X-4267)
  • +24% энергоэффективность по ваттам на WebXPRT 3
  • +100% загрузки AI на графику, пакет ResNet50 128 на OpenVINO

Режим 1+4 по сравнению с 0+4 даёт прибавку 33% в веб-производительности и +17% к энергоэффективности. По сути, в большинстве задач Lakefield будет работать как четырёхъядерный Atom.


Заводская проверка на прочность процессоров Intel Lakefield. Фото: AnandTech

Зачем процессору «большое» ядро? Оно нужно для обработки самых приоритетных прерываний, когда необходимо обеспечить минимальную задержку: нажатия на экран, набор на клавиатуре и тому подобное. Это гарантирует отзывчивость устройства даже в моменты максимальной загрузки остальных четырёх ядер.

Как устроены гетерогенные CPU


Lakefield сочетает на одной микросхеме одно большое ядро Core и четыре малых ядра Atom. В обычных обзорах эти процессоры x86 могут называть «пятиядерными» и обычно записывают как 1+4.


Размер процессоров 12*12 мм

Цель Intel состоит в том, чтобы объединить преимущества энергоэффективного ядра Atom с более энергозатратным, но и более «прожорливым» ядром Core. В результате получился промежуточный процессор между дизайном «все ядра Atom» 0+4 и «все ядра Core» 4+0.

Проще всего сравнивать Lakefield со старыми четырёхъядерными процессорами Atom, куда добавили большое ядро. Кластер из четырёх меньших ядер Atom заботится о больших параллельных нагрузках, в то время как большое ядро реагирует, когда пользователь загружает приложение или касается экрана, или прокручивает страницу в браузере.

Гибридная архитектура уже используется в ARM-процессорах и даже в операционных системах Windows, как процессоры Qualcomm Snapdragon на ноутбуках, таких как Lenovo Yoga (дизайн 4+4). Qualcomm пришлось много работать с Microsoft, чтобы разработать соответствующий планировщик, который может управлять рабочими нагрузками между различными конструкциями процессорных ядер.


Визуализация дизайна разных гетерогенных архитектур CPU (без масштаба)

Основное различие между Qualcomm и Intel заключается в поддержке программного обеспечения: процессоры Qualcomm выполняют инструкции ARM, в то время как процессоры Intel выполняют инструкции x86. Большинство программ для Windows построено для инструкций x86, что ограничивает эффективность Qualcomm на традиционном рынке ноутбуков. Дизайн Qualcomm фактически допускает «трансляцию x86», но область применения ограничена и существует штраф за производительность. Впрочем, работа в этом направлении продолжается.

Трёхмерная компоновка Foveros




Вся микросхема помещается в корпус 12*12 мм2, так что реальный кремний гораздо меньше по размеру: площадь нижней микросхемы 92 мм2, а верхней 82 мм2

Общая конструкция CPU с трёхмерной компоновкой Foveros показана на диаграмме вверху. Как видим, сверху расположена основная вычислительная микросхема, а снизу — базовая.



Верхняя 13-слойная изготавливается по техпроцессу 10 нм, а нижняя 10-слойная — по техпроцессу 22 FFL.

Вычислительная микросхема




Как указано в таблице, микросхемы отличаются друг от друга и производятся по разному техпроцессу.



Графика Gen 11 занимает 37% площади, конфигурация как в процессорах Ice Lake. Сверху располагается ядро Sunny Cove, тоже как в Ice Lake. Инженеры Intel говорили, что они физически удалили с чипа регистры AVX-512, хотя на фотографии они видны.

Снизу четыре ядра Tremont Atom, общей площадью примерно как одно ядро Sunny Cove.

Cодержимое вычислительной микросхемы:

  • 1 x ядро Sunny Cove с 512 КиБ кэша L2
  • 4 x ядра Tremont Atom, 1536 КиБ кэша L2 на всех
  • 4 МБ кэша последнего уровня
  • Межсоединения uncore и ring
  • 64 вычислительных юнита графики Gen11
  • Графические движки Gen11, 2 x DP 1.4, 2x DPHY 1.2,
  • Медиаядро Gen11 с поддержкой видео 4K на 60 fps и 8K на 30 fps
  • Модель обработки изображений Image Processing Unit (IPU) v5.5, поддерживает до шести камер на 16 МП
  • JTAG, Debug, SVID, P-Unit и др.
  • Контроллер памяти LPDDR4X-4267



Схема питания и дизайн сигнальных точек TSV (through silicon vias)

Базовая микросхема



Фотография нижней базовой микросхемы

Базовая микросхема гораздо проще и производится по техпроцессу 22FFL, который представляет собой оптимизированную версию 14-нанометрового техпроцесса с менее жёсткими ограничениями, так что эти чипы Intel может производить без проблем в любом количестве почти без брака. Главная сложность — соединения между двумя микросхемами (die-to-die).


Интерфейс межсоединений Forevos die-to-die interconnect (FDI)



Содержимое базовой микросхемы:

  • Аудиокодек
  • USB 2.0, USB 3.2 Gen x
  • UFS 3.x
  • PCIe Gen 3.0
  • Сенсорный хаб для поддержки постоянной активности (always-on)
  • I3C, SDIO, CSE, SPI/I2C

Первые ноутбуки и планшеты


Уже готов к выпуску ряд ноутбуков и планшетов на базе Lakefield. Среди первых устройств…

ноутбук Galaxy Book S (он также выпускается на процессорах Qualcomm Snapdragon 8cx со сходными техническими характеристиками), должен появиться в продаже в июле 2020 года



складной планшет-ноутбук Lenovo ThinkPad X1 Fold с сумасшедшей ценой $2499 за версию на 1 ТБ



и планшет Microsoft Surface Book Neo, который выйдет ближе к зиме.



Будущее Lakefield




Даже если эта версия Lakefield будет не слишком хорошо выглядеть в бенчмарках, это большой шаг для Intel. Гибридные конструкции и многоуровневая связь между подложками представлена в планах разработки Intel. Всё зависит от того, насколько Intel готова экспериментировать и насколько хорошо сможет реализовать инженерные идеи. Были дискуссии, что Intel, возможно, в будущем рассматривает гибридный дизайн процессора 8+8. Насчёт этого ничего неизвестно, но Ponte Vecchio с многоуровневой подложкой точно запланирован на конец 2021 года.


Размер материнской платы для Lakefield (30*123 мм) по сравнению с материнскими платами предыдущих поколений

Возможно, какие-то инновационные процессоры Intel будут выпущены не для настольных компьютеров, а, например, для автомобилей или сетей 5G. Что касается Lakefield, то по сути это относительно низкопроизводительные CPU, которые будут устанавливать в ноутбуки и планшеты, как процессоры Atom. Заранее можно сказать, что конкурировать в этом сегменте будет непросто, особенно с мобильными процессорами AMD и ARM-процессорами типа Snapdragon. Но чем больше конкуренции — тем лучше покупателям.

Теги:




Комментарии (36):

  1. prostofilya
    /#21813860 / +8

    А можно где-то поподробнее прочитать про то, как ядро операционной системы собственно раскидывает нагрузку на ядра, как оно понимает что данному процессу требуется больше ресурсов cpu чем другим и отдавать именно ему самое мощное ядро?

    • fedorro
      /#21814536

      Озвученный вопрос тоже интересует. Но на примере одного потока и TurboBoost — никак не понимают, тупят, размазывая поток по всем ядрам, по крайней мере Windows.

      • drWhy
        /#21814692

        Возможно, это не баг, а фича. Частое переключение нагрузки между ядрами позволяет не перегревать одно ядро, размазывая тепловыделение по всем и давая возможность системе охлаждения эффективнее утилизировать накапливающееся тепло. Конечно, производительность от этого страдает. Но никто не мешает привязать ресурсоёмкий процесс к определённым ядрам.

        Вероятно, с распространением гибридных процессоров ОС станут уделять больше внимания оптимизации распределения нагрузки по ядрам в зависимости от их особенностей.

        • fedorro
          /#21814782

          Температура тоже включена в оценку TurboBoost, грубо говоря — это забота процессора следить за своей температурой. У меня она даже под самой жестокой нагрузкой не поднимается выше 60C, т.к. TDP системы охлаждения в два раза выше TDP процессора, «оверкилл», зато тихо.
          В ручную переключать — тоже не всегда (почти никогда) вариант, т.к. бывают приложения которые то в несколько потоков считают, то в один, или постоянно запускают фоновые однопоточные процессы — тоже обновление системы, например.

          • drWhy
            /#21814872

            Автоматизировать динамическое переключение нагрузки чужого приложения по ядрам довольно несложно, ЕМНИП в Windows есть что-то вроде API.
            60? не слишком много, но если какое-то одно ядро будет постоянно горячее остальных, кроме возможного уплывания его характеристик ещё и создаются нагрузки на кристалле, связанные с тепловым расширением. И ещё при наличии теплораспределительной крышки термопаста может деградировать локально над ядром.
            Насколько быстро меняется температура ядер и других блоков процессора в зависимости от нагрузки хорошо видно

            на этом видео:

            • fedorro
              /#21814944

              Писать свой планировщик — то ещё приключение, в том то и вопрос что хотелось бы иметь уже в ОС такой. Ну и использовать постоянно одно ядро — тоже не обязательно, можно вполне его переключать, но реже, раз в несколько секунд, например. Иначе получается: «У меня для Вас есть посылка отличная частота с TurboBoost, только я Вам её не отдам ...»

              • drWhy
                /#21814984

                Ну пользователю может быть виднее, чем ОС, что за специфическое приложение он запустил и как правильнее распределять под него ядра. Но, конечно, ОС как-то должна научиться различать специфические ядра и научится все этим хозяйством рулить. Вероятно, какую-то информацию о специфике процессора должен предоставлять драйвер.

                • fedorro
                  /#21815016

                  Я и привел пример что ОС даже свои процессы не может распределить оптимально. Специфика возможной реализации уже выходит за рамки первоначального вопроса.

                • blaze79
                  /#21819500

                  это все давно есть, сейчас в многоядерных процессорах некоторые ядра тупо лучше остальных. ос умеет нагружать именно их

      • fedorro
        /#21816016

        Отвечу сам себе: Turbo Boost Max Technology 3.0 — походу и есть поумневший планировщик, который может запускать однопоточный код на выделенном ядре для повышения производительности.

      • lonelymyp
        /#21817716

        Да вроде всё нормально там, однопоточный процесс постоянно скачет по ядрам и частота нагруженных ядер синхронно с загрузкой бустится.
        Разницу можно заметить выключив турбобуст, скорость работы этого процесса снизится пропорционально частоте.

    • EvilMan
      /#21814704 / -1

      Если про Windows — то у Руссиновича и Соломона в книге "Внутреннее Устройство Windows", если про Linux — то основы почитать можно у Бовета и Чезатти в "Understanding the Linux kernel", а потом уже в дайджестах на lwn.net и в документации на ядро.

  2. WhiteWhiteWalker
    /#21814088

    Интересно, насколько эти новые процессоры лучше того же x5-z8350 c TPD 2Вт по производительности?

    • ObitoUchiha1985
      /#21815388 / +1

      Раза в 2 и не только новые процессоры, а старые с TDP 5-7 вт и двумя ядрами Skylake тоже.
      По сути получается что 4 слабых ядра выходят производительнее чем одно мощное при многопоточной нагрузе, но мощное ядро раза в 2 производительнее при однопоточной нагрузке.
      Короче без специального планировщика под эти процы толку от них не будет и они вряд-ли будут лучше старых 5-7 вт процов у которых 2 мощных ядра.


      А процы типа: atom z3735, x5, x7 вообще не советую, они очень слабые по сравнению с m3, m5, i3, i5. Но при этом они очень дешёвые, поэтому встречаются в китайских планшетах по 10к руб.

      • DaylightIsBurning
        /#21815450 / +2

        Но в ноутбуках/планшетах потребность в столь многопоточной нагрузке очень невелика, а именно в этот сегмент эти чипы и ориентированы. Скорее мог бы быть смысл сделать наоборот: 1 атом + 2-4 core, что бы idle потребление снизить.

        • ObitoUchiha1985
          /#21816804

          В конечном счёте всё зависит от цены, atom процы стоят по $20, поэтому есть дешёвые планшеты с ними, я сам давно брал за 4200р подобный планшет.
          А вот core m процы стоят ровно так же как U и H процы для мощных ноутов, поэтому планшеты дорогие, а в ультрабуках и U процы нормально живут.
          Я полностью согласен что лучше 2 core ядра и 1-2 атомных, но сколько это будет стоить не понятно, вроде на эти процы цен пока нету, но думаю они будут явно не $20 за штуку, а скорее всего дороже чем обычные core M, а значит я не знаю зачем они вообще нужны тогда. Планшеты за 40-50к не думаю что имеют хоть какой-то спрос.

          • DaylightIsBurning
            /#21816880

            судя по картинке, по площади 2xCore ~= 4x Atom, то есть по цене 2+1 и 1+3(4) должны не сильно отличаться.

            • ObitoUchiha1985
              /#21816894

              Если тупо по площади считать, то атомы по размерам 12х12, что по площади больше чем core M процы а core M процы стоят минимум $300.
              Так откуда такие цены то $20 за атом и $300+ за core?
              В этом гибридном вообще ещё 2 кристалл и ещё память, что будет стоить хз сколько.

              • DaylightIsBurning
                /#21816924

                Не знаю, как интел устанавливает цены. Я смотрю на картинку из статьи и выходит, что вместо 4хатомов по площади можно было впихнуть ещё 1 core + 1-2 атома (на глаз). По стоимости производства (себестоимости) должно выйти одинаково.

                • ObitoUchiha1985
                  /#21816940

                  Ну так какая разница нам потребителям сколько там это по площади стоит для интела?
                  Главное сколько будет стоить проц и устройства с ним.
                  И что-то пока-что дешёвых устройств с этими новыми процами не ожидается, а по производительности они +- как core M и сильно хуже U процов.
                  Единственный их плюс что они в фоне не жрут и могут лежать всегда включенные как телефоны.

                  • DaylightIsBurning
                    /#21817080

                    согласен. Я имел ввиду, что Интел, возможно, могут сделать гибрид 2xCore+1xAtom с ценой аналогичной этим гибридам, который был бы более интересен для планшетов чем 1+4.

                    • ObitoUchiha1985
                      /#21817126 / +2

                      Мне кажется что интел всё таки поставил 4 ядра для якобы много потока и одно ядро для хорошей отзывчивости.
                      Вряд-ли они будут теперь что-то менять, когда процессоры уже готовы.
                      Как вариант в будущих 7нм может добавят ещё одно ядро core ну или дальше будут придерживаться той же стратегии и добавят ещё пару атомных.
                      Я честно не знаю зачем все помешались на этих медленных маленьких ядрах.
                      У меня вот redmi note 8 pro, 2 мощных ядра, ну и конечно же всегда всё работает на них, а остальные 6 подключаются только если многопоток.
                      И производительность при загрузке всех ядер +- такая же как при загрузке двух мощных. То есть смысла нету в этих слабых ядрах и 1-2 таких ядер хватило бы для фоновых задач, когда экран выключен.

                    • blaze79
                      /#21819514

                      в этом не много смысла. при многопоточной нагрузке в условиях малого потреболения атомы лучше корок. а при малопоточной не нужно 2 ядра коре

                      • DaylightIsBurning
                        /#21819746

                        Многопоточная нагрузка в условиях малого потребления — это вещь экзотическая :). При малопоточной нагрузке вроде browser/word 2 ядра core всё же не помешает, может даже 4, вот если более — тогда да, можно и атомами обойтись. Опять же, выигрыш по энергопотреблению (30%) есть только при низкой нагрузке, типа 50% от максимума одного атома, что соотв. 35% Core, это видно по однопоточному графику. Это значит, что при одинаковой нагрузке (почти любой) три ядра Core не будут уступать по энергеэффективности 4м ядрам Atom. При этом у Core будет больше запас по производительности (но тогда придётся платить энергопотреблением).
                        Единственный случай, когда у атома действительно ниже энергопотребление — это idle или почти idle.

  3. drWhy
    /#21814178

    Выглядите довольно интересно. Ввиду относительной новизны FDI для Intel любопытно, насколько хорошо отработана технология пакетизации чипов и не будет ли бессвинцовый припой слабым звеном в условиях недостаточного охлаждения, ибо разборка и ремонт столь компактных конечных изделий не обещают быть элементарными.

  4. DaylightIsBurning
    /#21815150 / +3

    Если судить по рисунку power/performance из статьи, то смысла в Атомах почти нет, при 50% performance Atom выигрывает буквально 2 процентных пункта по энергопотреблению, то есть он на 10% эффективней. При уровне нагрузки в 30% разрыв эффективности доходит до 20-30%. На общем фоне это экономия на спичках. Думаю реальная экономия — финансовая, т.к. Атом занимает меньше места на чипе.

    • blaze79
      /#21816692

      там забыли второй рисунок (для многопотока), там наглядно видно зачем этот самый атом нужен.

      • DaylightIsBurning
        /#21816786

        Да, многопоточный график выглядит эффектно, но обманчив, т.к. одно core по площади занимает меньше 4х атом, нужно сравнивать 4xAtom vs 2xCore и тогда разрыв по энергопотреблению сильно сократится, скорее всего в 4 раза. image
        Из однопоточного графика видно что при загрузке до 1.1=2х0.55 энергопотребление у 2хCore и 2х Atom будет одинаковое (графики однопотока пересекаются).
        Если брать 2xCore vs 4xAtom, то для atom выйдет: performance=4*0.55=2.2, power=0.25*4=1.0. Теперь возьмем 2xCore: perf=2.0, power=2.0 либо performance=1.1, power=0.5. Это при линейном росте производительности от числа ядер.

        • blaze79
          /#21816832

          причем тут площадь? их волнует потребление. а тут при одно потреблении в районе 62 процента, 4 ядра третмонта дают в 2 раза больше производительности.
          ну и с площадью там не так просто, там еще кэш L3 не показан.

          интереснее, почему они обошлись без HT. скорее всего решили, что лучше загружать исполнительные устройства на всех ядрах, более равномерно выделяя тепло, чем парить одно ядро

          • DaylightIsBurning
            /#21816884

            площадь при том, что она определяет цену. Судя по картинке, 4 атома по площади примерно как 2 Core, а не 1, соответственно было бы интересно так и сравнивать. Если растянуть 1xCore в два раза по обеим осям, получится perf=0.95, power=1.25 по сравнению с 4хAtom. Хуже, но всего лишь на 30% примерно.

            • blaze79
              /#21817028

              с учетом того, что ядро занимает очень малую часть кристалла, предположение что это как-то сильно влияет на цену сильно преувеличено. их волновало только производительность в условиях зажатого энергопакета

              • DaylightIsBurning
                /#21817092

                То есть они сделали 1+4 вместо 2.5+0 при одинаковой цене только ради 30% энергопотребления при многопоточной загрузке? Как-то не оч. интересно. Мне трудно понять, на что Интел рассчитывает. Вряд ли эти гибриды смогут существенно продлить жизнь планшетам в сравнении с простым 2хCore или, ещё лучше, 2+1.

                • blaze79
                  /#21819540

                  я не понял, что такое 2.5 + 0
                  1) интел сделала нишевый продукт, который может в однопоток, может в многопоток. в условиях сильно ограниченного потребления
                  2) опробовала многослойную компоновку
                  2+1 вообще бессмысленная схема, можно сделать 2+0 и просто ронять частоту.
                  судя по графику в многопоточной нагрузке 2 коре проиграют 4 атомам

                  • DaylightIsBurning
                    /#21819774

                    можно сделать 2+0 и просто ронять частоту
                    нельзя, видно что в idle у Core высокое минимальное потребление. Не знаю почему, так на графике нарисовано.
                    может в многопоток. в условиях сильно ограниченного потребления
                    3 ядра Core не уступят 4м ядрам атом по энергопотреблению в многопотоке, это видно по пересечению однопоточных графиков.
                    Моя мысль в том, что 2-3 ядра Core всегда* лучше 4х ядер Атом по производительности и не хуже по энергопотреблению. *Кроме очень низкой однопоточной нагрузки вроде планшет в idle. Для этого можно добавить 1 ядро атом.

            • blaze79
              /#21817038

              просто для иллюстрации — посмотрите сколько интел жертвует площади под IPU

  5. blaze79
    /#21816760

    у меня два вопроса
    1) почему отключили HT ядру коре? из-за большого количества портов санниковы выигрывают от HT больше других процессоров
    2) почему отключили HT ядрам третмонт? у него вообще декодер сразу рассчитан на HT и однопотоке слаб