В защиту swap'а [в Linux]: распространенные заблуждения +74



Прим. перев.: Эта увлекательная статья, в подробностях раскрывающая предназначение swap в Linux и отвечающая на распространённое заблуждение на этот счёт, написана Chris Down — SRE из Facebook, который, в частности, занимается разработкой новых метрик в ядре, помогающих анализировать нагрузку на оперативную память. И начинает он своё повествование с лаконичного TL;DR…



TL;DR


  • Swap — достаточно важная часть хорошо функционирующей системы. Без него сложнее достичь разумного управления памятью.
  • Swap нужен не столько для срочного получения памяти, сколько для ровного и эффективного высвобождения памяти. Использовать его в качестве «срочной памяти» в общем случае очень вредно.
  • Отключение swap не спасает от проблемы дискового ввода/вывода при конкуренции за память — дисковый I/O просто перемещается с анонимных страниц на файловые. Это не только может быть менее эффективным, поскольку остаётся меньший пул страниц, доступных для высвобождения, но и само по себе может способствовать появлению этой высокой конкуренции.

Предисловие


Работая над улучшением и использованием cgroup v2, я успел поговорить со многими инженерами об их отношении к управлению памяти, особенно о поведении приложения под нагрузкой и об эвристическом алгоритме операционной системы, используемым «под капотом» для управления памятью.

Повторяющейся темой этих обсуждений стал swap. Тема swap активно оспаривается и плохо понимается даже теми, кто проработал с Linux долгие годы. Многие воспринимают его как нечто бесполезное или очень вредное — мол, это пережиток прошлого, когда памяти было мало и диски являлись необходимым злом, предоставляющим столь нужное пространство для подкачки. И до сих пор, все последние годы, я достаточно часто наблюдаю споры вокруг этого утверждения: немало дискуссий провёл и я сам с коллегами, друзьями, собратьями по индустрии, помогая им понять, почему swap — это по-прежнему полезная концепция на современных компьютерах, имеющих гораздо больше физической памяти, чем в былые времена.

Широкое недопонимание существует и насчёт предназначения swap'а: многие люди видят в нём лишь «медленную дополнительную память» для использования в критических ситуациях, но не понимают его вклад в адекватное функционирование операционной системы в целом при нормальной нагрузке.

Многие из нас слышали такие распространённые фразы о памяти: «Linux использует слишком много памяти», «swap должен быть вдвое больше размера физической памяти» и т.п. Эти заблуждения легко развеять и их обсуждения стали более точными в последние годы, однако миф о «бесполезном» swap гораздо больше завязан на эвристику и таинство, которые не поддаются объяснению с простой аналогией, — для его обсуждения требуется более глубокое понимание управления памятью.

Эта публикация в основном нацелена на тех, кто администрирует Linux-системы и заинтересован в том, чтобы услышать аргументы против отсутствия/слишком малого объёма swap или работы с vm.swappiness, выставленным в 0.

Введение


Сложно говорить, почему наличие swap'а и перемещение в него страниц памяти — хорошо при нормальной работе, не разделяя понимание некоторых базовых нижележащих механизмов в управлении памятью в Linux, поэтому давайте убедимся, что говорим на одном языке.

Типы памяти


В Linux существует множество различных типов памяти, и у каждого из этих типов есть свои свойства. Понимание их особенностей — ключ к пониманию, почему swap важен.

Например, есть страницы («блоки» памяти, обычно по 4k), ответственные за хранение кода для каждого процесса, запущенного на компьютере. Есть также страницы, ответственные за кэширование данных и метаданных, относящихся к файлам, к которым обращаются эти программы для ускорения своих обращений в будущем. Они являются частью страничного кэша [page cache], и далее я буду на них ссылаться как на файловую [file] память.

Есть также страницы, которые отвечают за распределение памяти, сделанное внутри этого кода, например, когда с malloc выделяется новая память для записи в неё или когда используется флаг MAP_ANONYMOUS в mmap. Это «анонимные» страницы — они так называются, потому что ничем не «поддерживаются», — и я буду ссылаться на них как на анонимную [anon] память.

Есть и другие типы памяти: разделяемая память, slab-память, память стека ядра, буферы и иные, — но анонимная память и файловая память известны лучше других и просты для понимания, поэтому именно они будут использоваться в примерах, которые, впрочем, равносильно применимы и к другим типам.

Память с высвобождением и без


В размышлениях о конкретном типе памяти одним из главных вопросов становится возможность её высвобождения. «Высвобождение» [reclaim] означает, что система может, без потери данных, удалить страницы этого типа из физической памяти.

Для некоторых типов страниц это сделать весьма просто. Например, в случае чистой [clean], т.е. немодифицированной, памяти страничного кэша мы просто кэшируем для лучшей производительности то, что уже есть на диске, поэтому можем сбросить страницу без необходимости в каких-либо специальных операциях.

Для некоторых типов страниц это возможно, но непросто. Например, в случае грязной [dirty], т.е. модифицированной, памяти страничного кэша мы не можем просто сбросить страницу, потому что на диске ещё нет произведённых модификаций. Поэтому необходимо или отказаться от высвобождения [reclamation], или перенести наши изменения обратно на диск перед тем, как сбрасывать эту память.

Для некоторых типов страниц это невозможно. Например, упомянутые раньше анонимные страницы могут существовать только в памяти и никаком ином резервном хранилище, поэтому их необходимо хранить здесь (т.е. в самой памяти).

О природе swap'а


Если поискать объяснения, зачем нужен swap в Linux, неизбежно находятся многочисленные обсуждения его предназначения просто как расширения физической RAM для критических случаев. Вот, например, случайный пост, который я вытащил из первых результатов в Google по запросу «what is swap»:

«По своей сути swap — это экстренная память; запасное пространство для случаев, когда система на какое-то время нуждается в большем количестве физической памяти, чем доступно в RAM. Она считается «плохой» в том смысле, что медленная и неэффективная, и если системе постоянно требуется использовать swap, очевидно, ей не хватает памяти. [..] Если у вас достаточно RAM для удовлетворения всех потребностей и вы не ожидаете её превышения, вы можете прекрасно работать и без swap-пространства».

Поясню, что я вовсе не обвиняю автора этого комментария за содержимое его поста — это «общеизвестный факт», признаваемый многими системными администраторами Linux и являющийся, пожалуй, одним из наиболее вероятных ответов на вопрос о swap'е. К сожалению, это вдобавок и неправильное представление о предназначении и использовании swap'а, особенно на современных системах.

Как я уже писал выше, высвобождение анонимных страниц «невозможно», поскольку анонимные страницы по своей природе не имеют резервного хранилища, к которому можно обратиться при удалении данных из памяти, — таким образом, их высвобождение приведёт к полной утере данных из соответствующих страниц. Однако… что будет, если мы смогли бы создать такое хранилище для этих страниц?

Вот именно для этого и существует swap. Swap — область хранения для этих, кажущихся «невысвобождаемыми» [unreclaimable], страниц, позволяющая отправлять их на устройство хранения по запросу. Это означает, что их можно начинать считать такими же доступными для высвобождения, как и их более простые в этом смысле друзья (вроде чистых файловых страниц), что позволяет эффективнее использовать свободную физическую память.

Swap — это преимущественно механизм для равного высвобождения, а не для срочной «дополнительной памяти». Не swap замедляет работу вашего приложения — замедление происходит из-за начала совокупной конкуренции за память.

Итак, в каких же ситуациях это «равное высвобождение» будет оправданно выбирать высвобождение анонимных страниц? Вот абстрактные примеры некоторых не самых редких сценариев:

  1. Во время инициализации долго выполняющаяся программа может выделить и использовать многие страницы. Эти же страницы могут использоваться в процессе завершения работы/очистки, но не требуются после «старта» (в понимании самого приложения) программы. Довольно распространённое явление для демонов, использующих крупные зависимости для инициализации.
  2. Во время нормальной работы программы мы можем выделить память, которая затем редко используется. Для общей же производительности системы может оказаться более разумным использовать память для чего-то более важного, чем выполнять значительный отказ страницы с выгрузкой данных этой страницы на диск.

Что происходит с использованием swap и без него


Давайте посмотрим на типовые ситуации и к чему они приводят при наличии и отсутствии swap. О метриках «конкуренции за память» я рассказываю в докладе про cgroup v2.

Без конкуренции или с малой конкуренцией за память


  • При наличии swap: мы можем положить в swap анонимную память, которая редко используется и нужна только в небольшой части жизненного цикла процесса. Это позволяет использовать данную память для улучшения коэффициента попаданий в кэш и других оптимизаций.
  • Без swap: не можем складывать в swap редко используемую анонимную память, поскольку она вынуждена храниться только в памяти. Не факт, что это сразу приведёт к проблеме, однако в некоторых рабочих нагрузках производительность может упасть из-за устаревших анонимных страниц, забирающих место у более важных задач.

С умеренной или высокой конкуренцией за память


  • При наличии swap: у всех типов памяти одинаковая вероятность высвобождения. Это означает большую вероятность успешного высвобождения страниц — мы можем высвобождать страницы, которые не будут быстро снова приводить к отказу (к пробуксовке [thrashing]).
  • Без swap: анонимные страницы ограничены памятью, т.к. не имеют альтернатив для хранения. Вероятность успешного долгосрочного высвобождения страниц ниже, поскольку оно доступно только для некоторых типов памяти. Риск пробуксовки страниц выше. Случайный читатель может подумать, что так всё равно будет лучше, поскольку не случится нагрузки на ввод/вывод диска, но это не так: мы попросту переносим disk I/O из-за swapping'а на сброс горячего страничного кэша и сегментов кода, которые нам скоро понадобятся.

При временных всплесках в потреблении памяти


  • При наличии swap: устойчивость к временным всплескам выше, однако в случае резкой нехватки памяти время между пробуксовкой и работой OOM killer может вырасти. Нам лучше видны причины нагрузки на память и мы можем более рационально повлиять на них, можем осуществить контролируемое вмешательство.
  • Без swap: OOM killer вызывается быстрее, поскольку анонимные страницы ограничены памятью и не могут быть высвобождены. Мы скорее столкнёмся с пробуксовкой, однако время между ней и OOMing'ом сократится. Будет лучше или хуже — зависит от конкретного приложения. Например, основанное на очередях приложение может захотеть потребовать такого быстрого перехода от пробуксовки к OOMing'у. Тем не менее, всё равно уже слишком поздно для полезных действий — OOM killer вызывается только в случаях резкой нехватки памяти. Вместо того, чтобы полагаться на такое поведение, в первую очередь лучше позаботиться о более оппортунистическом подходе (т.е. направленном на следование своим интересам — прим. перев.) к убиванию процессов при достижении состояния конкуренции за память.

Окей, я хочу системный swap, но как его настроить для конкретных приложений?


Вы же не думали, что в этой статье не будет упоминаний использования cgroup v2?

Очевидно, что общему эвристическому алгоритму тяжело не ошибаться всё время, поэтому важно иметь возможность дать необходимые инструкции ядру. Исторически единственной настройкой, которую можно было применить на системном уровне, являлась vm.swappiness. У неё две проблемы: vm.swappiness крайне сложно разумно применять, потому что она является лишь маленькой частью гораздо большей эвристической системы, и она применима лишь ко всей системе, но не к ограниченному набору процессов.

Можно также использовать mlock для фиксации страниц в памяти, но такой подход требует либо модификации кода программы и забав с LD_PRELOAD, либо ужасных танцев с отладчиком во время исполнения приложения. В языках, основанных на виртуальных машинах, всё это тоже не так-то хорошо работает, поскольку у вас обычно нет возможности контролировать распределение памяти и приходится делать mlockall, у которого нет точных настроек для тех страниц, что действительно важны.

В cgroup v2 есть определяемая на каждую cgroup настройка memory.low, которая позволяет сказать ядру отдавать предпочтение другим приложениям для высвобождения до достижения определённого порога используемой памяти. Нет гарантий, что ядро предотвратит swapping частей приложения, однако оно будет предпочитать высвобождение для других приложений в случае конкуренции за память. В нормальных условиях логика swap'а в ядре в целом достаточно хороша, так что разрешение оппортунистически выносить в swap страницы в общем случае повышает системную производительность. Пробуксовка swap'а в условиях сильной конкуренции за память не идеальна, но это скорее просто особенность ситуации нехватки памяти, чем проблема swapper'а. В ситуациях, когда давление на память начинает расти, вы обычно хотите быстрого завершения работы некритических процессов посредством их «самоубийства».

И в этом вопросе нельзя просто положиться на OOM killer. Потому что OOM killer вызывается только в самых критичных ситуациях, когда система уже оказалась в значительно нездоровом состоянии и, возможно, находилась в нём некоторое время. Необходимо самостоятельно и оппортунистически разрешить ситуацию ещё до того, как задумываться об OOM killer'е.

Тем не менее, выявить давление на память достаточно трудно с помощью традиционных счётчиков памяти в Linux. Нам доступно нечто, что каким-то образом относится к проблеме, однако скорее по касательной: потребление памяти, количество операций сканирования страниц и т.п. — и по одним этим метрикам очень трудно отличить эффективную конфигурацию памяти от той, что приводит к конкуренции за память. У нас есть группа в Facebook, возглавляемая Johannes'ом и работающая над новыми метриками, упрощающими демонстрацию давления на память, — это должно помочь нам в будущем. Больше информации об этом можно получить из моего доклада про cgroup v2, где я начинаю подробнее рассказывать об одной из метрик.

Тюнинг


Сколько же swap'а мне тогда нужно?


В общем случае минимальное количество swap-пространства, требуемого для оптимального управления памятью, зависит от количества анонимных страниц, которые привязаны к пространству памяти и к которым редко обращается приложение, а также от стоимости высвобождения этих анонимных страниц. Последнее — это в большей степени вопрос о том, какие страницы больше не должны удаляться, чтобы уступить место тем анонимным страницам, к которым редко обращаются.

Если у вас достаточно дискового пространства и свежее (4.0+) ядро, большее количество swap'а почти всегда лучше, чем меньшее. В более старых ядрах kswapd — один из процессов ядра, что отвечает за управление swap'ом, — исторически слишком усердствовал в перемещении памяти в swap, делая это тем активнее, чем больше swap'а было доступно. В последнее время поведение swapping'а при наличии большого swap-пространства значительно улучшили. Так что, если вы работаете с ядром 4.0+, большой swap не приведёт к чрезмерному swapping'у. В общем, на современных ядрах нормально иметь swap размером в несколько гигабайт, если такое пространство у вас есть.

Если же дисковое пространство ограничено, ответ в действительности зависит от компромисса, на который вы готовы пойти, и особенностей окружения. В идеале у вас должно быть достаточно swap'а, чтобы система оптимально функционировала при нормальной и пиковой (по памяти) нагрузке. Рекомендую настроить несколько тестовых систем с 2-3 Гб swap'а или более и понаблюдать, что происходит на протяжении недели или около того в разных условиях нагрузки (на память). Если на протяжении этой недели не случалось ситуаций резкой нехватки памяти, что означает недостаточную пользу такого теста, всё закончится занятостью swap'а небольшим количеством мегабайт. В таком случае, пожалуй, разумно будет иметь swap хотя бы такого размера с добавлением небольшого буфера для меняющихся нагрузок. Также atop в режиме логирования в столбце SWAPSZ может показать, страницы каких приложений попадают в swap. Если вы ещё не используете эту утилиту на своих серверах для логирования истории состояний сервера — возможно, в эксперимент стоит добавить её настройку на тестовых машинах (в режиме логирования). Заодно вы узнаете, когда приложение начало перемещать страницы в swap, что можно привязать к событиям из логов или другим важным показателям.

Ещё стоит задуматься о типе носителя для swap'а. Чтение из swap имеет тенденцию быть очень случайным, поскольку нельзя уверенно предсказать, у каких страниц будет отказ и когда. Для SSD это не имеет особого значения, а вот для вращающихся дисков случайный ввод/вывод может оказаться очень дорогим, поскольку требует физических движений. С другой стороны, отказы у файловых страниц обычно менее случайны, поскольку файлы, относящиеся к работе одного запущенного приложения, обычно менее фрагментированы. Это может означать, что для вращающегося диска вы можете захотеть сместиться в сторону высвобождения файловых страниц вместо swapping'а анонимных страниц, но, опять же, необходимо протестировать и оценить, как будет соблюдаться баланс для вашей рабочей нагрузки.

Для пользователей ноутбуков/десктопов, желающих использовать swap для перехода в спящий режим [hibernate], этот факт также необходимо учитывать, поскольку swap-файл тогда должен как минимум соответствовать размеру физической оперативной памяти.

Какой должна быть настройка swappiness?


Во-первых, важно понимать, что делает vm.swappiness. Это системная настройка (sysctl), смещающая высвобождение памяти в сторону анонимных страниц или файловых страниц. Для реализации используются два разных атрибута: file_prio (стремление высвобождать файловые страницы) и anon_prio (стремление высвобождать анонимные страницы). vm.swappiness обыгрывает эти атрибуты, становясь значением по умолчанию для anon_prio и вычитаясь из стандартного значения 200 в file_prio, то есть vm.swappiness = 50 равносильно значению anon_prio в 50 и file_prio в 150 (точные числа не играют роли — важен их вес относительно друг друга).

Это означает, что vm.swappiness — это по существу просто соотношение дорогой анонимной памяти, которую можно высвобождать и приводить к отказам, в сравнении с файловой памятью для вашего железа и рабочей нагрузки. Чем ниже значение, тем активнее вы сообщаете ядру, что редкие обращения к анонимным страницам дороги для перемещения в swap и обратно на вашем оборудовании. Чем выше это значение, тем вы больше говорите ядру, что стоимость swapping'а анонимных и файловых страниц одинакова на вашем оборудовании. Подсистема управления памятью будет по-прежнему пытаться решить, помещать в swap файловые или анонимные страницы, руководствуясь тем, насколько «горяча» память, однако swappiness склоняет подсчёт стоимости в пользу большего swapping'а или большего пропуска кэшей файловой системы, когда доступны оба способа. На SSD-дисках эти подходы практически равны по стоимости, поэтому установка vm.swappiness = 100 (т.е. полное равенство) может работать хорошо. На вращающихся дисках swapping может быть значительно дороже, т.к. в целом он требует случайного чтения, поэтому вы скорее всего захотите сместиться в сторону меньшего значения.

Реальность же в том, что большинство людей не имеют представления о том, чего требует их железо, поэтому настроить это значение, основываясь лишь на инстинкте, затруднительно — это вопрос, требующий личного тестирования с разными значениями. Можно также заняться анализом состава памяти вашей системы, основных приложений и их поведения в условиях небольшого высвобождения памяти.

Говоря о vm.swappiness, необходимо учитывать исключительно важное изменение недавнего времени, сделанное Satoru Moriya в vmscan в 2012 году: оно в значительной мере меняет поведение vm.swappiness = 0.

Этот патч по существу говорит, что при установке vm.swappiness = 0 мы донельзя настроены против сканирования (и высвобождения) любых анонимных страниц, пока не настало состояние высокой конкуренции за память. Как отмечалось ранее, в общем случае вы не захотите такого поведения, поскольку оно исключает равенство приоритетов высвобождения до моментов экстремального давления на память, что само по себе в действительности может и привести к этому экстремальному давлению. Поэтому vm.swappiness = 1 — минимальное значение, которое стоит выбирать, если вы не хотите активировать такое особое поведение для сканирования анонимных страниц, реализованное в патче.

Значение ядра по умолчанию — vm.swappiness = 60. В общем случае это неплохое значение для большинства рабочих нагрузок, но трудно иметь общее стандартное значение, которое подошло бы всем. Поэтому ценным дополнением к тюнингу, упомянутому в разделе «Сколько же swap'а мне тогда нужно?», станет тестирование систем с различными значениями vm.swappiness и наблюдение за метриками приложения и системы под большой нагрузкой (на память). В скором будущем, когда мы получим достойную реализацию определения refault в ядре (см. также «refault distance-based file cache sizing» — прим. перев.), вы сможете определять значение достаточно независимо от рабочей нагрузки, глядя на метрики «page refaulting» в cgroup v2.

Заключение


  • Swap — полезный инструмент для возможности равного высвобождения страниц памяти, но его назначение зачастую неправильно понимается, что приводит к его негативному восприятию в индустрии. Если вы будете использовать swap в том ключе, для которого он создан, то есть как средство увеличения равенства высвобождения, то обнаружите его полезной утилитой, а не какой-то проблемой.
  • Отключение swap не спасает от проблемы дискового ввода/вывода при конкуренции за память — дисковый I/O просто перемещается с анонимных страниц на файловые. Это не только может быть менее эффективным, поскольку остаётся меньший пул страниц, доступных для высвобождения, но и само по себе может способствовать появлению этой высокой конкуренции.
  • Swap может замедлить вызов OOM kill системой, поскольку является другим, более медленным, источником памяти для пробуксовки в ситуациях нехватки памяти. Но OOM killer используется ядром как последняя надежда, когда все другие возможности полностью исчерпаны. Сами эти возможности зависят от конкретной системы:
    • Вы можете изменить рабочую нагрузку на систему в соответствии со своими потребностями, в зависимости от локального (cgroup) или глобального давления на память. Это поможет избежать таких ситуаций, однако на протяжении всей истории Unix исчерпывающих метрик для измерения давления на память было недостаточно. Надежды возлагаются на скорое исправление ситуации с появлением refault detection.
    • Вы можете переместить высвобождение (и, таким образом, swapping) от определённых процессов (per-cgroup) с помощью memory.low, что обеспечит его доступность для критически важных демонов без полного отключения swap.

Теги:




Комментарии (73):

  1. Sovigod
    /#10658472

    Честно говоря — вы меня не убедили. Отсутствие свопа в продакшене дает стабильную производительность приложения в любых условиях. Если какие-то страницы памяти не использовались сутки — скорость доступа будет также высока. И конечно варнинги на доступную память в мониторинге намного более просты и очевидны когда своп не используется. Я привык что если на ноде не хватает памяти — лучше что бы она выключилась(ООМ) чем тормозила.

    • lorc
      /#10659234 / +1

      Зависит от типа системы. Если это сервер с равномерной нагрузкой, которая использует меньше памяти, чем есть в системе — то своп в принципе не нужен. Если памяти впритык — то в свопе появляться смысл.

      Дело в том, что ядро не видит большой разницы между свопом и открытыми файлами. И если свопа нет, а память нужна — то сбрасываются файловые кеши, с которыми прямо сейчас кто-то мог работать. В результате даже при выключенном свопе мы наблюдаем высокое IO, будто система «свопится».
      Если своп есть, то туда вытесняются страницы к которым редко обращались, а файловый кеш остается на месте, что повышает среднюю производительность.

      • khim
        /#10659470

        И если свопа нет, а память нужна — то сбрасываются файловые кеши, с которыми прямо сейчас кто-то мог работать.
        Если бы только файловые кеши! Исполняемый код сбрасывается! А потом загружается. На машинке с каким-нибудь тяжёлым бинарником может дойти до того, что переключение на текстовую консоль будет час занимать (заметьте — без кавычек, я имею в виде не «очень долго», а буквально час времени от нажатия Ctrl+Alt+F1 до появления приглашения).

        • Lennonenko
          /#10660570

          десктоп с 1гб, mint, mate — дичайшие тормоза интерфейса после пары часов проигрывания музыки
          не час, конечно, но минут 10 переключался в консоль и ещё столько же создавал файл 256мб и делал в него swapon, после чего всё волшебным образом заработало

        • lorc
          /#10660596

          Так код — это точно такой же файловый кеш. Сделайте cat /proc/self/maps и увидите что исполняемый файл замаплен в адресное пространство процесса наравне со всеми остальными открытыми файлами.

          • khim
            /#10660614

            Угу — но часто люди, обсуждающие «ненужность» свопа про это забывают. А это — ключевой момент. Даже если используется JIT — всё равно внушительная часть кода оказывается замаплена.

      • Gordon01
        /#10660498

        Почему вы считаете, что программист, который писал свою программу ошибся и хранит «ненужные» данные в памяти, а не подсасывает с диска по мере надобности и ОС лучше «знает» и выгружает «ненужные/неиспользуемые» страницы на диск?

        • lorc
          /#10660606 / +1

          Так показывает практика. Прикладные программисты вообще плюют на использование ресурсов. На текущей работе уже бывали случаи когда великие планы смежников сделать все по быстрому на стандартных фреймворках обламывались тем фактом, что на целевой системе всего 4Гб памяти, причем эта память делиться между тремя виртуальными машинами и аппаратурой, которой вынь да положь непрерывный регион физической памяти.
          А еще программисты делают ошибки и в их программах течет память. Например, у меня некоторое время подтекал Xorg и выжирал 16 Гб свопа.

          Конечно же есть единицы, которые бережно относятся к ресурсам. Но вы же прекрасно знаете что сейчас доминирует мнение о том что одна планка памяти стоит дешевле для работы программиста. И поэтому вкладка gmail в браузере, отжирающая половину гигабайта — это норма. Как вы думаете, там действительно все 500мб — нужные данные?

    • pda0
      /#10659604

      Торможение даёт вам время. OOM — нет. Просто, если вместо метрик нагрузки у вас мониторится состояние (жива/мертва), то я даже не знаю… Надеюсь, это не какой-то важный, нужный людям сервис.

      • edwardspec
        /#10659694

        Просто, если вместо метрик нагрузки у вас мониторится состояние (жива/мертва), то я даже не знаю… Надеюсь, это не какой-то важный, нужный людям сервис.
        Это нормальная ситуация при использовании autoscaling в облаке (автоматическое создание/уничтожение виртуальных серверов).
        Например, есть 5 серверов (из них 4 обеспечивают нетормозную работу при текущей нагрузке, плюс 1 для горячей замены), и если один сервер по какому-то показателю оказывается «плох», то он просто прибивается. И запускается новый ему на замену.

      • vladob
        /#10661490

        Надеюсь, это не какой-то важный, нужный людям сервис.

        А кто из людей вам важнее?
        По моему опыту у владельцев ресурса, клиентов (например — покупателей рекламного трафика), администраторов и посетителей запросто могут быть различающиеся представления касательно ранжирования по важности.

        • pda0
          /#10661510

          Да, уж. Сейчас, когда многие компании могут годами работать без прибыли и развиваться, уже и не поймёшь что и кто является важным. Доступность сайта для клиентов является важной? А шут его знает. :)

  2. playnet
    /#10658482

    Много букв, но так и непонятно — если есть возможность докупить еще N gb памяти, можно ли и когда ставить swappiness в 0 (1)

    • lorc
      /#10659240

      Память нужно докупать тогда, когда вас начинает доставать высокое IO. Включение свопа может ненамного отложить этот момент.

    • arheops
      /#10661274

      Правильно включить своп и смотреть, когда он сильно наполняется. Если ДИНАМИКА плохая, надо докупать памяти.
      А без свопа у вас просто РАЗ и упадет приложение.

      • playnet
        /#10662894

        От РАЗ есть мониторинг + часто лучше пусть падает, чем начнёт свопиться, что вызовет ещё уменьшение скорости обработки, нарастание своппинга и отзывчивость сервера превращается в «логинимся 30 минут». Я и такое ловил как-то.
        Если постоянно отслеживается свободная память и потребление никогда не превышает 80% (остальное — всякие кэши, в том числе для этого нужен избыток памяти), то можно ли выключать swappiness и вообще своп.

        • arheops
          /#10662896

          Вы с деньгами никогда не работали? Большинство клиентов не устраивает падение сервиса считающего деньги(биллинги всякие) даже раз в год.
          Нельзя, нельзя выключать своп у любой организации которая не песочница для детей. Люди очень волнуются даже когда посты пропадают на форуме.

  3. acmnu
    /#10658512

    Главным образом он не раскрыл тему проблем с управляемой памятью. Например у нас есть java машина, или мощная БД (Oracle, Postgres), который обладают собственной логикой работы с памятью (особенно jdk) и которым попадание в swap крайне мешает. Собственно тот же Google давно на многих своих машинах отключил своп.

    • Andronas
      /#10658570

      Чтобы Oracle, PostgreSQL, или JVM или что то еще не использовали swap в Linux, можно например сконфигурировать для них т.н. LargePages (в linux размер такой страницы 2Mб). Эти страницы в принципе не вытесняются из RAM в дисковый swap.
      Выгоды использования LargePages:
      — сегмент памяти находится в RAM и не вытесняется в swap — обращение к страницам в памяти быстрее
      — ниже затраты CPU на адресацию страниц, поскольку при том же объеме сегмента в памяти, число страниц меньше (чем при использовании обычных 4К страниц)
      — меньше размер PageTable для адресации сегмента из больших страниц
      Enjoy.
      Надо только чтобы приложение поддерживало использование этих LargePages. Например Oracle и PostgreSQL поддерживают. В Oracle такие страницы называются HugePages.

      • acmnu
        /#10658586

        В Oracle такие страницы называются HugePages.

        Важное уточнение. В Oracle только SGA кладется в большие страницы, а вот PGA нет.

        • Andronas
          /#10658620

          Да, HugePages у Oracle используются только для SGA.

  4. NoRegrets
    /#10658814 / +2

    Всегда отключал своп на лине. Довольно редко, но периодически, ловил фриз системы на ноутах и десктопах, причем не важно сколько памяти — 4гб или 16, больше памяти — реже фризы.
    C загруженной IDEA и запущенным Jetty с проектом открываешь очередную вкладку в браузере и на тебе — светодиод активности диска загорается и уже не гаснет, мышка начинает тормозить и секунд через 20 она встает и слышно только непрерывный хруст винта. Оомкиллер отдыхает, видимо ему самому не хватает памяти для запуска. Простоять так может долго, я больше получаса не ждал, еще не разу не отвисла.
    Если застать момент, когда мышь начинает тормозить, и успеть переключиться в другую консоль, оттуда убить любую задачу и освободить тем самым пару гигов памяти, все начинает работать как ни в чем не бывало. Или же успеть по быстрому закрыть пару вкладок в браузере.
    Через несколько лет таких мучений однажды обнаружил раздел со свопом — 2гб на рабочем ноуте, я его оказывается делал, на всякий случай ))). Включил своп — и, о чудо!, фризы пропали, точнее начинающийся фриз секунд через 5 сам по себе проходит.
    Так что могу кратко и емко рассказать, как живет линукс без свопа — «хреново»!

    • lieff
      /#10658824

      Это какое-то приложение выжирает всю память, решить можно так:
      echo 2 | sudo tee /proc/sys/vm/overcommit_memory
      echo 80 | sudo tee /proc/sys/vm/overcommit_ratio

      Это запретит одному приложению выжрать более 80% памяти.

      • kekekeks
        /#10659610

        Вы тем самым вырубите возможность резервировать большие куски адресного пространства, чем создадите туеву гору проблем приложениям на языках с GC.

        • mayorovp
          /#10659838

          А зачем языкам с GC резервировать большие куски адресного пространства?

          • kekekeks
            /#10659892

            Чтобы вся память была одним большим непрерывным куском. Так с ней банально удобнее работать, не надо держать дополнительные таблицы.


            В Win32 API для этих целей у VirtualAllocEx есть флаг MEM_RESERVE, который не выделяет память, а резервирует кусок адресного пространства. Потом из этого куска можно постранично выделять через MEM_COMMIT, который в свою очередь может отрапортовать о нехватке памяти.


            В Linux адекватного механизма для резервирования памяти я лично не увидел (возможно, есть какая-то магия с флагами mmap), вместо этого "выделяется" кусок памяти с оверкоммитом, а потом приходит злой дядя OOM-killer.

            • Frankenstine
              /#10660004

              Это хорошо, если приходит OOM-killer. Плохо, когда есть огромный iowait, а киллера так никто и не видел, спит. Надежда на то, что без свопа протекающий фаерфокс будет пристрелен, очень быстро растворились в хрусте винта.

            • lieff
              /#10660522

              Для mmap будет аналог PROT_NONE. Есть такая проблема, если кому-то нужен большой кусок виртуальной памяти. Это скорее по-быстрому определить кто виноват, если виновник известен, то уже можно уже setrlimit(RLIMIT_RSS), cgroup или починить потребление виновника.

          • khim
            /#10660632

            А зачем языкам с GC резервировать большие куски адресного пространства?
            Правильный ответ: потому что идиоты. Или, мягче: «всем пофиг».

            Зарезервируйте себе память с PROT_NONE и, о чудо, overcommit вам мешать не будет. Но это ж думать надо!

      • Frankenstine
        /#10659990

        А вы сами это пробовали? На моём ноутбуке с 6 ГБ памяти вызов echo 2 | sudo tee /proc/sys/vm/overcommit_memory мгновенно убивает иксы. После перезагрузки они подняться не могут, если внести соответствующее изменение в конфиг. echo 80 | sudo tee /proc/sys/vm/overcommit_ratio (или даже 100) позволяет запустить иксы, но сессия юзера не загружается, падает и выкидывает обратно на логин.

        • lieff
          /#10660526

          Пробовал, но на 16гб рамы. Если это неприемлемо, и нужно большое адресное пространство кому-то, то этот метод не подойдет конечно.

    • etozhegdr
      /#10658828 / -1

      Лучше всего, когда своп по размеру равен оперативной памяти.

      • Frankenstine
        /#10660012 / +1

        Особенно на сервере с 120 ГБ SSD и 64 ГБ RAM, ага.

      • lorc
        /#10660620

        Если я не ошибаюсь, это поверье ходит где-то со времен Windows95. Можете привести какие-то аргументы, почему это «лучше всего»?

        • sumanai
          /#10660886

          А разве тогда в моде не было от 1,5 до 3?

          • LynXzp
            /#10660996

            Хрен редьки не слаще. Но это еще ничего. Мне доказывали что swap обязательно нужен, потому что ОС некуда будет складывать дамп ядра. (С учетом того что отлаживать его никто не собирается)

        • vladob
          /#10661524

          Если я не ошибаюсь, это поверье ходит где-то со времен Windows95.

          Раньше.
          Я это видел на под-КОМКОНовском ХП в 1990г.
          Там было 1.3Г памяти и 2х1.3Г харда. Один хард был чисто для свопа во время работы и для аварийного дампа, если придется.
          Так мне тогда, по крайней мере, объясняли.
          Примерно тогда же я увидел Вин2.0 и совсем не мог понять, как оно может сделать мою жизню лучше…

    • atrosinenko
      /#10658922

      Когда-то описывал полезную в этих случаях комбинацию Alt-SysRq-F — принудительно запустить OOM-killer один раз. По умолчанию она (и многие другие сочетания с SysRq) запрещены по соображениях безопасности (по каким именно — нужно читать где-нибудь в первоисточнике), а вообще есть даже сочетание для того, чтобы уронить ядро в kernel panic. :) Это не в качестве замены свопу, а в дополнение (при наличии свопа иногда весьма полезное).

      • NoRegrets
        /#10659912 / +1

        Комбинации alt-sysrq знаю, но вот alt-sysrq-f каким-то образом пропустил. Век живи, век учись. Спасибо!

        • atrosinenko
          /#10660104

          На всякий случай, вот документация. Там много всяких интересных штук, а вот про влияние на безопасность (локальный пользователь прибил lock screen и т.д.) нужно читать где-нибудь в другом месте. Кстати, при работе по ssh до magic sysrq key можно достучаться через /proc/sysrq-trigger, если права позволяют.

    • vmspike
      /#10659022

      У меня точно такой же опыт, только если IDEA заменить на SublimeText, а Включил на Выключил. Т.е. со включенным свопом ни разу не дождался момента пока запустится OOM killer, и часто не успевал закрыть вкладок или убить какой-нибудь процесс до того, как всё повиснет намертво. Сейчас выбрал размер свопа порядка 256МБ с низким vm.swappiness — если и выжрет кто-то всю память, то как кончится своп его прибъют.
      Так что по прочтении статьи, из разнобоя мнений в сети, и нашего с вами примера могу кратко и ёмко рассказать как живёт Линукс без свопа / со свопом — "Анонимус его разъеберёт"!

      • khim
        /#10659482

        Так что по прочтении статьи, из разнобоя мнений в сети, и нашего с вами примера могу кратко и ёмко рассказать как живёт Линукс без свопа / со свопом — «Анонимус его разъеберёт»!
        На самом деле всё просто: если свопа нет, то Linux живёт плохо. Но если своп есть и он кончается — тогда всё, просто караул, на проблемы выкинутого из-за нехватки памяти кода накладывается ещё и то, что часть данных ушла в своп, если система попала в такое состояние, то её можно хоть сразу выключать…

        • vmspike
          /#10659944

          Если бы было всё просто, не было бы таких дискуссий на тему свопа в сети. В моём случае, когда свопа была ещё туева гора (8GB RAM + 8GB swap на HDD), но своп заполнялся где-то на 512MB-1GB, система начинала тормозить и в течение минуты висла совсем. На других системах включая сервера всю память мог сожрать какой-нибудь старый grep или sed, если ему случайно попадался большой файлик с монострокой, и хорошо, если ssh отваливался не сразу и успевали разобраться в чём дело и прибить его.

    • e_fedorov
      /#10659210

      У меня это и без свопа работает. Виновник хруста винта не кто-то, а именно Хром. Что он делает в данной ситуации, для меня до сих пор загадка. Вам еще повезло — успеваете переключиться в другую консоль, у меня мертвый фриз происходит через секунду-полторы после лагов мышки.

    • khim
      /#10659476

      Оомкиллер отдыхает, видимо ему самому не хватает памяти для запуска.
      Ему не нужно время для запуска, он в ядре. Просто с его точки зрения — всё в порядке! Память-то есть, просто для кода её мало осталось… вот и гоняются странички туда-сюда.

      Простоять так может долго, я больше получаса не ждал, еще не разу не отвисла.
      У меня SSD. Обычно через 1.5-2 часа отвисает. Вернее как «отвисает»? Столько времени занимает переключение на текстовую консоль, а там — уже можно найти какое-нибудь приложение и убить его… но лучше включить свап.

    • Fedcomp
      /#10659590

      Забавно, сам с такой проблемой 2 года провозился.

    • playnet
      /#10662902

      «Простоять так может долго, я больше получаса не ждал, еще не разу не отвисла.»
      Ловил много раз, отпускало за 15 минут — 1.5 часа (не сохранено было много), проще действительно перезапустить.

      «Так что могу кратко и емко рассказать, как живет линукс без свопа — «хреново»!»
      Но у меня своп включен, сейчас там около 60 гб. Подвисания никуда не деваются, но когда добавил ещё 2 флэшки по 32 гига и сделал своп на них, стало гораздо меньше фризов. Смотрю ещё в сторону bcache. Жаль, что в лине нет штатно аналога ReadyBoost, он в винде реально помогает от лагов.

  5. achekalin
    /#10658816

    А что про zswap можно сказать?

    • lorc
      /#10659258

      А zswap ортогонален этой статье.
      Грубо говоря, вместо возросшего io вы будете платить возросшей нагрузкой на процессор. В каких-то случаях это имеет смысл. В каких-то — не имеет.

  6. Skyroger2
    /#10658892

    Ещё не забываем о том, что swap неплохо бы шифровать, а это иногда усложняет жизнь.

  7. e_fedorov
    /#10659202 / +2

    А можете рассказать, как сделать OOM Killer более агрессивным? Например, в ситуации, когда приложение открыло/создало множество мелких файлов и держит их в памяти, при внезапной нехватке памяти ядро пытается высвободить эти файловые страницы, что вешает систему намертво со 100%-м дисковым I/O на несколько (десятков) минут. А ведь зачастую гораздо проще просто грохнуть само приложение с дальнешим его перезапуском.

    • red_led
      /#10659612

      Если у вас конкретный демон с таким поведением и systemd — посмотрите на опцию OOMScoreAdjust.

  8. erty
    /#10659260

    Выставляю на всех нагруженный серверах (web/sql) vm.swappiness = 20. Эмпирически пришел к тому, что это лучший компромисс, когда всё что нужно максимально в памяти, а в свап идёт только что-то, к чему обращение раз в пол года, условно говоря.

  9. vanxant
    /#10659594

    Еще свап помогает продлить агонию в случае утечек памяти.

  10. Londoner
    /#10659726

    А нельзя выделить каждому приложению лимит памяти? Если превысил, то автоматический kill -9. А то получается как на Windows 3.1 — одно кривое приложение способно уложить всю систему.
    Или, как вариант, если свопимся больше секунды — то kill -9 самого жирного или быстрорастущего.

    • rzerda
      /#10659740

      Посмотрите на cgroups. Но там, как всегда, куча нюансов, связанных с особенностями самого учета памяти в Linux и опоре некоторых приложений на файловый кэш (Elasticsearch, PostgreSQL).

  11. rzerda
    /#10659744

    Судя по некоторым словам в интернете, смена физического положения страницы в памяти может происходить только через swap. Своими глазами видел хост с половиной памяти (из 64 Гбайт) под файловым кэшем и периодически приходящим сначала kswapd, а потом и OOMkiller-ом с постоянными жалобами на невозможность найти страницу order=2. «Фрагментация», — подумал Штирлиц и добавил от щедрот 16 Гбайт swap-а. OOM перестал.

    • mayorovp
      /#10659842

      Физическая память не может быть фрагментированной, потому что она выделяется одинаковыми блоками (страницами). Фрагментация бывает только при выделении неравными блоками.

      • Tanriol
        /#10660226

        Не всегда. Ядру иногда бывают нужны именно физически последовательные блоки страниц, особенно в случае мультимедийных драйверов.

        Так, например, стек ядра каждого потока — это от 8k, то есть две последовательные страницы памяти, на большей части архитектур.

      • lorc
        /#10660638

        В линуксе существует целый Contiguous Memory Allocator, выделяющий непрерывную физическую память большими кусками. Например, один кадровый буфер FullHD занимает минимум 8 мегабайт. А их надо минимум два, а лучше — три. И далеко не всякая аппаратура имеет DMA с поддержкой scatter-gather.
        Плюс, большинство функций аллокации в ядре выделяют странички идущие непрерывно. Кроме vmalloc(), которым не советуют пользоваться, потому что он довольно дорогой.

  12. akamensky
    /#10659782

    За отключение свопа надо линейкой по рукам. Что там люди делают на своих личных машинах (где всякие Хромы и прочее непотребство крутится) это одно, а когда все облачные провайдеры предоставляют образы машин без свопа и в 99% случаев народ так с ними и работает это совершенно другая история.

    Мой пример:

    У одного из наших клиентов есть «очень серьезное приложение» (TM) написаное на RoR какими-то подрядчиками. Подрядчики эти уже больше года отказываются починить memory leak который случается стабильно раз в два дня и на большой скорости выжирает всю доступную память примерно за 5 минут, после чего ООМ убивал приложение.

    До того как они к нам пришли за помощью оно (приложение) у них падало раза 3-4 на неделе на каждой из машин (10 серверов после HAproxy). Им критически важно чтобы для всех пользователей был 100% uptime (даже если за счет задержек в ответах). Времени среагировать просто нет (за 5 минут мы только первые сигналы увидим о том что память заканчивается).

    Как временное решение — добавили своп 20ГБ на каждой из машин, vm.swappiness = 15.

    Теперь у нас есть примерно 1 час чтобы среагировать на заканчивающуюся память. И больше времени для более стабильного решения.

    В конце мы просто поставили unicorn-worker-killer gem и сконфигурировали его чтобы убивал worker процессы когда они отъедают больше чем X% памяти.

    Так что медленный своп это в некоторых ситуациях скорее достоинство чем недостаток.

    • n1nj4p0w3r
      /#10660098

      А супервизор настроить? В systemd проставить restart=always? *много других вариантов как перезапускать убогое приложение убитое по oom.

      В данном примере своп — весьма тухлый костыль и нет никакого смысла ругать провайдеров за расчет на нормальные приложения

      • akamensky
        /#10660144

        Им критически важно чтобы для всех пользователей был 100% uptime (даже если за счет задержек в ответах)

        И как systemd restart=always или supervisord тут поможет? Те сессии, которые были открыты когда OOM случился отвалятся с ошибкой. Правильный подход будет — убрать ноду из LB, дождаться когда на ноде 0 сессий, прибить приложение и перезапустить. Своп помог оттянуть время ООМ чтобы все это можно было провернуть. Да — не оптимально и вручную, но это именно то что нужно клиенту и дало нам достаточно времени чтобы найти постоянное решение (тот самый unicorn-worker-killer).

        • n1nj4p0w3r
          /#10660258

          Ну это не решение проблемы, а все-таки костыль, пусть и более утонченный.
          Учитывая отсутствие общего хранилища сессий и общей неготовности приложения к многонодовому исполнению я-бы сказал что в вашем частном случае своп как и воркер-киллер сделал медвежью услугу подрядчику который «расслабил булки» и продолжает получать деньги за предоставление некачественной услуги

          FYI: Linux умеет в файловый swap, так-что мучиться с разметкой диска если «ну совсем нужен» не обязательно

          • akamensky
            /#10660318

            Учитывая отсутствие общего хранилища сессий и общей неготовности приложения к многонодовому исполнению


            1. Я где-то написал про HTTP сессии? В этом контексте это TCP сессии. Если приложение убит ООМ что с ними случится? И какие такие «общие хранилища» для TCP сессий вы предлагаете?
            2. Как подрядчик будет «продолжать получать деньги за предоставление некачественной услуги» если подрядчик проект сделал и испарился. Работаем мы с клиентом, подрядчика этого мы в глаза не видели.
            3. JFYI: Я вроде нигде и не писал про «мучиться с разметкой диска». В том конкретном случае мы просто # dd if=/dev/null of=/swapfile bs=1M count=$(1024*20). Быстро и просто.

            • n1nj4p0w3r
              /#10660370

              1. TCP на RoR? Не буду спрашивать в чем принципиальная разница между сессиями кастомного tcp и http
              2. Ну тут уж опять-же все утыкается в недобросовестного подрядчика
              3. За что же облачного провайдера линейкой бить, если создание свопа никто не ограничил и проблемы это не вызвало? С другой стороны, отсутствие свопа позволило сразу обратить внимание проблему вместо «неуловимого джо» в виде непредсказуемых тормозов у клиентов

              • akamensky
                /#10660410

                За что же облачного провайдера линейкой бить, если создание свопа никто не ограничил и проблемы это не вызвало

                За то что учат всех что «no swap, no problems», хотя это далеко не так. Мой пример как раз и написан для того чтобы показать что своп это такой же инструмент, которым нужно знать как и когда пользоваться. Может они (облачные провайдеры) и хотят как лучше, но получается «как всегда». Точно также как они (облачные провайдеры) по-умолчанию отключают SElinux на всех своих образах, ну а как-же, половина интернетов отключают (потому что не знают как им пользоваться), вот мы им и поможем, заранее для них отключим.

    • atrosinenko
      /#10660126

      Подрядчики эти уже больше года отказываются починить memory leak
      Как временное решение — добавили своп 20ГБ

      Как там кофемашины говорят, "Опорожните поддон для капель"...

  13. Dessloch
    /#10659784

    Спор о swap мне напоминает спор слепых о том как выглядит слон. По-моему говорить о swap вне контекста задач, установленного ПО и аппаратной конфигурации сервера нет смысла. В одном случае swap необходим, в другом случае опасен.

  14. Gordon01
    /#10660300

    Ещё стоит задуматься о типе носителя для swap'а

    Сейчас я раскрою самый секретный лайфхак:

    Расположите swap в zram!

    Wait… oh shi~~~

    • LynXzp
      /#10661038 / +1

      <irony>
      — Слушай, Гена, давай я понесу чемоданы, а ты понесёшь меня…
      — Это ты здорово придумал, Чебурашка!
      </irony>
      (с) habrahabr.ru/post/172137/#comment_5984189