博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hugepages你用了吗?--原理概念篇
阅读量:6656 次
发布时间:2019-06-25

本文共 5109 字,大约阅读时间需要 17 分钟。

     引子

     系统进程是通过虚拟地址访问内存,但是CPU必须把它转换程物理内存地址才能真正访问内存。为了提高这个转换效率,CPU会缓存最近的虚拟内存地址和物理内存地址的映射关系,并保存在一个由CPU维护的映射表中。为了尽量提高内存的访问速度,需要在映射表中保存尽量多的映射关系。 

    而在Linux中,内存都是以页的形式划分的,默认情况下每页是4K,这就意味着如果物理内存很大,则映射表的条目将会非常多,会影响CPU的检索效率。因为内存大小是固定的,为了减少映射表的条目,可采取的办法只有增加页的尺寸。

一、hugepages及相关概念

    hugepage是在Linux2.6内核被引入的,主要提供4k的page和比较大的page的选择。 

    有一些显示的概念需要澄清,在我们继续讨论Hugepages之前, 如hugetlb, hugetlbfs

page table(页表)是操作系统上的虚拟内存系统的数据结构模型,用于存储虚拟地址与物理地址的对应关系。

当我们访问内存时,首先访问”page table“,然后Linux在通过“page table”的mapping来访问真实物理内存(ram+swap)

TLB: A Translation Lookaside Buffer (TLB)

TLB是在cpu中分配的一个固定大小的buffer(or cache),用于保存“page table”的部分内容,使CPU更快的访问并进行地址转换。

hugetlb: hugetlb 是记录在TLB 中条目并指向到Hugepage。所以HugePages 通过 hugetlb entries来调用的。

hugetlbfs: 这是一个新的基于2.6 kernel之上的内存文件系统,如同tmpfs。

在TLB中通过hugetlb来指向hugepage。这些被分配的hugepage作为内存文件系统hugetlbfs(类似tmpfs)提供给进程使用。

二、“regular page”和“huge page“的请求过程

当一个进程请求内存时,它需要访问文件系统的“页表”(Pagetable)去调用一个实际的物理内存地址

当Hugepage部署后,依然是调用普通的页表。 最大的不同是process pagetable和system pagetable增加了Hugepage属性。所以任何页表中的page条目可以是“regular page” 或者是“huge page”

HugePage 的尺寸根据内核版本和硬件架构从 2MB 到 256MB , 如下表

HW Platform

Source Code Tree

Kernel 2.4

Kernel 2.6

Linux x86 (IA32)

i386

4 MB

4 MB *

Linux x86-64 (AMD64, EM64T)

x86_64

2 MB

2 MB

Linux Itanium (IA64)

ia64

256 MB

256 MB

IBM Power Based Linux (PPC64)

ppc64/powerpc

N/A **

16 MB

IBM zSeries Based Linux

s390

N/A

N/A

IBM S/390 Based Linux

s390

N/A

N/A

三、 hugepage 优点

1. HugePages 会在系统启动时,直接分配并保留对应大小的内存区域

2. HugePages 在开机之后,如果没有管理员的介入,是不会释放和改变的。

3. Not swappable: HugePages 是不会swap.也就是没有page-in/page-out。HugePages一直被pin在内存中

4. Relief of TLB pressure:

在purge TLB的时候,减少了事物条目的加载,提高了性能。

使用Hugepages后TLB能覆盖更大的内存地址空间,加快地址转换的时间

更少的TLB条目,意味着有更大空间用来记录其他的地址空间

  1. No 'kswapd' Operations:在Linux下进程“kswapd”是管理swap的,如果是大内存,那pages的数量就非常庞大(例如:50G内存包含1千3百万页表条目),就会耗费惊人的CPU资源。如果使用hugepages,kswapd就不会耗费资源去管理它,可以查看文档。
  2. Eliminated page table lookup overhead: 因为hugepage是不swappable的,所有就没有page table lookups。
  3. Faster overall memory performance:  由于虚拟内存需要两步操作才能实际对应到物理内存地址,因此更少的pages,减轻了page table访问热度,避免了page table热点瓶颈问题。

 

四. 如何配置Hugepages

   根据下面的步骤来配置Hugepages,修改Hugepages需要重启机器,使用请计划停机时间。

Step 1: 需要在/etc/security/limits.conf 中设置memlock值(单位KB),该值小于内存大小,例如你的内存大小是64G,有可以设置以下的值

*   soft   memlock    60397977 

*   hard   memlock    60397977

这个值大于SGA需求并没有什么害处。

如果是Exadata机器,参数要求请参考文档

Step 2: 重新登录root和oracle用户,检查memlock  limit

$ ulimit -l 

60397977

Step 3: 如果你使用11G及以后的版本,AMM已经默认开启,但是AMM与Hugepages是不兼容的,必须先disable AMM。 

-----------------------------------------------------------------

禁用memory_max_target和memory_target参数方法

这里注意,官方文档说的是“unset” ,直接alter system set memory_target=0 scope=spfile;是更改不成功的。直接设置为‘0’,就抱如下的错误

ORA-00843: Parameter not taking MEMORY_MAX_TARGET into account 

ORA-00849: SGA_TARGET 35433480192 cannot be set to more than MEMORY_MAX_TARGET 0. 
ORA-01078: failure in processing system parameters

通过创建pfile.ora文件,然后在文件里删除两个参数"MEMORY_TARGET/MEMORY_MAX_TARGET"。然后再创建spfile就可以了。

-----------------------------------------------------------------

Step 4:

确保你的全部实例都已经启动(包括ASM) ,然后根据 的hugepages_settings.sh去评估需要设置的Hugepages的大小。

$ ./hugepages_settings.sh 

... 
Recommended setting: vm.nr_hugepages = 1496

注:也可以自己计算需要的Hugepages大小,其实就是Hugepages size> all of the SGA size 

Step 5: 编辑/etc/sysctl.conf 设置 vm.nr_hugepages参数:

... 

vm.nr_hugepages = 1496 
...

Step 6: 停止实例并重启OS系统

Step 7:检查设置是否生效

系统重启后,启动全部的数据库,通过以下命令检查

# grep HugePages /proc/meminfo 

HugePages_Total:    1496 
HugePages_Free:      485 
HugePages_Rsvd:      446 
HugePages_Surp:        0

HugePages_FreeHugePages_Total 既说明Hugepages已经生效,同时HugePages_Rsvd不为“0”.

五、如何控制数据库SGA是否使用Hugepages?

  11.2.0.2之前的版本,database的SGA只能选择全部使用hugepages或者完全不使用hugepages。

  11.2.0.2 及以后的版本, oracle增加了一个新的参数“USE_LARGE_PAGES”来管理数据库如何使用 hugepages.

USE_LARGE_PAGES参数有三个值: "true" (default), "only", "false" and "auto"(since 11.2.0.3 patchset).

1. 现在默认值是"true",如果系统设置Hugepages的话,SGA会优先使用hugepages,有多少用多少。 

11.2.0.2 如果没有足够的 hugepages, SGA是不会使用hugepages的. 这会导致ORA-4030错误,因为hugepages已经从物理内存分配,但是SGA没有使用它,却使用其他部分内存,导致内存资源不足 
但是在11.2.0.3版本这个使用策略被改变了,SGA可以一部分使用hugepages,剩余部分使用small pages。这样,SGA会有限使用hugepages,在hugepages用完之后,再使用regular sized pages。

2. 如果设置为"false" , SGA就不会使用hugepages

3. 如果设置为 "only" 如果hugepages大小不够的话,数据库实例是无法启动的 (防止内存溢出的情况发生).

4. 11.2.0.3版本之后,可以设置为 "auto".这个选项会触发oradism进程重新配置linux内核,以增加hugepages的数量。Oradism需要被赋予相应的权限,如下

-rwsr-x--- 1 root <oracle group>

它不会去改变/etc/sysctl.conf文件中的hugepages值,当OS重启后,系统会再恢复到/etc/sysctl.conf中配置的hugepages值。

六、如果Database / SGA 配置改变,会怎么样?

当你的系统涉及到以下改变的时候,你需要注意了,Hugepages可能需要重新设置

  • Linux OS 物理内存大小的改变
  • 安装新的数据库实例
  • SGA 大小在一个或多个数据库实例上被改变

如果设置不匹配你的系统改变,会需要下面的问题:

  • Poor database performance
  • 很差的数据库性能
  • 系统内存溢出或者大量的swapping
  • 数据库实例无法启动
  • 核心系统服务失败

针对以上概念,可以根据“”来更深入的理解。

 

Oracle官方文档

HugePages on Linux: What It Is... and What It Is Not... (Doc ID 361323.1)

HugePages on Oracle Linux 64-bit (Doc ID 361468.1)

HugePages and Oracle Database 11g Automatic Memory Management (AMM) on Linux (Doc ID 749851.1)

Linux IA64 example of allocating 48GB SGA using hugepages (Doc ID 397568.1)

Shell Script to Calculate Values Recommended Linux HugePages / HugeTLB Configuration (Doc ID 401749.1)

USE_LARGE_PAGES To Enable HugePages In 11.2 (Doc ID 1392497.1)

本文转自 hsbxxl 51CTO博客,原文链接:http://blog.51cto.com/hsbxxl/1075166,如需转载请自行联系原作者
你可能感兴趣的文章
关于nodejs iconv的编码无效 说明
查看>>
PYTHON代码:根据FileRecord和MAP的关系,拼接IBM V7000 精简卷碎片
查看>>
为Maven项目配置多个源文件夹
查看>>
zabbix 的报错sock报错
查看>>
Docker 完全指南
查看>>
IT十八掌作业_java基础第二天_进制转换原理和补码存储方式
查看>>
mysql的安装
查看>>
老李推荐:第2章2节《MonkeyRunner源码剖析》了解你的测试对象: NotePad窗口Activity之NotesList简介 1...
查看>>
独轮车空运 自动平衡车空运电动扭扭车空运
查看>>
mysql数据库备份与恢复脚本
查看>>
String简单实现
查看>>
作为一个菜鸟女大学生
查看>>
Linux虚拟机CentOS最小系统安装
查看>>
通过学习学生信息管理系统软件,C程序中,如何设计和编写一个应用系统
查看>>
基于OGG Datahub插件将Oracle数据同步上云
查看>>
聊聊jdk httpclient的connect timeout异常
查看>>
SaaS成熟度模型分级
查看>>
缓存专题
查看>>
安装MySQL两种安装方式
查看>>
snowflake
查看>>