Chip multiprocessor architecture techniques to improve throughput and latency

副标题:无

作   者:(美)Kunle Olukotun,(美)Lance Hammond,(美)James Laudon著;汪东升,王海霞,李鹏等译

分类号:

ISBN:9787111253815

微信扫一扫,移动浏览光盘

简介

   由于受诸多因素的影响,片上多处理器(chip multiprocessor),又称   多核微处理器或简称CMP,已成为构造现代高性能微处理器的唯一技术途径   。传统超标量指令发射技术无法从典型程序指令流中发掘出足够多的并行   性,使得单核微处理器的性能再无法有效扩展。另外,处理器的功耗与散   热问题日趋严重,除非使用水冷散热系统,否则很难继续依靠简单提高时   钟频率的方法来改善微处理器性能。综合这些问题可以得到一个简单结论   :目前单个微处理器芯片集成了数量空前的晶体管,如果继续保持每年或   两年就完成新一代更大规模处理器的设计与调试工作,将会使成本直线上   升以至无法完成设计工作。    CMP通过在单个芯片中放入多个结构相对简单的处理器内核而不是使用   一个巨大的处理器内核避免了上述问题。CMP内核既可采用简单流水线结构   ,又可以使用中度复杂的超标量处理器,无论选定哪种内核,CMP系统都可   以随着半导体工艺的进步,在每一代新版处理器芯片中加入更多数量的高   速处理器内核,来有效扩展处理器性能。此外,并行程序将多线程任务分   发给CMP系统中几个内核并行执行,与单内核处理器相比可以取得显著的性   能提升。尽管在许多实用的应用负载中并行线程已经非常常见,但仍有一   些很重要的应用负载很难被划分为几个线程来并行执行。与传统多处理器   系统相比,CMP系统中内核之间的通信延迟更低,从而使更多应用负载适于   并行执行。但是某些关键应用中缺乏足够的并行度,可能成为这些系统中   推广CMP应用的主要障碍。    通过对比CMP与传统单处理器的优缺点,本书仔细研究了如何针对两种   常见但截然不同的工作负载来更好地设计CMP;并行度较高且对吞吐率敏感   的应用和并行度较低且对延迟敏感的应用。对吞吐率敏感的应用,如可迅   速处理多个独立事务的服务器工作负载,需要综合考虑CMP中所有可能限制   吞吐率的部件,如处理器核心、片上缓存和片外存储器接口。书中展示了   在几个研究与实例系统(如Sun Niagara)中如何进行设计折中。对延迟较敏   感的应用,如桌面应用,其关注的焦点是如何降低内核之间的通信延迟,   以及如何帮助程序员简化已有程序代码多线程化。本书介绍了多种可用于   CMP系统的并行编程简化技术,并重点讨论了斯坦福大学在该领域的相关研   究工作。为了证明CMP的潜在优势,书中给出了一些典型例子来加以说明。   本书的其它关注焦点还包括线程级猜测(thread-level speculation,简称   TLS)和事务型内存(transactional memory)。线程级猜测是一种将标准的   串行程序自动切分成CMP上多个并行线程的方法。事务型内存模型使用硬件   而非传统软件锁机制来保证一段指令的原子代码执行,可以显著简化并行   编程工作量,有效降低并行代码的出错概率。   

目录

  出版者的话
  译考序
  摘要
  第1章 CMP简介
   1.1 一个新途径:片上多处理器
   1.2 应用程序的并行性图景
   1.3 一个简单的例子:超标量与CMP
   1.4 本书:超越基本的CMP
   参考文献
  第2章 吞吐率优化技术
   2.1 简单内核与服务器应用
   2.1.1 处理器内部对多线程的需求
   2.1.2 最大化单个芯片上的处理器内核数量
   2.1.3 提供足够的缓存和主存访问带宽
   2.2 与吞吐率有关的片上多处理器案例研究
   2.2.1 案例1:Piranha服务器CMP
   2.2.2 案例2:Niagara服务器CMP
   2.2.3 案例3:Niagara-2服务器CMP
   2.2.4 基于简单内核的CMP系统的局限性
   2.3 通用服务器CMP分析
   2.3.1 模拟大规模设计空间
   2.3.2 选择设计要点
   2.3.3 实验结果
   2.3.4 讨论
   参考文献
  笫3章 自动的延迟优化技术
   3.1 伪并行:“帮手”线程
   3.2 采用线程级猜测实现自动并行
   3.3 TLS系统的一个实例:Hydra
   3.3.1 Hydra基础设计
   3.3.2 在Hydra中加入TLS
   3.3.3 使用冲突统计获得的反馈信息
   3.3.4 性能分析
   3.3.5 完全自动化的TLS支持:Jrpm系统
   3.4 自动并行化的总结思考
   参考文献
  第4章 基于手工并行编程的延迟优化技术
   4.1 使用TLS支持事务型内存
   4.1.1 一个例子:使用TLS对堆排序进行并行化
   4.1.2 使用TLS对SPEC2000进行并行化
   4.2 事务型一致性:更普遍的事务型内存
   4.2.1 TCC硬件
   4.2.2 TCC软件
   4.2.3 TCC性能
   4.3 事务型内存与常规共享内存的混合方案
   参考文献
  第5章 一个多核的世界:CMP的未来
  参考文献
  作者介绍
  

已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

Chip multiprocessor architecture techniques to improve throughput and latency
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon