P-类 P6600

MIPS P6600是一个64位处理器内核,代表了MIPS P类家族高阶CPU的发展。

P6600建立在32位 P5600 CPU之上,并为下一代高性能64位MIPS处理器铺平了道路,是最高效的主流高性能CPU选择,可为功能强大的多核64位SoC提供最佳的区域效率, 在家庭娱乐,网络,汽车,嵌入式高性能计算等领域的应用。

MIPS P6600 CPU基于广泛使用的问题,利用MIPS64 架构的最新版本6深度乱序(OoO)实作,在单个群集中最多支持六个内核,并具有高性能的缓存一致性。 作为这种原始功能的补充,该内核包括128位整数和浮点SIMD处理,硬件虚拟化以及MIPS64架构带来的更大的实体和虚拟寻址空间。

p6600-block-chart

与领先的IP内核替代产品相比,P6600处理器可在更小的芯片尺寸内提供性能。 SoC设计人员可以利用这种效率优势来节省成本,或者实现其他内核以提供与竞争性芯片相比所具有的性能优势。

P6600 优势

  • MIPS64 r6 架构– 提供了更大的虚拟和物理寻址,以及在64位操作和数据移动方面的更高性能。利用MIPS64的最新版本6,并针对运行JIT,Javascript,浏览器,PIC等进行了优化。
  • 128-bit SIMD – 加速了音频,视频,图形,图像,语音和其他面向DSP的软件算法的执行,其指令集设计用于以C,OpenCL等高级语言进行开发
  • 基于硬件虚拟化的MIPS多域安全技术–确保需要安全保护的应用程序彼此有效,可靠地隔离,并免受非安全应用程序的攻击
  • 用于企业/消费者分区,安全内容访问,付款/交易以及将安全方案与众多内容源隔离的多上下文安全平台
  • 复杂的分支预测,可在深度流水线CPU上最大化利用率和性能
  • 加载/存储绑定以获得最佳数据搬移性能
  • 广泛的软件和生态系统支持以及成熟的工具链
  • 可用作可在任何工艺节点中实现的可综合IP,带有标准单元和存储器

基本核心功能

  • 64位MIPS64®版本6指令集架构
  • 高性能,16阶段,广泛发射的乱序(OoO)管道
    • 每个周期提取四指令
    • 每个周期三重绑定派发
    • 每周期4个整数和2个SIMD操作的指令峰值发射
    • 复杂的分支预测方案,再加上L0 / L1 / L2分支目标缓冲区(BTB),返回预测堆栈(RPS),跳转寄存器高速缓存(JRC)
    • 指令绑定–将两个32位整数访问合并为一个64位访问,或将两个64位浮点访问合并为一个128位访问,从而使内存密集型数据移动例程最多增加2倍
  • 指令和数据的L1高速缓存大小分别为32KB或64KB,4路组关联
  • 新的高性能双发射128位SIMD单元-可选
    • 2 x 128位寄存器组,向SIMD单元加载/从SIMD单元加载/存储128位
    • 本机数据类型:8/16/32位整数和定点,16/32/64位浮点
    • 符合IEEE-754 2008
    • 通过CPU内核全速运行
  • 全面的硬件虚拟化
    • 提供内核和用户空间的root和guest虚拟机特权级别
    • 支持多个来宾,每个来宾具有完整的虚拟CPU =来宾OS保持不变
    • 单独的TLB,root和guest虚拟机的COP0上下文–>完全隔离,快速上下文切换,由root处理异常和中断
    • TLB中的HW表格伴随支持可实现最佳性能
    • 完整的SoC虚拟化支持(IOMMU和中断处理–请参阅多核功能)
  • 可编程内存管理单元 (MMU)
    • 增强型虚拟地址(EVA)-可编程内核和用户段大小
    • 扩展实体地址(XPA)–提供扩展到40位物理地址位(1 TB)
    • 第一级微型TLB(uTLB)– 16个输入指令TLB,32个输入数据TLB
    • 2级TLB –同时访问,可变和固定页面大小
  • 64x2入口VTLB,512x2入口4路组关联FTLB
    • 硬件表格伴随,可快速填充页面
  • 电源管理功能
    • 多核集群电源控制器 (CPC):
  • 基于寄存器,对操作系统可见/可控制
  • 每个CPU电压域门控; 每个CPU时钟门控
  • 集群级DVFS功能
    • 内核水平
  • 整个内核的粗细和细粒度时钟门控
  • 数据和指令L1缓存的路途预测
  • 基于指令和寄存器的睡眠模式
  • EJTAG / PDtrace调试块和接口
    • 干多核处理器功能
  • 超标量,深度OoO多核处理器
  • 完整的多核系统,旨在获得最大的群集级带宽
    • 一致性控制器 – 在一个集群中最多支持六个核心的多核心配置
    • 高带宽256位内部数据路径和外部系统接口
    • 集成的L2缓存(L2 $):4路集关联,最大8MB内存
  • L2 $ RAM上的ECC选项可提供更高的数据可靠性
  • 可配置的等待状态到RAM以实现最佳的L2 $设计
  • L2 $硬件预取,可实现更高的吞吐量和性能
    • 每个相干处理系统最多两个IO相干单元(IOCU
    • 集群电源控制器(CPC),用于每个CPU的电压/时钟门控
    • 256中断全局中断控制器 (GIC)
    • 系统级别的虚拟化支持– IOCU具有IO MMU,而GIC具有虚拟化中断

规格

目标TSMC 28HPM
频率1 GHz – 2+ GHz*
CoreMark/MHz (每核)> 5
Total CoreMark @ 1.5GHz> 7500 每核
DMIPS/MHz (每核)3.5
Total DMIPS @ 1.5GHz> 5250 每核

注意:指示的频率范围从最坏情况下的12T SVt面积优化的硅角,到12T MVt速度优化的典型角硅。 最终生产RTL结果可能会有所不同。

每个基本内核配置

  • 具有奇偶校验,BIST的32KB Data / Inst L1高速缓存
  • 新型高速整数+浮点(SP和DP)SIMD单元
  • 功能齐全的MMU,使用多层TLB(I / D uTLB + 128个条目VTLB + 1024个条目FTLB)

多核集群配置

  • 每个以上具有两个完全配置的P6600内核
  • Coherence Manager + 集成1MB L2 $ w / ECC
  • 1个硬件IO一致性单元(IOCU)端口

实施库/参数–基于以下方面进行了速度优化

  • 台积电28HPM 12T标准单元+ Synopsys存储器
  • 数据量测是在最坏的操作条件情况slow-corner硅片(零温度,WCZ),OCV为8%,时钟抖动裕度为25ps,而非在typical硅片上