耕升RTX 4070 Ti星极幻姬OC显卡评测：艳丽的双色设计，优秀的散热设计

超能网

2023-01-04 22:17发布于广东超能网络科技有限公司官方账号

其实在NVIDIA发布Ada Lovelace架构GPU时是有GeForce RTX 4090、GeForce RTX 4080 16GB和GeForce RTX 4080 12GB这三款产品的，但后来RTX 4080 12GB被取消了，然而不可能只让RTX 40系只有昂贵的RTX 4090和RTX 4080，想让更多的消费者用上RTX 40显卡，只能推出更为主流的产品，所以现在GeForce RTX 4070 Ti来了。

RTX 4070 Ti的起步价格是6499元，价格比起RTX 4080的9499元要低不少，此外RTX 4070 Ti和RTX 4090与RTX 4080不一样，它是没有Founders Edition的，上市的全都是AIC的非公版产品，所以我们本次RTX 4070 Ti的首发评测是三款非公版显卡，而本文则是耕升RTX 4070 Ti星极幻姬OC的评测。

GeForce RTX 4070 Ti显卡规格

其实在NVIDIA的Ada Lovelace发布会上就有公布三颗GPU，此前发布的RTX 4090用的是AD102 GPU，而RTX 4080用的是AD103，而今天发布的RTX 4070 Ti用的则是AD104，而且它用的几乎就是完整的AD104核心，它拥有完整的5组GPC，每个含有6个TPC，共30组TPC，每组有两个SM单元，共60组。

和完整的AD104核心相比，RTX 4070 Ti上用的AD104-400少了两个NVDNC和一个NVENC，完整AD104上是有三个NVENC与三个NVDNC的，但这种规格估计得在专业卡上才能看到了。

和高一级的RTX 4080相比，RTX 4070 Ti的SM单元从76组减少至60组，CUDA Cores数量从9728个降低至7680个，Tensor Cores与RT Cores数量也有相应减少，L2缓存从65536KB降至49152KB，相对的，晶体管数量从459亿减少到358亿，芯片面积也因此降低了许多。

RTX 4070 Ti的显存位宽相比RTX 4080是有所下降的，从256bit降至192bit，依然使用GDDR6X显存，显存数据速率也从22.4Gbps降低至21Gbps，整体显存带宽从716.8GB/s降至504GB/s，显存容量从16GB降低至12GB，但依然可以满足大部分游戏在2K分辨率下的显存需求。

频率方面，RTX 4070 Ti的Boost频率为2610MHz，这频率比RTX 4080更高，整卡TGP是285W，比RTX 4080低了35W，推荐电源功率也从750W降低至700W。

Ada Lovelace架构解析

SM架构图

Ada Lovelace的SM单元整体的结构也是与上一代Ampere架构一模一样，分为四个一样的主要计算模块，一个RT光追核心，以及128KB一级数据缓存/共享内存等。

而且每个主要的计算模块内的结构也和Ampere架构一样，有64KB寄存器文件、零级指令缓存、一个Warp调度器、一个分配单元、16个FP32单精度浮点CUDA核心、16个FP32/INT32单精度浮点和整数混合CUDA核心、一个Tensor Core张量核心、四个载入存储单元、一个特殊功能单元(SFU)用于执行图形差值指令。

而差别也很明显，那就是RT Core光追核心从之前的第二代升级到第三代，Tensor Core张量核心也从第三代升级到第四代。

第三代RT Core有效光追算力是上代3倍

全新的第三代RT Core可以提供2倍的光线与三角形求交性能，并且加入了两个全新的重要硬件单元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。

Opacity Micro-Map引擎将光线追踪的Alpha-Test几何性能提升2倍；而全新的Displaced Micro-Mesh引擎可动态生成微网格，以产生额外的几何图形。Displaced Micro-Mesh引擎可在提升几何图形丰富度的同时，不以传统复杂几何图形处理的性能和存储成本为代价。

Displaced Micro-Mesh引擎

我们知道光线追踪的计算是以光线射向一个平面这样的模型来计算的，而实际的渲染中物体几乎不会是简单的平面型，而是各种曲面，所以就需要将曲面分解成许多个小的三角形平面，然后计算光线与三角形求交。在Ampere架构上，面对一个复杂的曲面，如果想得到逼真的光线追踪效果，那么分解的三角形平面是非常多的，多个三角形平面带来非常复杂的BVH，这就非常难以计算。

而Ada Lovelace架构的处理方式就不一样，通过Displaced Micro-Mesh引擎，它将这些三角形平面仅通过一个三角形然后加上不同的位移图来表达，显著缩短了BVH的构建时间，同时BVH的存储空间需求也减小了很多，而最终仍然能实现一样的光线追踪最终渲染效果。

实际应用中由于Displaced Micro-Mesh引擎的存在，面对复杂物体的渲染，BVH的构建速度可以超过15倍，而存储空间的需求却可以小20倍之多，越是复杂的物体该引擎的优势就越能体现。

而且Displaced Micro-Mesh引擎不止可以应用在游戏领域，对于创作领域的用户来说，也有软件会支持，目前Adobe、Simplygon这两家企业已经确认得到了支持。

Opacity Micro-Map引擎

接下来我们说Opacity Micro-Map引擎。

Opacity Micro-Map引擎则是可以对游戏中常见的树叶这类物体加速光线追踪计算，Ampere架构面对这种场景的Alpha-Test需要多个着色器来进行计算，而Opacity Micro-Map引擎对于这种不透明的对象进行了不透明度的编码，可以更准确的对物体边缘进行光线追踪计算，简化了叶子轮廓之外完全透明和叶子轮廓之内完全不透明的区域的计算，耗费更少的着色器就可以实现真实的光线追踪渲染。

以《传送门》RTX版这个游戏为例，Opacity Micro-Map引擎可以让Gbuffer填充速度加快30%，游戏帧率提高10%。

而最终，这些改进下的第三代RT Core可以使完整的Ada Lovelace架构核心具有200 TFLOPS的有效光线追踪计算能力，几乎是上代产品的三倍。

第四代Tensor核心性能超上代5倍

对于第四代Tensor Core，最主要的变化是新增了Hopper FP8 Transformer Engine，可提供1400 TFLOPS的张量处理性能，可以说深度学习性能得到了巨大的飞跃，这也意味着通过它可以实现新的技术想法，后面的DLSS 3我们会再次提到Tensor Core的功劳。

说到DLSS 3，作为这次NVIDIA大力宣传的重点，相信大家都急不可耐想深入的了解这个技术，但是为了更清楚的了解DLSS 3，我们还得说两个新东西，那就是着色器执行重排序（SER）和Optical Flow Accelerator光流加速器。

着色器执行重排序（SER）提高光追并行效率

着色器执行重排序技术的重大作用是可以极大的提升光线追踪性能，这是与CPU的乱序执行一样的重大创新。

由于光线追踪的特性，它很难并行处理，因为光线会向各个方向反射，并与各种类型的表面相交，所以光线追踪的工作负载需要不同的线程处理，需要不同的着色器，并且需要不同的显存来存取中间的计算过程。

而我们知道GPU的特点就是适合并行处理，只有面对并行处理的任务才可以发挥GPU的特点获得更好的计算效率，而着色器执行重排序就是可以通过实时重新调度任务，即时重新安排着色器负载来提高执行效率，从而更好地利用GPU资源，以实现更佳的光线追踪性能，据称，SER可以为光线追踪带来最高可达3倍的性能提升，整体游戏性能提升可高达25%。

应用了着色器执行重排序（SER）之后，《赛博朋克2077》在全景光线追踪模式下可以提高44%的性能，《传送门》RTX版可以提高29%的性能，《Racer RTX》可以提高20%的性能。

Ada光流加速器算力可超300 TFLOPS

回看前面的完整核心图，可以看到左上角清晰的标出了Optical Flow Accelerator，也就是光流加速器，而尽管之前的Ampere架构中没有提到这个东西，但其实Ampere架构也是有的，不同的是，Ada Lovelace架构中大大增加了光流加速器的运算性能，从之前Ampere架构的126 TFLOPS增加到现在的300 TFLOPS（详细值是305 TFLOPS）。

Ada的光流加速器带来的巨大的性能提升，具有更广泛的实用性了，使DLSS 3能够更准确预测场景中的运动，使神经网络能够在保持图像质量的同时提高帧率。前面提到的第四代Tensor Core的1400 TFLOPS的张量处理性能，加上这里Ada Lovelace光流加速器300 TFLOPS的光流运算性能，再加上后方的NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能，这三者就组成了这一代DLSS 3的硬件层面的保障，而前面讲了那么多基础性的东西，现在我们终于可以讲到通过这些东西能实现的直接与玩家接触的技术——DLSS 3。

DLSS 3全方位提升流畅度、延迟和画质

新一代的DLSS 3包括全新的帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术，与之对应的就是目前在游戏中，DLSS 3对应了这三个选项——帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术——这三个都启用才算是完整的开启了DLSS 3。

而这其中，帧生成必须RTX 40系列才能支持，超分辨率则是RTX 40/30/20系列都支持，Reflex的要求最低——GTX 900系列及以后的都支持。

总得来说，DLSS 3是提升游戏体验的一整套解决方案，也就是说对于游戏体验的三要素——流畅度、延迟和画质——进行全方位的提升，而不是拆东墙补西墙的那种，接下来我们一个一个说。

DLSS 3的帧率

先说它如何提升帧率。

之前的DLSS 2，提升帧率的方式简单说就是以低分辨率渲染，然后通过AI训练重建高分辨率画面返回输出，比如我们将游戏设置成4K，打开DLSS，那么实际的计算过程是先以1080p分辨率渲染帧画面，然后AI学习经过训练的更高分辨率的帧再将这个帧画面压缩到4K最终输出，中间相差的这3/4部分的像素信息是通过AI计算来添加的（本地主要是Tensor Core来计算）。由于以低分辨率渲染，所以在AI补充像素的性能足够的情况下，帧率自然可以提高了。

但是这样无法突破CPU性能的瓶颈，毕竟降低原始渲染分辨率可以使得GPU每一帧的计算量更少，但是CPU每一帧的计算量是不变化的（因为CPU负责计算的部分与分辨率并无关系），实际上，由于帧率提高，CPU的计算量其实还增大了。

那么DLSS 3是怎么做的呢？

首先，还是与DLSS 2一样，比如输出4K游戏画面的话，它也是先降低原始渲染分辨率到1080p，然后通过AI计算来添加像素再压缩成4K画面。在连续的游戏画面中，我们就可以通过这样得到连续的4K帧画面，第1帧、第2帧、第3帧等等。

然后这样的每两帧之间，DLSS 3通过光流加速器为神经网络提供像素级的帧到帧的运动方向和速度信息，然后通过分析前一帧和当前帧几何图形和像素的运动矢量并将其输入至神经网络，就能计算出两帧中间的帧画面了。

实现超越CPU限制的帧数

这样连续下去的话，原本的第1帧、第2帧、第3帧中间都会有一个新的帧，等于实际最终输出的帧画面中，有1/2是没有CPU参与的，完全是GPU计算出来的，所以理论上可以将原本受限于CPU性能的游戏帧率提高一倍。

另外，我们去关注像素的话，会发现靠传统渲染方式计算的像素其实只有1/8，最终输出的游戏画面7/8的像素其实都是通过DLSS 3的一系列AI计算填补上的，这极大的提升了效率。

DLSS 3的画质

然后我们说下画质。

其实看我们的网站的网友评论可以看到还是有很多网友对DLSS技术很抗拒，认为不是原始渲染出的画面就不好，笔者认为这一观念是需要改变了。且不说网友有这一观念可能是由于初代DLSS技术确实效果不佳，形成了刻板印象，即便之后的DLSS 2超分辨率技术已经有很好的画面也很难摒弃已经形成的观念，对于现在的DLSS技术其实我们可以比较一下这几帧画面，已经完全看不出区别。

对于DLSS 3的生成帧这方面大家不免想到已经问世好久的各种插帧技术，DLSS 3的生成帧确实也可以算作插帧的一种，但是又与其他的插帧技术完全不一样。

简单的插帧技术利用两帧之间像素的位移来确定中间帧的图像，这样其实非常容易出现明显令人觉得视觉异常的画面，特别是对于阴影这种需要计算的画面效果，当主体移动之后，正确的阴影是需要经过复杂计算的，单单根据像素的位移来确定的画面几乎肯定违反客观世界的物理规律。

而DLSS 3它使用光流加速器分析两帧连续的游戏图像，计算帧到帧之间物体、元素的运动矢量数据，综合游戏中的一对超级分辨率帧，以及引擎和光流运动矢量，并将其输入至卷积神经网络，计算生成出新的一帧，大大提高了画面的准确性。

DLSS 3的延迟

最后我们再说延迟。

通过前面的梳理大家会发现DLSS 3尽管提高了帧速率，也保证了画质，但是对于延迟是没有缩短的，因为每一个新生成的帧都是需要后一帧渲染出来之后才可以准确生成的。更高的帧率提升了游戏的顺滑程度，但延迟会影响游戏的响应度，如果延迟太高，游戏的体验也不会好，而为此，DLSS 3也集成了NVIDIA Reflex技术来降低延迟提高响应速度。

所以总得来说，DLSS 3是包括了基于AI的超分辨率提升技术、基于AI的帧生成技术以及NVIDIA Reflex低延迟技术这些软件层面以及第四代Tensor Core的1400 TFLOPS的张量处理性能、Ada Lovelace光流加速器300 TFLOPS的光流运算性能以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能组成的硬件层面综合实现的一项新技术，对于游戏体验的提升也不是单方面的，而是全方位的提升。

全新第八代NVENC支持AV1编码和双编码器

Ada Lovelace架构相比Ampere架构的另一项重要升级就是NVIDIA 编码器 (NVENC)升级到了第八代，开始支持AV1编码了。AV1的效率比H.264高40%，这意味着在传输同样质量的画面时候只需要大约70%的数据量，或者说在同样的带宽下可以实现更清晰的画面质量，并且由于AV1是免费、开放的，可以让厂商节省相当一笔费用，AV1已经明显将要取代H.264成为主流格式。

而在中国的备受欢迎的视频编辑应用“剪映专业版”、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持 AV1，且均可通过编码预设使用NVENC AV1编码器。此外，OBS、Discord以及更多的公司都已在采用NVENC AV1编码器。

首发的RTX 4090给开放了两个NVENC编码器，这两个NVENC可实现协同工作，并自动分配以实现双路输出。全新的双编码器可将视频导出时间缩短至原来的一半，未来，主播用户可借助第八代编码器中 AV1 双编码器的优势提升直播体验，还可以通过OBS Studio 录制高达 8K60 的内容。

耕升RTX 4070 Ti星极幻姬OC显卡介绍

耕升这张RTX 4070 Ti星极幻姬OC的设计与他们家其他产品有很大不同，金属外壳采用独特的蓝粉双色设计，色彩迷人，冷艳而不失高贵。

显卡的长度达到330mm，厚度则为64m，大概三个PCI槽位，高度则是138mm，重1410g，但由于显卡比较长，所以他们送了一个定制的显卡支架，在支撑显卡的同时还能提供额外的ARGB灯效。

不论是显卡正面的整流罩还是背面的金属背板都用的这种双色设计，中间的过度色也很自然，配合中间夹着的银色风扇框，这显卡艳丽的同时也不失质感，三把92mm的“炫风之刃”经过改良优化，加宽了扇叶，让风扇在同转速下提供比传统扇叶更大的风量，这样就能用更低的风量达到同样的散热性能，降低噪音，有效强化散热能力，内外兼备。

显卡顶部有ARGB可调信仰灯，可通过专用的4pin线与主板连接实现灯光同步功能。供电接口使用的是在PCI-E 5.0规范中引入的12VHPWR供电接口，理论上可以提供最高600W的持续供电，不过RTX 4070 Ti配送的只是2*8pin转12VHPWR，也就是最大300W。

显卡提供三个视频输出接口，包括三个DisplayPort 1.4a和一个HDMI 2.1接口，均可实现最高8K 60Hz的视频输出，并可实现最多4屏输出，支持HDCP 2.3。

显卡的背面配置有全覆盖式金属背板，背板的尾端采用了大面积的镂空设计，可以让散热器获得更好的通风效果，让散热器的第三把风扇风流能直接吹透散热鳍片，使其散热效能得到充分的体现，进一步降低显卡的工作温度。

RTX 4070 Ti所用的AD104核心和RTX 4080上的AD103是pin to pin的，所以这PCB上多少有RTX 4080的影子，最明显的就是GPU周围有8个显存位，由于GA104只有192bit所以只会焊上6颗GDDR6X显存，所以多出了两个空焊位，不过RTX 4070 Ti不是RTX 4080，并不需要这么多供电，没有在PCB两侧都安放有GPU供电。

显卡采用11相核心供电，2相显存供电设计，所用的MosFET都是Alpha & Omega的AOZ5311NQI，最大持续电流为55A，10毫秒内峰值电流可达80A，10微秒内峰值电流则达到120A，控制核心供电的uP9512 PWM主控位于PCB背面。6颗美光的GDDR6X显存半围绕着GPU布置，组成192bit/12GB的规格。

耕升RTX 4070 Ti星极幻姬OC所配备的幻姬22散热器配备8根6mm复合式热管，采用回流焊工艺与鳍片结合，整体进行了镀镍，除了给GPU散热外，还兼顾显存与供电模块的散热。显卡配置有金属背板，在PCB区域覆盖了一层绝缘贴，可有效防止意外发生。

测试平台与说明

测试平台CPU使用的是Ryzen 9 7950X，而搭配的主板则是ROG的CROSSHAIR X670E HERO，加上32GB的EXPO DDR5 6000MHz内存以及一个1200W的电源，这样可以最大程度上确保测试时的瓶颈是在这次的主角也就是显卡之上。

至于测试的显卡，自然包括更高一级的GeForce RTX 4080，还有就是NVIDIA和AMD的上一代卡皇GeForce RTX 3090 Ti和Radeon RX 6950 XT，测试以2K分辨率为主，包括传统光栅游戏以及光追游戏，4K分辨率下的光栅游戏也是会跑的，但光追游戏只会测试开启DLSS 3之后的。

用GPU-Z查看得到，耕升RTX 4070 Ti星极幻姬OC显卡的GPU核心基础频率是2310MHz，Boost频率2685MHz，而公版的Boost频率是2610MHz，可见耕升这卡Boost频率是要比公版要高的，显存频率显示是1313MHz，乘16后得出它的等效数据频率是21Gbps。

这个BIOS的默认温度上限是84摄氏度，可以向上解锁至88摄氏度，功耗方面，默认功耗上限是285W，并且可以解锁至330W，以获取更好的超频能力。

3D MARK理论性能测试

首先当然是看看大家都喜欢的纯理论跑分。我们以3D Mark作为显卡基准性能测试，测试项目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme、Port Royal以及Speed Way六个项目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三个项目分别测试的是显卡在DX11游戏中的1080p分辨率、2K分辨率和4K分辨率下的性能指数，Time Spy、Time Spy Extreme两个项目则是显卡在DX12游戏中的2K分辨率和4K分辨率下的性能指数，Port Royal是测试的显卡实时光线追踪的性能指数，具体成绩见下表，表中所列成绩均为3D Mark显卡单项的得分。

很明显，在1080p和2K分辨率下RTX 4070 Ti的性能其实略微超越自家上一代旗舰RTX 3090 Ti了，但在4K分辨率下还是有一点差距，毕竟显存带宽和容量还是有差距的，两项光追测试RTX 4070 Ti的得分也是略低于RTX 3090 Ti，但差距不是很大，和高一级的RTX 4080相比，跑分大概落后19%~25%左右。

和对手的上代旗舰RX 6950XT相比，DX11时分辨率越低RX 6950XT的领先幅度越大，但随着分辨率的提升RTX 4070 Ti与它的差距逐渐缩小，在4K分辨率下两者基本平手，而在DX12的测试里面，RTX 4070 Ti至少领先RX 6950XT 12%，至于那两个光追测试，RTX 4070 Ti的领先幅度就更大了，Speed Way测试里面领先接近40%。

游戏性能测试

本着详细一点的原则，我们是选择了15款光栅化游戏以及8款支持光追的游戏来进行游戏帧数测试，基本上光栅化游戏我们选的都是极高或者超高的画质预设来进行测试，而光追游戏会根据流畅度进行改动，这些测试我们都没有开启DLSS或FSR。

2K光栅化游戏

2K分辨率是RTX 4070 Ti的主要战场，在该分辨率下它和RTX 3090 Ti与RX 6950XT打得有来有回，大部分情况下性能基本与RTX 3090 Ti齐平，当然具体下去每个游戏表现都有所不同，比如《木卫四协议》里面就领先RTX 3090 Ti有15%，而F1 22里面则比RTX 3090 Ti落后20%。和RX 6950XT相比的话，RTX 4070 Ti整体领先5%，基本上可以说RTX 4070 Ti的性能可以与NVIDIA与AMD的上代旗舰画上等号，许多项目里面RTX 4070 Ti的帧率都超过了120fps，可以满足在2K分辨率下高刷新率的游戏。

4K光栅化游戏

当分辨率提到4K之后，对于只有12GB显存的RTX 4070 Ti来说压力就有点大了，不少游戏里的帧率都低于RTX 3090 Ti，只不过两者的差距不算太大，整体落后5%左右，与RX 6950XT相比，领先和落后的项目基本各占一半，整体领先5%，虽然说RTX 4070 Ti的显存在4K分辨率下确实有点勉强，但从帧率来看流畅度其实还不错的，大多数都在60fps以上，而那个帧率低于60fps的游戏都支持DLSS，开启后会怎样后面大家就会看到。

2K光追游戏

光追游戏方面，由于《赛博朋克2077》的要求实在是太高了所以只开到RTX中等画质，而其他测试的7款游戏均开始最高画质以及最高光追效果。

RTX 4070 Ti在2K分辨率下是可以流畅运行光追游戏的，而且部分游戏帧率还蛮高的，性能方面，RTX 4070 Ti基本上向RTX 3090 Ti看齐，两者的整体差价不大，和高端的RTX 4080相比的话性能则落后19%左右，与对手的上代旗舰RX 6950XT相比要领先30%，NVIDIA的GPU架构在光追性能方面还是有非常大优势的。

DLSS性能测试

DLSS 3的测试部分，我们会测试RTX 4070 Ti在2K和4K分辨率下开启与关闭DLSS 3时的游戏帧率、1%低帧率以及系统整体延迟，同时还会放上RTX 3090 Ti开启DLSS 2时的数据给大家进行对比，在2K分辨率时DLSS我们会使用质量模式，而在4K分辨率下则会使用性能模式，首先我们看看DLSS 3开启和关闭的画质对比，这里列出部分测试游戏的实机截图对比。

DLSS 3 OFFDLSS 3 OFFDLSS 3 ONDLSS 3 ON

大家应该可以直观的看到，DLSS 3的开启不但没有降低画质，而且提升了画质，而这正是我们跨画质对比的理由，在画质提升的情况下，平均帧、1%低帧率和系统延迟的对比到底如何呢？

《赛博朋克2077》和上面的测试一样用的是RTX中等画质，RTX 4070 Ti在2K分辨率下启用DLSS 3质量模式后平均帧率直接比不开时翻了一倍，1%最低帧更是翻了一倍多，系统延迟降低了39%，流畅度大幅提升，和使用DLSS 2的RTX 3090 Ti相比平均帧率提升了44%，1%低帧率也提升了44%。

分辨率提升到4K后，RTX 4070 Ti明显无法直接承受4K光追的负载，但开启DLSS 3性能模式的话帧率变成原来的3.2倍，1%低帧率是原来的2.6倍，延迟降低了60%，不开DLSS时基本没法游戏，开了之后非常流畅。和RTX 3090 Ti相比平均帧率要高出20fps，而1%低帧率相同。

《F1 22》开启最高画质以及最高光追效果后，其实RTX 4070 Ti在2K分辨率下即使不开DLSS也有较高帧率，所以整体延迟很低，开启DLSS 3质量模式后平均与1%低帧率都翻了一倍，延迟变化不大，在DLSS 3的加持下RTX 4070 Ti的平均帧率高出RTX 3090 Ti大概18.5%，1%低帧率则高出48.5%。

把分辨率提升到4K的话，DLSS 3的作用就比较明显了，不开的时候RTX 4070 Ti的平均帧率是低于60fps的，但开启DLSS 3性能模式后帧率就达到了144fps，完全可以满足高刷屏的需求，延迟也降低了28%，此时它的平均帧率和用DLSS 2性能模式的RTX 3090 Ti差不多，但1%低帧率要高出不少。

《战锤40K：暗潮》同样使用最高画质与最高光追效果，RTX 4070 Ti在2K分辨率不使用DLSS时平均帧率是不过60fps的，开启DLSS 3质量模式后平均和1%低帧率都翻倍了，而延迟则降低了31%。和RTX 3090 Ti相比平均帧率高出44.8%，1%低帧率高出35.4%。

4K分辨率下RTX 4070 Ti不使用DLSS运行起来是非常勉强的，但开启DLSS 3性能模式的话帧率差不多提升到原来的3倍，1%最低帧更是升到3倍以上，延迟也只有原来的一半，和RTX 3090 Ti相比平均帧率高出30%，1%低帧率高出25.8%。

《微软模拟飞行》游戏开启最高画质，其实RTX 4070 Ti在2K分辨率下也有不错的流畅度，当然开了DLSS 3质量模式后平均帧率增加了84.8%，1低帧率提升了87.4%，和RTX 3090 Ti相比平均帧率高出43.5%，1%低帧率高出77.9%。

在4K分辨率下RTX 4070 Ti不使用DLSS时帧率是不超过60fps的，开启DLSS 3性能模式后平均与1%低帧率都翻倍了，延迟也降低了16%，和RTX 3090 Ti相比平均帧率高出43.5%，1%低帧率高出77.9%。

《瘟疫传说：安魂曲》游戏开启最高画质，RTX 4070 Ti在2K分辨率下是可以流畅运行游戏的，当然如果想获得高帧率享受的话就需要开启DLSS，在开启DLSS 3质量模式之后，平均帧率是原来是193%之多，1%低帧率更是直接翻倍，系统延迟降低了26%，和使用DLSS 2的RTX 3090 Ti相比，平均帧率提升了41%，1%低帧率则提升了51.8%。

分辨率提升到4K等级之后，RTX 4070 Ti的平均帧率就低于60fps了，想要流畅游戏的话只能使用DLSS，开启DLSS 3性能模式后，平均帧率是原来的2.4倍，1%低帧率接近原来的3倍，系统延迟降低了39%，和RTX 3090 Ti相比，平均帧率提升32%，1%低帧率提升了40.8%。

AV1编码测试

RTX 4070 Ti的媒体引擎与RTX 4090和RTX 4080是一样的，均配备两个第八代的NVENC和一个NVDNC，支持AV1格式的编码/解码，这两个NVENC可实现协同工作，并自动分配以实现双路输出。这里我们测试了在中国的备受欢迎的视频编辑应用“剪映专业版”和Blackmagic Design 的 DaVinci Resolve 18通过编码预设使用NVENC AV1编码器的输出耗时。由于RTX 3090 Ti和RX 6950 XT不支持AV1编码，所以这里用Intel的A770来进行AV1编码对比。

AV1编码测试可以看到RTX 4070 Ti在制作4K分辨率的适配时效率和RTX 4080是同一水平，但在制作8K视频时速度就明显慢不少了，无论是RTX 4080还是RTX 4070 Ti相比Arc A770都有大幅的领先，剪映中的耗时更是只需Arc A770四成的耗时。

温度测试

我们的GPU散热测试均在裸机状态（如果安装在机箱内，GPU温度会高出5℃左右）下进行测试，测试环境温度约为24.6℃。待机温度是开机以后记录5分钟，满载温度则是完成3DMark压力测试后记录下，数据通过GPU-Z的Log to File功能记录，以下为温度测试曲线。

耕升RTX 4070 Ti星极幻姬OC支持风扇待机停转，所以待机温度都是被动散热下的温度，经过5分钟的待机测试，从开始的28.5摄氏度上升到35.1摄氏度左右，5分钟待机过程中最热点温度则是最低是开始的37.6摄氏度，偏后段是41.6摄氏度。

满载状态下，最高温度位68.8摄氏度，对于高端显卡来说这温度并不高。关注最热点温度的话，最高也才82.9摄氏度，耕升RTX 4070 Ti星极幻姬OC的这个散热器对于这个核心本身的发热来说太绰绰有余了。

透过GPU-Z来看，耕升RTX 4070 Ti星极幻姬OC在待机时风扇是会停转的，让它在待机状态下完全无任何噪音，当负载和温度超过一定程度后风扇就会启动，满载状态下，风扇最高转速在1430RPM，转速并不高。

功耗测试

通过我们手中的PCAT套件，可以分别精确地测量显卡PCI-E、外接电源接口瓦特数，显卡最大功耗在3DMark Time Spy Extreme压力测试中获得，待机功耗则是在进入系统后记录1分钟取平均值。

统计功耗测试的结果算出，这张耕升RTX 4070 Ti星极幻姬OC的整卡待机功耗平均为14W，满载功耗平均为255W，峰值功耗到过301W。对于这样级别的显卡功耗来说，电源的话如果平台其他部件的功耗不高那么可以750W的电源来带动，如果其他部件的功耗也较高建议至少850W的电源起步。

在散热和功耗测试当中，我们也顺便检查耕升RTX 4070 Ti星极幻姬OC在满载运行下GPU的频率情况，显卡的最高频率能达到2775MHz，负载过程中最低值是2730MHz，实际上这个频率还是蛮稳定的。

噪音测试

上面的测试所知显卡满载时风扇最高转速是1430RPM，PWM大概是37%左右，我们是把显卡放进了环境噪音只有18 dBA的消音房，把其风扇调成同样转速，然后在50厘米的距离上测试其噪音水平，由于显卡在待机时风扇是停转的，所以就不用测试了。

在消音房中耕升RTX 4070 Ti星极幻姬OC显卡所测得的噪音水平是非常低的,只有35.3 dBA，是一个非常低的噪音值，基本上你不仔细去听的话是基本不会察觉的。

超频测试

超频的时候我们把显卡的TGP上限提升至330W，经过一番折腾后，最终显卡的加速频率能加260MHz，GPU的频率最高能到3.045GHz，显存频率超了175MHz，此时等效数据频率达到23.8Gbps，通过了3DMark Time Spy测试，此时显卡得分为24322分，比默认性能提高了7%左右。

全文总结

这次之所以没有拿RTX 3070 Ti对比RTX 4070 Ti，就是因为RTX 4070 Ti对比起RTX 3070 Ti的性能跨度有点大，而且RTX 4070 Ti的性能与RTX 3090 Ti相近，这样说的话大家的感受会更直观。在2K分辨率下，RTX 4070 Ti的性能与RTX 3090 Ti是完全没差别的，但当分辨率提升到4K的话RTX 4070 Ti的12GB显存在某些游戏里面就不太够用了，所以4K分辨率下它的性能会稍微比RTX 3090 Ti低些。

显卡迷你天梯榜（完整显卡天梯榜）

当然如果游戏支持DLSS 3就另当别论了，开启DLSS 3之后RTX 4070 Ti的游戏帧率基本都翻了一倍，会比RTX 3090 Ti开DLSS 2时好不少，完全可以满足光追游戏在2K分辨率下超过120fps的高刷新率，也能满足4K 60fps的流畅帧率，DLSS这种超分技术是游戏的未来发展趋势，而且NVIDIA与游戏厂商联系密切，相信很快就会有更多游戏提供DLSS 3的支持。

与高一级的RTX 4080相比，RTX 4070 Ti差不多有19%的性能落差，这反应到价格的落差就会更大，RTX 4080的官方建议零售价是9499元起，而RTX 4070 Ti则降至6499元，便宜了接近32%，性价比明显高不少，对于那些追求2K高刷玩3A大作的玩家来说，RTX 4080的性能其实是有点过剩的，RTX 4070 Ti其实更适合。

而耕升这款RTX 4070 Ti星极幻姬OC在设计上确实很有特色，这种双色过渡设计确实漂亮，而且散热器拥有有很好的散热效能，可以将GPU温度控制在让人满意的水平，同时噪音表现也是非常优秀的，35dBA的噪音表现意味着你在日常使用中几乎不会感觉到显卡的噪音，而这款显卡的售价为7099元，毕竟这卡是款超频版产品，还有优秀的散热与静音设计，价格比起步价高些可以理解。

查看原图 65K