Recursos da arquitetura Radeon X1800 XT

A ATI teve pouca margem de manobra com nomes, e apenas no segmento mais antigo: apenas o nome RADEON X900 permaneceu vago, enquanto quase todas as outras opções já estavam ocupadas, pois, ao contrário da NVIDIA, a ATI Technologies no caso da linha RADEON X, operava com números de três dígitos nos nomes de seus produtos. Foi encontrada uma saída para a situação; acabou sendo simples e ao mesmo tempo bastante elegante - o número 1000 foi adicionado às designações numéricas dos novos produtos. Assim, os novos processadores gráficos ATI receberam os nomes RADEON X1800, RADEON X1600 e RADEON X1300. Em nossa opinião, esta é uma jogada bastante bem sucedida, deixando muito espaço para novas manobras com nomes, e também indica que estamos diante de uma nova geração de arquitetura.

Desta vez é verdade: ATI e NVIDIA trocaram de papéis. Se a NVIDIA G70 nada mais é do que um NV40 significativamente melhorado (evolução), então a RADEON X1000 é verdadeiramente uma arquitetura completamente nova que tem pouco em comum com as arquiteturas ATI das gerações anteriores (revolução).
Além disso, o modelo mais antigo da família, o chip RADEON X1800 (R520), revelou-se mais complexo que o NVIDIA G70 - 320 versus 302 milhões de transistores! Ao mesmo tempo, o RADEON X1600 (RV530), voltado para os segmentos intermediários do mercado, consiste em 157 milhões de transistores, enquanto o RADEON X1300 (RV515) se tornou, segundo os desenvolvedores, o primeiro chip básico com cerca de 100 milhões de transistores dentro.
O motivo da complexidade da arquitetura foi todo um conjunto de inovações no chip, incluindo recursos como:
Suporte ao Shader Model 3.0;
Processadores de shader atualizados com uma unidade especial para execução de instruções de ramificação;
Novo controlador de memória;
Sistema de cache atualizado;
Sistema atualizado de conexões internas de diferentes blocos de chips.
Agora, os diferentes modelos da Radeon X1000 diferiam não apenas no número de processadores de pixel e vertex, o que permitia alcançar uma ótima relação custo-benefício. Como de costume, versões menos produtivas da nova GPU receberam nomes que começavam com RV.
A família RADEON X1000 será apresentada ao mercado com os seguintes modelos de adaptadores de vídeo:
RADEON X1800 XT (R520, 625/1500 MHz, 16pp, 8vp, 256 bits, 256MB/512MB, );
RADEON X1800 XL (R520, 500/1000 MHz, 16pp, 8vp, 256 bits, 256 MB);
RADEON X1600 XT (RV530, 590/1380 MHz, 12pp, 5vp, 128 bits, 128/256 MB);
RADEON X1600 XT (RV530, 500/780 MHz, 12pp, 5vp, 128 bits, 128/256 MB,);
RADEON X1300 PRO (RV515, 600/800 MHz, 4pp, 2vp, 128 bits, 256 MB,);
RADEON X1300 (RV515, 450/500 MHz, 4pp, 2vp, 128 bits, 128/256 MB, );
RADEON X1300 HyperMemory (RV515, 450/1000 MHz, 4pp, 2vp, 128 bits, 32 MB, até 128 MB HyperMemory, ).
Processadores de pixels
Como a ATI deu grande atenção às funções de distribuição de trabalho entre diferentes dispositivos executivos, a nova arquitetura RADEON X1000 tornou-se verdadeiramente multithread, recebendo até um nome especial - Ultra-Arquitetura rosqueada. A analogia com o Intel Hyper-Threading é bastante apropriada aqui, pois os objetivos dessas tecnologias são semelhantes: o uso mais eficiente da potência do processador disponível e a máxima redução possível no tempo de inatividade dos atuadores

A arquitetura RADEON X1000 (R5xx) tem semelhanças com as arquiteturas RADEON 9000 (R3xx) e RADEON X800 (R4xx), bem como com a arquitetura completamente nova usada em GPU No Xbox 360, no entanto, os novos processadores ATI contêm uma série de recursos exclusivos que não têm análogos em outros chips.
Em particular, os chips RADEON X1000 possuem um switch inteligente integrado - uma unidade especial chamada Ultra-Threading Dispatch Processor, responsável pela distribuição ideal de carga entre quads de processadores de pixel (cada quad consiste em quatro processadores de pixel, cada um dos quais é capaz de processar um shader para um bloco de pixel 2x2 por clock), bem como módulos de textura. Em particular, Ultra-Threading Dispatch Processor divide o trabalho associado aos mesmos pixel shaders (carga de trabalho de processamento de pixels) em pequenos grupos, ou threads (threads) de 4x4 pixels.
Ultra-Threading Dispatch Processor reconhece casos em que qualquer processador de pixel dentro dos quads está ocioso e atribui instantaneamente novas tarefas a eles. Porém, no caso em que dados que ainda não foram recebidos sejam necessários para continuar a execução do shader, tal thread é suspenso pelo processador de arbitragem até que seja recebido, liberando recursos aritméticos (Unidade Lógica Aritmética, ALU) para outros threads e mascarar a latência de, por exemplo, busca de textura, localizada tanto no cache quanto na memória. Segundo a ATI, essa organização do trabalho permite atingir 90% de eficiência na utilização de processadores de pixel em qualquer shader.
Como alternar rapidamente entre threads requer o armazenamento de resultados intermediários de cada um, a ATI usa registros especiais para isso - o General Purpose Register Array - com conexão de alta velocidade a processadores de pixel, algo que já vimos em GPUs anteriores. Ainda não está claro quantos registros estão disponíveis nas RADEON X1800, X1600 e X1300 e quão sensíveis os novos chips são às complexidades dos pixel shaders.
De acordo com o padrão Shader Model 3.0, loops, ramificações e sub-rotinas são totalmente suportados pelas novas soluções ATI, e o uso do controle de fluxo permite executar shaders de comprimento quase ilimitado. Os processadores da família RADEON X1000 realizam todos os cálculos no formato FP de 128 bits, o que praticamente elimina a possibilidade de acúmulo de erros e, como resultado, deterioração na qualidade da imagem.
O número de threads de código em execução simultânea foi aumentado, e o tamanho de cada um, ao contrário, foi reduzido para 4x4 pixels, o que possibilitou maior eficiência na utilização da ramificação dinâmica, cujo princípio é bem ilustrado pelo diagrama a seguir :

A vantagem da abordagem ATI é óbvia - com um tamanho de ramificação maior, a eficiência da ramificação dinâmica diminui significativamente; no caso de um tamanho de 64x64 pixels, a sua utilização torna-se injustificada. O representante sênior da família, RADEON X1800 (R520) é capaz de executar até 512 threads (threads) de código de shader simultaneamente, enquanto modelos menos potentes são limitados a 128 threads.
Processadores de vértice
O design dos processadores vértice RADEON X1000 é muito semelhante ao da NVIDIA GeForce 7 - cada processador consiste em dois blocos, vetorial e escalar, com a diferença de que ambas as ALUs no processador vértice G70 são de 32 bits, enquanto a ALU vetorial no processador RADEON X1000 semelhante tem 128 bits. Essa vantagem possibilita a utilização de um chip gráfico para emular processadores centrais.

Novos processadores de vértice podem executar 2 instruções por ciclo de clock, e o comprimento do shader pode atingir 1024 instruções no caso normal e ser quase infinito ao usar o controle de fluxo. Obviamente, os processadores vertex RADEON X1000 atendem totalmente às especificações do Shader Model 3.0.
Controlador de memória
O controlador de memória incluído nas novas GPUs ATI foi completamente redesenhado. Agora, o barramento de memória interna da RADEON X1800 possui uma topologia em anel e consiste em dois barramentos em anel contradirecionais de 256 bits, enquanto a topologia em anel da RADEON X1600 consiste em um par de barramentos contradirecionais de 128 bits.

O fato é que os barramentos em anel que percorrem todo o cristal permitem simplificar e otimizar a fiação interna, conectando os componentes pelo menor caminho possível. Essa solução, juntamente com o uso de um switch durante as operações de gravação na memória, minimiza atrasos e distorções de sinal. Graças à tecnologia Ring Bus, a RADEON X1800/1600 pode facilmente utilizar até mesmo a memória de frequência mais alta, por exemplo, GDDR4, o que, no caso da arquitetura tradicional, poderia levar a uma operação instável devido à presença de interferência causada pela fiação não otimizada dos condutores correspondentes no interior. GPU.
A memória é conectada aos barramentos através dos chamados “Ring Stops”. Existem quatro paradas no total, cada uma com dois canais de acesso à memória, cada uma com largura de 32 bits. Para efeito de comparação, na RADEON X850 a memória foi conectada ao controlador através de quatro canais de 64 bits. Cada Ring Stop pode transmitir, de acordo com as instruções do controlador de memória, para o cliente que solicitou os dados.
O princípio de funcionamento do subsistema de memória Ring Bus é bastante simples. O cliente envia uma solicitação de recebimento de dados ao controlador de memória, que fica localizado no meio do chip. O controlador de memória determina a prioridade de cada uma das solicitações de acordo com um algoritmo específico e dá prioridade àquela que mais afeta o desempenho, enviando a solicitação correspondente aos chips de memória e transmitindo esses dados através do Ring Bus para o Ring mais próximo. Pare para o cliente, que então transmite os dados para o cliente. Para obter o acesso ideal à memória, um chamado Write Crossbar Switch está localizado ao redor do controlador imediato, permitindo que as solicitações sejam distribuídas uniformemente.
Também foram feitas melhorias na tecnologia HyperZ - agora um algoritmo mais avançado é usado para determinar áreas invisíveis a serem cortadas. Aumentou a eficiência de recorte de superfícies ocultas em 50% em comparação com a RADEON X850.
HDR
A nova geração de processadores gráficos ATI recebeu suporte total para modos de exibição de alta faixa dinâmica, conhecidos coletivamente como HDR.
Ao desenvolver a nova arquitetura, a ATI Technologies tentou levar em conta todas as deficiências, e os processadores gráficos RADEON X1000 receberam os recursos mais amplos para trabalhar com HDR, incluindo suporte para vários formatos, incluindo os não padrão (personalizados). Além disso, o RADEON X1000, pela primeira vez, tem a capacidade de usar HDR simultaneamente com anti-aliasing de tela cheia. Comparado com a NVIDIA GeForce 6/7, este é um grande avanço, mas será que o desempenho dos novos processadores será suficiente? GPU Como garantir jogos confortáveis nesses modos? Somente os resultados dos testes podem responder a essa pergunta. Pelo menos, agora está claro por que o processador gráfico R520, o modelo topo de linha da nova família ATI, se mostrou mais complexo que o NVIDIA G70 – todas as inovações arquitetônicas descritas acima não foram dadas aos desenvolvedores à toa e exigiram sua parcela de transistores no cristal. Como resultado, apesar da presença de processadores de 16 pixels contra 24 no produto do concorrente, o número total de transistores chegou a 320 milhões, o que tornou o R520 o processador gráfico mais complexo do mundo.
A ATI RADEON X1800 foi a primeira GPU do mundo produzida em escala comercial usando a tecnologia de processo de 0.09 μm nas instalações da TSMC. Além disso, esse chip é o mais complexo da indústria 3D na época - consiste em 320 milhões de transistores, um pouco mais que seu concorrente mais perigoso - NVIDIA G70. Embora a complexidade da RADEON X1800 seja bastante elevada, um processo técnico mais refinado possibilitou operar em frequências de até 625 MHz, o que antes era inatingível.
Apesar de o número de transistores que compõem a Radeon X1800 ser o dobro do seu antecessor, a Radeon X800, o número de processadores de pixel não foi aumentado, e ainda há 16 deles na nova família. Em vez de aumentar o número, a ATI equipou a nova GPU um bloco especial chamado Ultra-Threading Dispatch Processor, responsável por distribuir efetivamente a carga entre os processadores de pixel e aumentar sua eficiência. A ATI afirmou que esta abordagem permite atingir 90% de eficiência na execução de qualquer pixel shader.
Especificações da ATI Radeon X1800 XT
| Nome | Radeon X1800XT |
| núcleo | R520 |
| Tecnologia de processo (µm) | 0.09 |
| Transistores (milhões) | 321 |
| Frequência central | 625 |
| Frequência operacional da memória (DDR) | 750 (1500) |
| Tipo de barramento e memória | GDDR3 256 bits |
| Largura de banda (Gb/s) | 48 |
| Pipelines de pixels | 16 |
| TMU no transportador | 1 |
| Texturas por batida | 16 |
| Texturas por passagem | 16 |
| Transportadores de vértice | 8 |
| Sombreadores de pixel | 3.0 |
| Sombreadores de vértice | 3.0 |
| Taxa de preenchimento (Mpix/s) | 10000 |
| Taxa de preenchimento (Mtex/s) | 10000 |
| DirectX | 9.0c |
| Anti-aliasing (máx.) | MS-6x |
| Filtragem Anisotrópica (Máx.) | Qualidade 16x |
| Tamanho da memória | 256/512 |
| Interface. | PCI-E |
| RAMDAC | 2x400 |
Embora a família RADEON X1800 tenha sido geralmente elogiada por seu desempenho e conjunto de recursos, ela ainda estava quase um quarto atrasada em comparação com a GeForce 7800 GTX, que possui capacidades e desempenho semelhantes.
MEDO





