|
![]() |
 |
|  | |  | |  |
| 主編推薦![]() | | | | | | |
![]() |
Mobile01科技新知報 | | ![]() | ![]() | 45奈米四核心CPU,Intel Penryn 架構解析測試
 Intel真的是卯起來幹了!現在熱賣的Core 2 Duo才上市一年多而已,Intel已經打算逐漸汰換掉「舊」產品,全系列導入新製程,在本月Intel發表業界第一顆45奈米CPU--Core 2 Extreme QX9650,宣告Penryn架構產品線的正式上市,而且硬是搶在AMD發表Phenom X4原生四核心之前,拼裝多核心再度搶得先機,火藥味濃厚至極,簡直快要爆炸了。明年初大家就會看到Intel vs. AMD的「新製程 vs. 新架構」世界大戰,加上Intel Eaglelake、AMD RD790、NVIDIA nForce 7晶片組和板卡廠永遠清不完的庫存,2008年就是一整個歡樂啊! 製程縮小,架構演化 讓我們快速溫習一下古時候的歷史(其實也才兩年)。Netburst架構的舊Pentium 4整個鳥掉,讓AMD Athlon64佔上風,於是Intel把Centrino筆電的Pentium M處理器拿出來大改,歷經Banias、Dothan、Yonah,最後生出劃時代的新架構Merom(正式的行銷名稱是Core微架構)。現在Core 2系列的產品線都是Merom架構,衍生多種核心橫跨桌上型和行動型(伺服器當然也有,但本篇就略過了),比如現在玩家最愛的控肉CPU(Conroe)就是Merom架構的桌上型版。而本篇的主角Penryn架構,就是把Merom從65奈米縮小成45奈米,趁著製程改進,Intel也順便小修了一下Merom,雖不像下一代Nehalem架構那樣瘋狂大改,但也讓Penryn有更好的功耗與效能。  在Yonah核心之後Intel採取非常積極的「Tick-Tock」策略,Tick-Tock就像時鐘的滴答聲,兩年一個循環。在每一年的聲響中Intel都會來一次革新,一大一小,新製程的隔年就是新架構,新架構的隔年就是新製程,每一年都更新產品線,每一年都是過渡產品讓你不知道該怎麼買。去年的Core 2是65奈米的新架構Merom,在今年底Intel把Merom架構轉進45nm製程推出Penryn。再下一次就是全新架構Nehalem,那是Intel近十年來最大的架構革新。 Wolfdale原生雙核與Yorkfield拼裝四核 很不幸的,Penryn架構還是原生雙核心,對手AMD的Phenom X4已經換成原生四核架構,所以「原生四核 vs. 拼裝四核」的嘴砲還會再戰個一年,保証是討論區的月經文。第一顆Penryn架構的CPU是四核心的Core 2 Extreme QX9650,就像之前的QX6850或現在詢問度很高的Q6600,QX9650的Yorkfield核心是兩顆雙核心封裝起來,Penryn真正的本尊是雙核心的Wolfdale,除了QX9650,其餘Penryn的產品線都要到2008年才出。 Wolfdale核心會有FSB 1333MHz、破錶的6MB L2快取、電晶體數量高達410M,但因為45奈米製程,相較於現在Core 2所用的Conroe核心,Wolfdale電晶體數量多了40%(410M vs. 291M)、快取多了50%(6MB vs. 4MB),但晶圓面積反倒縮小了30%(107mm^2 vs. 143mm^2)。至於QX9650的Yorkfield,就是Wolfdale的規格全部乘2,820M的電晶體倒是第一次看到桌上型CPU的電晶體數量超越GPU,而12MB的L2快取.....我不知道要說什麼了,其實Intel不是生產CPU的廠商,而是生產快取的。  Wolfdale的晶片照片,雙核心基本上就是鏡像兩顆核心,而那一大片當然就是L2快取。 支援Penryn很簡單∼ 擔心Intel出新CPU就要砍掉重練的玩家別害怕,現在所有的3系列晶片組都支援Penryn,包括X38、P35、G33、G31等等,通常更新個BIOS就可以上了,NVIDIA之後的nForce 7系列也會支援Penryn(但不支援DDR3),真的想升級45奈米CPU,平台的選擇還蠻多樣的,高中低階都有。下面的表格是目前確定會出的Penryn產品線,筆電的Penryn會更新現在的Santa Rosa平台,大家會發現QX9650還不是最高階的,明年上市的QX9770時脈高達3.2GHz,也是首批有FSB 1600MHz的桌上型CPU。  Penryn產品線會有非整數的倍頻,因為333MHz的外頻很高,而Penryn架構的單一時脈效能又很強,倍頻跳一級就多333MHz,有礙於細分產品線撈更多錢,所以Intel新增了0.5x的倍頻,讓產品時脈可以用166MHz的級數來分。這些2008年的新產品會取代現有的一些產品線,不過初期都是取代中高階產品,其中我個人覺得最有趣的是Q9300,美金266元的四核心,擺明就是取代現在熱門的Q6600,但Q9300裡的兩顆雙核心卻都只有3MB,所以這顆「Q6600殺手」事實上L2快取比Q6600還少,爽度大減,感覺有點差。如果Intel打算跟AMD話題性高的三核心CPU對幹,就來一顆美金200元以下的低階四核心吧!關了一半快取、降到45奈米製程的Q9300,應該有機會可以賤價大拍賣吧?就看Intel的誠意了.... Penryn 架構分析 & 相關測試 雖然說Penryn是Merom架構的45奈米縮小版,但如果只有這樣,那大概只有Intel控會買,Intel幫Penryn做了一些架構的調整,除了SSE4比較大之外,其他都是小幅度的加強,讓Penryn有比Merom更好的效能,但又不至於佔用太多電晶體(大部分的電晶體都放在快取上了吧?),在45奈米製程下更能有效控制成本,讓Intel賺更多錢,蓋更多晶圓廠污染地球....(我說到哪去了?)底下列出一些Penryn的架構改進,並列出相關的測試結果,詳細的一般效能測試則放在最後面。 45奈米製程,Metal Gate加High-K 製程縮小會遇到的主要問題就是漏電流(Current Leakage),尤其是在閘極介質(Gate Dielectric)之間的漏電,閘極在晶圓的電晶體裡扮演絕緣體的角色,過去有一段時間是用金屬,但因為金屬的耐熱程度、處理困難度都比多晶矽(Polysilicon)差,而且金屬在製程時會散進矽晶圓,所以後來大家都用多晶矽來做閘極介質。但多晶矽並非良好的的絕緣體,在65奈米的時候,多晶矽閘極介質只剩5個原子那麼厚,因此難以克服漏電問題。 但Intel不愧是世界一流的半導體晶圓廠,他們硬是把金屬帶回閘極介質,解決難以處理的障礙。透過Metal Gate和High-K的鉿物質,Intel在45奈米製程上做出突破,他們沒有透露是何種超合金和詳細的製作方法,畢竟那是商業機密。但Intel強調他們的45奈米製程可以達到2倍的電晶體密度、30%的省電、加快20%電晶體的切換速度,換句話說,就是時脈更高、功能更多、但更省電了。  Intel的45奈米製程在電晶體構成物質上做了很大的改變,原本以多晶矽做閘極介質,現在改成金屬物質,官方沒有提到是什麼金屬,但宣稱可以降低漏電。 各位大大應該都是半導體產業的製程工程師,所以我就不賣弄了,對我來說最重要的問題是:45奈米製程的Penryn到底有沒有更省電?,我抓了QX9650和QX6850做比較,這兩顆CPU的時脈相同,只有製程架構不同,利用SP2004指定CPU核心執行的方式操到四核都100%佔用率,看看整機的耗電和溫度狀況。  測試結果讓我大吃一驚,雖然QX9650和QX6850的TDP都是130W,但整機耗電量QX9650硬是低了40W左右,省電幅度達20%,無論待機或全速都明顯比較省電,講一堆Metal Gate或High-K好像很唬爛,但45奈米的Penryn架構真的比較省電,而且幅度還蠻大的!  溫度的部分也是,我們是用相同的風扇做測試,QX9650在全速時溫度低了快20度,但因為我手上的QX9650還是工程版,所以就沒仔細測超頻的部分,但不加電壓隨手調了一下就拉到3.6GHz,表現也比QX6850好。 24路、6MB暴肥L2快取 Penryn原生雙核心架構的L2快取加大50%,從Merom的4MB共用L2快取加到6MB,拼裝四核心就擁有12MB的驚人快取,除了「加量不加價」之外,Penryn也把L2快取從Merom的16路關聯強化到24路關聯。快取是暫存記憶體的位址,當CPU需要一個資料時,如果快取裡有暫存,就不用再到記憶體裡翻找,處理速度會加快,而「關聯性」(Associativity)是指某個主記憶體的位址可以放在某個快取區塊,16路就代表在16個快取區塊之中選一個來放,但必須覆蓋掉原來那個區塊所放的資料。  Penryn的快取關聯性從16路增加到24路,在CPU-Z裡可以看出來。 增加關聯性是兩面刃,因為寫入快取必須覆蓋掉原來的資料,會有機會發生「覆蓋掉之後可能會用到的資料」的狀況。用有點錯誤但比較容易理解的方式,16路關聯性就會有1/16的機率蓋掉之後可能會用到的資料,若真的發生這種情況,就會間接提高快取的失誤率(因為先前的資料被洗掉了),而增加到24路的話,這個覆蓋的機率就降到1/24,進而減少失誤率。可是增加關聯性,就代表CPU需要快取資料時,得再24個區塊裡找,會增加快取延遲。所以才說是兩面刃,減少失誤率固然很好,但若增加快取延遲,那就不好了。 我用CPU-Z附的程式來測試快取延遲時間,得到的結果如下: 項目 | Core 2 Extreme QX9650 | Core 2 Extreme QX6850 | CPU-Z Cache L2 Latency | 15 | 14 |
QX9650的L2快取延遲從14個時脈週期增加到15,雖然變慢了,但算是維持過去的高水準,也就是Penryn架構加大快取、減少失誤率,同時保持相同的快取延遲。俗話說的好,「硬碟容量決定宅的力量」,快取容量也是如此(再掰嘛...)!Intel的主力商品果然是快取,功力不同凡響。 SSE 4.1指令集與Super Shuffle引擎 SSE4是Penryn最重要的改變之一,SSE系列SIMD指令集主要是針對多媒體、3D、遊戲、圖形等等做加速,詳細解說可參考「1-3.CPU進階技術講解,XD、VT、SSE在幹嘛」。而在Penryn架構中,Intel新增了47個SSE 4.1的指令,為什麼說SSE "4.1"?因為整個SSE4指令集總共有54個指令,剩下7個指令則留到下一代的Nehalem再補完SSE 4.2。雖然不完整,但SSE 4.1仍然可增加多媒體效能,尤其MPSADBW和PHMINPOSUW兩個指令,大家應該都是程式設計師,所以我就不說細節了,只要知道它可以幫助影片壓縮的速度,影片壓縮時基本上是取一張基礎畫面,然後去比對各畫面和基礎畫面的差異,這兩個指令就是專門做這件事。 除了新的SSE指令集,Penryn還有與之搭配的「Super Shuffle」引擎。SSE主要是運算向量資料,但應用程式不一定會整整齊齊的把資料排成標準格式,Super Shuffle引擎會快速最佳化這些資料,讓SSE執行單元隨時保持滿載,加快SSE的執行速度,且不需要軟體更新就可以對所有的SSE2、SSE3、SSE4做最佳化。  Penryn架構支援SSE 4.1指令集,主要加強影片壓縮、3D、圖形等等。  其中比較重要的是MPSADBW和PHMINPOSUW兩個指令,Intel宣稱有1.6∼3.8倍的加速。(不過Intel也曾宣稱HyperThreading可以加快30%,所以.....) 完整文章請點我 | | 本文版權歸原作者所有, 禁止未授權轉載。 |
![]() | PChome ePaper 電子報版權所有,關於電子報發送有任何疑問,請聯絡 客服 台北市敦化南路二段105號11樓 ,TEL:(02)2708-8038,FAX:(02)27094848。 | |
沒有留言:
張貼留言