2007-12-18

45奈米四核心CPU,Intel Penryn 架構解析測試

本報內容由 Mobile01 提供 每週 三 出刊.2007.12.19
Mobile01科技新知報
45奈米四核心CPU,Int ... 線上第一品牌的BB霜


本期目錄
    45奈米四核心CPU,Intel Penryn 架構解析測試
主編推薦
  • 艾菲爾為你揭開2008年星座好運勢
  • 相信.心電感應是存在的
  • 用Google找不到成人圖片了?
  • 已經和失敗俱樂部的會員劃了座位?
  前20名訂職場英文付費報任二份送SKYPE通話點數
  耶誕常識大會考!NDSL、iPodTouch週週送!
 
電子報最新消息
提昇彼此歡愉指數!
 床第享受翻雲覆雨密技大公開,讓雙方都enjoy!
想進理想外商公司嗎?
 遠流轉職英文Bible,讓你年後轉職無往不利!
我是鼻子過敏的高危險群?
 鼻子過敏自我診斷問卷,對抗冬季鼻過敏!

Mobile01科技新知報    
45奈米四核心CPU,Intel Penryn 架構解析測試



Intel真的是卯起來幹了!現在熱賣的Core 2 Duo才上市一年多而已,Intel已經打算逐漸汰換掉「舊」產品,全系列導入新製程,在本月Intel發表業界第一顆45奈米CPU--Core 2 Extreme QX9650,宣告Penryn架構產品線的正式上市,而且硬是搶在AMD發表Phenom X4原生四核心之前,拼裝多核心再度搶得先機,火藥味濃厚至極,簡直快要爆炸了。明年初大家就會看到Intel vs. AMD的「新製程 vs. 新架構」世界大戰,加上Intel Eaglelake、AMD RD790、NVIDIA nForce 7晶片組和板卡廠永遠清不完的庫存,2008年就是一整個歡樂啊!


製程縮小,架構演化

讓我們快速溫習一下古時候的歷史(其實也才兩年)。Netburst架構的舊Pentium 4整個鳥掉,讓AMD Athlon64佔上風,於是Intel把Centrino筆電的Pentium M處理器拿出來大改,歷經Banias、Dothan、Yonah,最後生出劃時代的新架構Merom(正式的行銷名稱是Core微架構)。現在Core 2系列的產品線都是Merom架構,衍生多種核心橫跨桌上型和行動型(伺服器當然也有,但本篇就略過了),比如現在玩家最愛的控肉CPU(Conroe)就是Merom架構的桌上型版。而本篇的主角Penryn架構,就是把Merom從65奈米縮小成45奈米,趁著製程改進,Intel也順便小修了一下Merom,雖不像下一代Nehalem架構那樣瘋狂大改,但也讓Penryn有更好的功耗與效能。



在Yonah核心之後Intel採取非常積極的「Tick-Tock」策略,Tick-Tock就像時鐘的滴答聲,兩年一個循環。在每一年的聲響中Intel都會來一次革新,一大一小,新製程的隔年就是新架構,新架構的隔年就是新製程,每一年都更新產品線,每一年都是過渡產品讓你不知道該怎麼買。去年的Core 2是65奈米的新架構Merom,在今年底Intel把Merom架構轉進45nm製程推出Penryn。再下一次就是全新架構Nehalem,那是Intel近十年來最大的架構革新。


Wolfdale原生雙核與Yorkfield拼裝四核
很不幸的,Penryn架構還是原生雙核心,對手AMD的Phenom X4已經換成原生四核架構,所以「原生四核 vs. 拼裝四核」的嘴砲還會再戰個一年,保証是討論區的月經文。第一顆Penryn架構的CPU是四核心的Core 2 Extreme QX9650,就像之前的QX6850或現在詢問度很高的Q6600,QX9650的Yorkfield核心是兩顆雙核心封裝起來,Penryn真正的本尊是雙核心的Wolfdale,除了QX9650,其餘Penryn的產品線都要到2008年才出。

Wolfdale核心會有FSB 1333MHz、破錶的6MB L2快取、電晶體數量高達410M,但因為45奈米製程,相較於現在Core 2所用的Conroe核心,Wolfdale電晶體數量多了40%(410M vs. 291M)、快取多了50%(6MB vs. 4MB),但晶圓面積反倒縮小了30%(107mm^2 vs. 143mm^2)。至於QX9650的Yorkfield,就是Wolfdale的規格全部乘2,820M的電晶體倒是第一次看到桌上型CPU的電晶體數量超越GPU,而12MB的L2快取.....我不知道要說什麼了,其實Intel不是生產CPU的廠商,而是生產快取的。



Wolfdale的晶片照片,雙核心基本上就是鏡像兩顆核心,而那一大片當然就是L2快取。


支援Penryn很簡單∼
擔心Intel出新CPU就要砍掉重練的玩家別害怕,現在所有的3系列晶片組都支援Penryn,包括X38、P35、G33、G31等等,通常更新個BIOS就可以上了,NVIDIA之後的nForce 7系列也會支援Penryn(但不支援DDR3),真的想升級45奈米CPU,平台的選擇還蠻多樣的,高中低階都有。下面的表格是目前確定會出的Penryn產品線,筆電的Penryn會更新現在的Santa Rosa平台,大家會發現QX9650還不是最高階的,明年上市的QX9770時脈高達3.2GHz,也是首批有FSB 1600MHz的桌上型CPU。



Penryn產品線會有非整數的倍頻,因為333MHz的外頻很高,而Penryn架構的單一時脈效能又很強,倍頻跳一級就多333MHz,有礙於細分產品線撈更多錢,所以Intel新增了0.5x的倍頻,讓產品時脈可以用166MHz的級數來分。這些2008年的新產品會取代現有的一些產品線,不過初期都是取代中高階產品,其中我個人覺得最有趣的是Q9300,美金266元的四核心,擺明就是取代現在熱門的Q6600,但Q9300裡的兩顆雙核心卻都只有3MB,所以這顆「Q6600殺手」事實上L2快取比Q6600還少,爽度大減,感覺有點差。如果Intel打算跟AMD話題性高的三核心CPU對幹,就來一顆美金200元以下的低階四核心吧!關了一半快取、降到45奈米製程的Q9300,應該有機會可以賤價大拍賣吧?就看Intel的誠意了....


Penryn 架構分析 & 相關測試

雖然說Penryn是Merom架構的45奈米縮小版,但如果只有這樣,那大概只有Intel控會買,Intel幫Penryn做了一些架構的調整,除了SSE4比較大之外,其他都是小幅度的加強,讓Penryn有比Merom更好的效能,但又不至於佔用太多電晶體(大部分的電晶體都放在快取上了吧?),在45奈米製程下更能有效控制成本,讓Intel賺更多錢,蓋更多晶圓廠污染地球....(我說到哪去了?)底下列出一些Penryn的架構改進,並列出相關的測試結果,詳細的一般效能測試則放在最後面。


45奈米製程,Metal Gate加High-K
製程縮小會遇到的主要問題就是漏電流(Current Leakage),尤其是在閘極介質(Gate Dielectric)之間的漏電,閘極在晶圓的電晶體裡扮演絕緣體的角色,過去有一段時間是用金屬,但因為金屬的耐熱程度、處理困難度都比多晶矽(Polysilicon)差,而且金屬在製程時會散進矽晶圓,所以後來大家都用多晶矽來做閘極介質。但多晶矽並非良好的的絕緣體,在65奈米的時候,多晶矽閘極介質只剩5個原子那麼厚,因此難以克服漏電問題。

但Intel不愧是世界一流的半導體晶圓廠,他們硬是把金屬帶回閘極介質,解決難以處理的障礙。透過Metal Gate和High-K的鉿物質,Intel在45奈米製程上做出突破,他們沒有透露是何種超合金和詳細的製作方法,畢竟那是商業機密。但Intel強調他們的45奈米製程可以達到2倍的電晶體密度、30%的省電、加快20%電晶體的切換速度,換句話說,就是時脈更高、功能更多、但更省電了。



Intel的45奈米製程在電晶體構成物質上做了很大的改變,原本以多晶矽做閘極介質,現在改成金屬物質,官方沒有提到是什麼金屬,但宣稱可以降低漏電。


各位大大應該都是半導體產業的製程工程師,所以我就不賣弄了,對我來說最重要的問題是:45奈米製程的Penryn到底有沒有更省電?,我抓了QX9650和QX6850做比較,這兩顆CPU的時脈相同,只有製程架構不同,利用SP2004指定CPU核心執行的方式操到四核都100%佔用率,看看整機的耗電和溫度狀況。



測試結果讓我大吃一驚,雖然QX9650和QX6850的TDP都是130W,但整機耗電量QX9650硬是低了40W左右,省電幅度達20%,無論待機或全速都明顯比較省電,講一堆Metal Gate或High-K好像很唬爛,但45奈米的Penryn架構真的比較省電,而且幅度還蠻大的!



溫度的部分也是,我們是用相同的風扇做測試,QX9650在全速時溫度低了快20度,但因為我手上的QX9650還是工程版,所以就沒仔細測超頻的部分,但不加電壓隨手調了一下就拉到3.6GHz,表現也比QX6850好。


24路、6MB暴肥L2快取
Penryn原生雙核心架構的L2快取加大50%,從Merom的4MB共用L2快取加到6MB,拼裝四核心就擁有12MB的驚人快取,除了「加量不加價」之外,Penryn也把L2快取從Merom的16路關聯強化到24路關聯。快取是暫存記憶體的位址,當CPU需要一個資料時,如果快取裡有暫存,就不用再到記憶體裡翻找,處理速度會加快,而「關聯性」(Associativity)是指某個主記憶體的位址可以放在某個快取區塊,16路就代表在16個快取區塊之中選一個來放,但必須覆蓋掉原來那個區塊所放的資料。



Penryn的快取關聯性從16路增加到24路,在CPU-Z裡可以看出來。


增加關聯性是兩面刃,因為寫入快取必須覆蓋掉原來的資料,會有機會發生「覆蓋掉之後可能會用到的資料」的狀況。用有點錯誤但比較容易理解的方式,16路關聯性就會有1/16的機率蓋掉之後可能會用到的資料,若真的發生這種情況,就會間接提高快取的失誤率(因為先前的資料被洗掉了),而增加到24路的話,這個覆蓋的機率就降到1/24,進而減少失誤率。可是增加關聯性,就代表CPU需要快取資料時,得再24個區塊裡找,會增加快取延遲。所以才說是兩面刃,減少失誤率固然很好,但若增加快取延遲,那就不好了。

我用CPU-Z附的程式來測試快取延遲時間,得到的結果如下:

項目Core 2 Extreme QX9650Core 2 Extreme QX6850
CPU-Z Cache L2 Latency1514

QX9650的L2快取延遲從14個時脈週期增加到15,雖然變慢了,但算是維持過去的高水準,也就是Penryn架構加大快取、減少失誤率,同時保持相同的快取延遲。俗話說的好,「硬碟容量決定宅的力量」,快取容量也是如此(再掰嘛...)!Intel的主力商品果然是快取,功力不同凡響。


SSE 4.1指令集與Super Shuffle引擎
SSE4是Penryn最重要的改變之一,SSE系列SIMD指令集主要是針對多媒體、3D、遊戲、圖形等等做加速,詳細解說可參考「1-3.CPU進階技術講解,XD、VT、SSE在幹嘛」。而在Penryn架構中,Intel新增了47個SSE 4.1的指令,為什麼說SSE "4.1"?因為整個SSE4指令集總共有54個指令,剩下7個指令則留到下一代的Nehalem再補完SSE 4.2。雖然不完整,但SSE 4.1仍然可增加多媒體效能,尤其MPSADBW和PHMINPOSUW兩個指令,大家應該都是程式設計師,所以我就不說細節了,只要知道它可以幫助影片壓縮的速度,影片壓縮時基本上是取一張基礎畫面,然後去比對各畫面和基礎畫面的差異,這兩個指令就是專門做這件事。

除了新的SSE指令集,Penryn還有與之搭配的「Super Shuffle」引擎。SSE主要是運算向量資料,但應用程式不一定會整整齊齊的把資料排成標準格式,Super Shuffle引擎會快速最佳化這些資料,讓SSE執行單元隨時保持滿載,加快SSE的執行速度,且不需要軟體更新就可以對所有的SSE2、SSE3、SSE4做最佳化。



Penryn架構支援SSE 4.1指令集,主要加強影片壓縮、3D、圖形等等。



其中比較重要的是MPSADBW和PHMINPOSUW兩個指令,Intel宣稱有1.6∼3.8倍的加速。(不過Intel也曾宣稱HyperThreading可以加快30%,所以.....)



完整文章請點我
TOP
熱門焦點  
新聞頻道╱今天最HOT的熱門事件!
 掌握每天最精彩的新聞,跟朋友聊天不怕找不到話題!


前期文章 全部歷史文章
出刊日期 出刊主題
2007-12-05 寬螢幕的另一個選擇∼GARMIN 200W
2007-11-28 有進步,就有出路:Mio A702 衛星導航手機分享
2007-11-21 Ubuntu 7.10 加 Windows Vista,超華麗雙重開機
2007-11-14 小改變。大躍進--SonyEricsson Z750i
2007-11-07 雙 PC 雙 HDMI 輸入的頂級LCD - EIZO FlexScan HD2441W

本文版權歸原作者所有, 禁止未授權轉載。


感謝你訂閱這份電子報,下列電子報或許你會喜歡,請勾選
   遊戲新幹線玩家快 ...    Mobile01科技新知 ...    iThome IT管理報    iThome產品技術報
   PC uSER密技偷偷 ...    科學人雜誌    PhoneDaily手机報    iThome每日新聞報
我要訂閱這份報紙» 我要取消這份報紙» 訂報說明
.本電子報內容由 Mobile01 提供
.關於內容有任何疑問,或欲轉載請聯絡
PChome ePaper 電子報版權所有,關於電子報發送有任何疑問,請聯絡 客服
台北市敦化南路二段105號11樓 ,TEL:(02)2708-8038,FAX:(02)27094848。
廣告刊登授權服務隱私權聲明消費者保護兒童網路安全關於PChome徵人
網路家庭版權所有 Copyright PChome Online 版權所有,轉載必究

沒有留言: