Responsive image
博碩士論文 etd-0818110-131743 詳細資訊
Title page for etd-0818110-131743
論文名稱
Title
設計應用於多核心系統之非同步環狀匯流排架構
Design of an Asynchronous Ring Bus Architecture for Multi-Core Systems
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
92
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2010-07-21
繳交日期
Date of Submission
2010-08-18
關鍵字
Keywords
非同步環狀匯流排、多核心系統、晶片上的互連網絡
On-Chip Interconnect Networks, Asynchronous Ring Bus, Multi-Core Systems
統計
Statistics
本論文已被瀏覽 5663 次,被下載 1475
The thesis/dissertation has been browsed 5663 times, has been downloaded 1475 times.
中文摘要
  在多核心系統設計中,核心的資料傳輸成為一個主要的挑戰,晶片上的互連網絡需要具有低延遲、高傳輸量、較佳可擴充性、較佳的路由或仲裁策略和低功率消耗等等。本論文提出採用非同步電路設計的方式,建立一個環狀匯流排,匯流排長度為33位元,並採用雙軌編碼的單一通道資料協定(Single-track data protocol),提供強韌(Robust)和高速的非同步電路的設計條件。因為採用非同步設計的方式,不同傳輸距離可以具有不同的傳輸時間,使得傳輸路徑越短的封包可以越快完成,而不需要像同步電路的匯流排,即使是鄰近的兩個核心,工作頻率必需受限於最長路徑的延遲;另一方面,因為非同步電路的傳輸速度並不會受最長路徑延遲的影響,因此,即使連接核心數量越多,也不會對傳輸速度構成很大的影響。為了提供更高的傳輸量和傳輸大量資料的需求,本論文提出可以使多個核心同時存取匯流排的方法,並且核心與核心之間可以建立一條直接連接的傳輸路徑來傳送大量的資料。在匯流排仲裁策略方面,為了提供更佳的可擴充性,本論文採用分散式仲裁器來仲裁匯流排的使用權和處理碰撞的發生,並評估不同的仲裁方式對系統效能的影響。在TSMC 0.18μm製程下,最短路徑的單一資料傳輸時間約1.5ns,在碰撞仲裁策略方面,最長路徑優先具有較好的效能表現。
Abstract
In the multi-core systems, the data transfer between cores becomes a major challenge. The on-chip interconnect networks should be low latency, high throughput, scalability, better router or arbitration strategy, and low power consumption. An asynchronous ring bus, which is 33 bit width, adopting dual-rail single-track data protocol is proposed in this thesis. It provides not only robust but also high-speed asynchronous circuits condition. Owing to asynchronous circuits design, there are different transfer times in different hop counts. The shorter the distance is, the faster the data can be transferred. Unlink the synchronous ring bus, the bus frequency must be limited by the longest hop count latency. On the other hand, the transmission time of asynchronous circuits will not be held up by the longest distance even though the number of core is increased. For providing higher throughput, multiple cores which are able to access the bus simultaneously make a direct connection between each other. In bus arbitration, distribution arbiter is adopted to arbitrate the right to use the bus and solve the collision. Finally, the system performance in different arbitration strategies has been estimated in TSMC 0.18μm process in this thesis. The transmission time of the shortest distance is 1.5 ns approximately, and the longest distance first has a better performance in different arbitration strategies.
目次 Table of Contents
目錄
致謝 i
摘要 ii
ABSTRACT iii
目錄 v
圖目錄 vii
表目錄 ix
第一章 簡介 1
1-1 研究動機 1
1-2 研究目的 2
1-3 論文架構 2
第二章 相關研究 3
2-1 Micropipelines 6
2-2 非同步設計 10
2-2.1 電路分類 10
2-2.2 信號約定 11
2-2.3 資料表示法 14
2-3 晶片上的互連網絡 19
2-3.1 同步互連網絡 19
2-3.2 非同步互連網絡 23
2-4 整理和探討 27
第三章 非同步環狀匯流排運作方式和收發器之設計 29
3-1 非同步環狀匯流排之工作方式 30
3-2 封包格式設計 33
3-3 非同步環狀匯流排之收發器架構 35
3-4 收發器中各電路之設計 38
3-4.1 Address Comparator之設計 38
3-4.2 Bus Detector之設計 39
3-4.3 Data Detector之設計 40
3-4.4 MUX之設計 42
3-4.5 Keeper之設計 44
3-4.6 Controller之設計 46
第四章 死結發生的分析和預防方法 51
4-1 死結的發生條件 51
4-2 碰撞解決電路 54
4-3 傳輸取消機制之設計 59
第五章 硬體實現和結果分析 65
5-1 驗證的架構和模擬方式 65
5-2 模擬結果分析 69
5-2.1 單一封包不同距離所需時間 69
5-2.2 樣本1的模擬結果 70
5-2.3 樣本2的模擬結果 72
5-2.4 樣本3的模擬結果 73
5-3 模擬結論 74
第六章 結論 76
參考文獻 77
圖目錄
圖2-1 亞穩態示意圖 4
圖2-1.1 (a) Muller C-element的符號, (b) Muller C-element的真值表, (c) 靜態的Muller C-element電路圖 7
圖2-2.1.1 電路中各模組或線的延遲 10
圖2-2.2.1 使用交握協定的例子 12
圖2-2.2.2 2相信號架構的時序圖 12
圖2-2.2.3 4相信號架構的時序圖 13
圖2-2.3.1 採用資料包裹協定的示意圖 14
圖2-2.3.2 (a)雙軌資料完成偵測電路, (b)雙軌資料完成偵測電路之真值表 16
圖2-2.3.3 N-of-M資料編碼的交握協定 16
圖2-2.3.4 單一通道資料協定 17
圖2-2.3.5 單一通道協定的常見連接方式 18
圖2-3.1.1 Shared Bus的連接方式 19
圖2-3.1.2 層階式的Shared Bus 20
圖2-3.1.3 單向的環狀網路 21
圖2-3.1.4 使用Shared Bus通訊的例子 22
圖2-3.1.5 單向的SAMBA-Bus結構圖 22
圖2-3.1.6 使用SAMBA-Bus通訊的例子 23
圖2-3.2.1 一般Nexus基礎的SoC 24
圖2-3.2.2 Nexus的突發傳輸格式 25
圖2-3.2.3 8位元的HyperTransport的連接線[17] 26
圖3-1.1 非同步環狀匯流排工作流程 31
圖3-2.1 封包傳輸的時序圖 34
圖3-3.2 收發器內部部份電路之時序圖 37
圖3-4.1.1 Address Comparator架構圖 39
圖3-4.2.1 Bus Detector的有限狀態圖 40
圖3-4.3.1 Data Detector實現方式 41
圖3-4.3.2 (a)改良後的Data Detector中的Muller C-element, (b)採用改良後的Muller C-element來構成的4位元Data Detector 42
圖3-4.4.1 1位元的MUX的電路圖 43
圖3-4.5.1 電荷分享效應示意圖 45
圖3-4.5.2 加入Keeper後的示意圖 45
圖3-4.6.1 Controller之架構圖 46
圖3-4.6.2 MUTEX的電路圖 47
圖3-4.6.3 1位元的Transfer Unit 49
圖4-1.1 (a)第一種死結發生條件,(b)死結發生的原因 51
圖4-1.2 (a)第二種死結發生條件,(b)死結發生的原因 52
圖4-2.1 加入Collision Solver後的Controller 54
圖4-2.2 Collision Solver架構圖 55
圖4-2.3 碰撞檢查電路 56
圖4-2.4 重傳電路 57
圖4-3.1 Bypass Channel封包取消機制例子 60
圖4-3.2 加入Bypass Channel封包取消電路的Controller 61
圖4-3.3 加入Trans. Channel封包取消電路的Controller 62
圖4-3.4 加入重置觸發電路的收發器 63
圖4-3.5 重置觸發電路 64
圖5-1.1 6個收發器的驗證架構 65
圖5-1.2 樣本1中各收發器的封包傳送到不同收發器的次數 66
圖5-1.3 樣本2中各收發器的封包傳送到不同收發器的次數 67
圖5-1.4 樣本3中各收發器的封包傳送到不同收發器的次數 67
圖5-2.1 各個傳輸距離所需時間(6個收發器) 69
圖5-2.2 各個傳輸距離所需時間(8個收發器) 70
圖5-2.2.1 樣本1中各收發器被取消次數 71
圖5-2.2.2 樣本1中各收發器完成時間 71
圖5-2.3.1 樣本2中各收發器被取消次數 72
圖5-2.3.2 樣本2中各收發器完成時間 73
圖5-2.4.1 樣本3中各收發器被取消次數 73
圖5-2.4.2 樣本3中各收發器完成時間 74
表目錄
表2-4.1 各種通道協定的優缺點 27
表3-2.1 本論文所採用的封包格式 33
表3-4.4.1 MUX選擇電路之真值表 43
參考文獻 References
D. Geer, “Is it time for clockless chips?” Computer, v38, n 3, pp. 18-21, doi: 10.1109/MC.205.106, March 2005.
I.E. Sutherland, “Micropipelines,” Commun. ACM, vol. 32, no. 6, pp. 720-738, Jun. 1989.
M. Singh and S. Nowick, “MOUSETRAP: High-Speed Transition-Signaling Asynchronous Pipelines,” IEEE Transactions on VLSI Systems, vol. 15, no. 6, pp. 684-698, June 2007.
K. Stevens, S. Rotem, R. Ginosar, P. Beerel, C. Myers, K. Yun, R. Kol, C. Dike and M. Roncken, “An asynchronous instruction length decoder,” IEEE J. Solid-State Circuits, vol. 36, pp. 217-228, Feb. 2001.
A. Bink and R. York, “ARM996HS: The first Licensable, Clockless 32-Bit Processor Core,” IEEE Micro, vol. 27, pp. 58-68, 2007.
A. Lines, “Asynchronous interconnect for synchronous SoC design,” IEEE Micro, 24:32–41, Jan/Feb 2004.
D. M. Chapiro. Globally-Asynchronous Locally-Synchronous Systems. PhD thesis, Stanford University, 1984.
R. Lu, C. Koh, A. Cao, “SAMBA-Bus: A High Performance Bus Architecture for System-on-Chips,” IEEE Transactions on VLSI Systems, vol. 15, pp. 69-79, January 2007.
L. Seiler, D. Carmean, E. Sprangle, T. Forsyth, M. Abrash, P. Dubey, S. Junkins, A. Lake, J. Sugerman, R. Cavin, R. Espasa, E. Grochowski, T. Juan, and P. Hanrahan. “Larrabee: a many-core x86 architecture for visual computing,” ACM Transactions on Graphics, 27(3):1–15, 2008.
P. Cheolmin, R, Badea, L. Biro, J. Chang, T. Singh, J. Vash, W. Bo, T. Wang, “A 1.2 TB/s On-Chip Ring Interconnect for 45nm 8-Core Enterprise Xeon® Processor,” IEEE ISSCC Digest of Technical Papers, pp. 180-181, 2010.
Martin, A.J., The limitations to delay-insensitivity in asynchronous circuits. In W.J. Dally, editor, Sixth MIT Conference on Advanced Research in VLSI, pp263-278, MIT Press, 1990.
M. Krsti′c, E. Grass, F.K. G‥urkaynak, P. Vivet, Globally Asynchronous, Locally Synchronous Circuits: Overview and Outlook, IEEE Design and Test of Computers, vol. 24, no. 5, pp. 430-441, September-October 2007.
B. Quinton, M. Greenstreet, S. Wilton, “Practical Asynchronous Interconnect Network Design,” IEEE Transactions on VLSI Systems, pp. 579-588, May 2008.
V. Tiwari, D. Singh, et al., “Reducing power in high-performance microprocessors,” in ACM/IEEE Design Automation Conference (DAC), pp. 732-737, June 1998.
A. Lines, “Nexus: an asynchronous crossbar interconnect for synchronous system-on-chip designs”, Proceedings 11th Symposium on High Performance Interconnects, pp 2 – 9, Aug. 2003.
A. T. Tran, D. N. Truong, B. M. Baas, “A Low-Cost High-Speed Source-Synchronous Interconnection Technique for GALS Chip Multiprocessors,” Circuits and Systems, 2009. ISCAS 2009. IEEE International Symposium on, pp. 996-999, May 2009.
HyperTransport Technology Consortium, HyperTransport I/O Technology Overview, www.hypertransport.org, 2004.

A. Sedra and K. Smith, “Microelectronic Circuits: Fifth Edition”, Oxford University Press, 2004.
D. N. Jayasimha, B. Zafar, Y. Hoskote, “On-chip interconnection networks: why they are different and how to compare them,” Technical Report, Intel Corp., 2006.
J. Sparsø, Asynchronous circuit design - a tutorial, Kluwer Academic Publishers, Boston / Dordrecht / London, December 2001.
C. J. Akl, M. A. Bayoumi, “Reducing Interconnect Delay Uncertainty via Hybrid Polarity Repeater Insertion,” IEEE Transactions on VLSI Systems, vol. 16, pp. 1230-1239, 2008.
Y. Peng, X. Liu, “An Efficient Low-Power Repeater-Insertion Scheme,” IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, pp. 2726-2736, 2006.
J. Ebergen, J. Gainsley, J. Lexau, I.E. Sutherland, "GasP Control for Domino Circuits," Proc. ASYNC, pp. 12-22, 2005.
W.-C. Lee, J.-H. Lee, K.-R. Cho, “RZ/NRZ Dual-Rail Decoding Scheme to Reduce Switching Activities in Asynchronous Circuits,” Proceeding of 2004 IEEE Asia-Pacific Conference on Advanced System Integrated Circuits, pp. 266-269, 2004.
J. Sparsø and S. Furber. Principles of Asynchronous Circuit Design - a Systems Perspective. Kluwer Academic Publishers, Boston, 2001.
AMBA Specification, ARM Ltd, Hall.
P. Liljeberg, J. Plosila, J. Isoaho, “Self-timed ring architecture for SoC applications,” Proc. SOC Conference, pp. 359-362, September 2003.
T.W. Kwan, M. Shams, "Design of High-Performance Power-aware Asynchronous Pipelined Circuits in MOS Current Mode Logic," Proc. ASYNC, pp. 23-32, 2005.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:校內校外完全公開 unrestricted
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code