Responsive image
博碩士論文 etd-0831109-115655 詳細資訊
Title page for etd-0831109-115655
論文名稱
Title
多種VLSI硬體排序加速器架構之設計
Design of Various VLSI Sorting Accelerator Architectures
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
61
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2009-06-15
繳交日期
Date of Submission
2009-08-31
關鍵字
Keywords
排序器、奇偶合併排序
Sorter, Odd-Even merge sort
統計
Statistics
本論文已被瀏覽 5709 次,被下載 14
The thesis/dissertation has been browsed 5709 times, has been downloaded 14 times.
中文摘要
本論文提出了多種VLSI硬體排序器架構的設計方法,在一開始本論文先提出一個基本序列排序器架構,架構包含了主記憶體以及一個基本的比較及交換(C&S)處理單元。而為了讓排序器可支援任意長度之排序資料,本論文亦提出一個特殊控制資料存取及C&S比較運算順序之低成本位址產生器。藉由位元排列的技術,可產生一種適合於不同的C&S單元資料位址距離之順序,位址產生器只需2個加法器以及3個位元移位器再加上一些控制電路便可實現,所需的邏輯閘數大約是1k。其次,本論文也提出了將記憶體分成2個記憶區塊架構的設計方法,能將每個記憶體所需的埠數由4個降至2個,如此一來排序記憶體便可使用記憶體產生器來實現。利用此方法,在排序點數為1024點的情況下,可降低排序器至少56%的設計成本。
除了序列排序器架構,本論文另外分別提出了管線化排序器、串接排序器、區塊排序器等三種平行處理架構。在此三種架構中,雖然管線化排序器只能使用於固定點數的資料序列,不過能提供最好的產出量。另一方面,區塊排序器是最有彈性的設計,適合於處理可變長度的資料序列,所使用的演算法為區塊層級奇偶合併排序演算法。由於使用效率較高的演算法,以及較好的區塊C&S(BC&S)處理單元,其可有效地分割前置排序以及合併處理步驟,並且將此處理單元加上管線化技術,此架構遠勝過先前文獻的區塊排序器。本論文實現了區塊大小為4的區塊排序器,使用0.18微米製程技術,其佈局核心面積約為0.509mm2,並且能在32.84us時間完成排序1024點資料序列。
Abstract
In this thesis, various designs of VLSI sorter architectures are proposed. This thesis first presents a baseline serial sorter architecture built on a central memory module equipped with a single compare-and-swap (C&S) functional unit. A dedicated low-cost address generation circuit which controls the order of data accesses and C&S operation in order to support sorting of data sequences with any length is proposed. By exploring the bit-permutation technique to create the access orders suitable for different C&S steps, the address generator can be built by only two adders and three shifters plus some control circuits, and consumes only about 1K gates. Next, this thesis also proposes a two-bank memory architecture to reduce the required memory ports from four to two such that the sorter memory can be realized by on-chip SRAM blocks. Our experimental results show that the overall silicon cost can be reduced by more than 56% for the sorter circuit which can sort the data sequence of length up to 1024.
In addition to the serial sorter architecture, this thesis further proposes three possible parallel sorter architectures including the pipeline sorter, cascade sorter, and block sorter. Among these three architectures, the pipeline sorter can deliver the best throughput although it can be used only for fixed-length data sequences. On the other hand, the block sorter is the most flexible design suitable for sequences with variable length. It is designed based on the block-level even-odd merge sort algorithm. It significantly outperforms the previous block sorter design by using more efficient algorithm, architectural pipelining, and better block C&S(BC&S) unit which can realize separate pre-sort and merge processes efficiently. Our implementation results show that by using the 0.18um technology, the core size of the proposed sorter with block-size of four is about 0.509mm2, and can sorting a 1024-point sequence within 32.84us.
目次 Table of Contents
第1 章 概論 1
1.1 研究動機 1
1.2 論文架構 3
第2 章 排序演算法 4
第3 章 序列排序器架構 10
3.1 記憶體位址產生器 11
3.2 排序器記憶體架構 20
第4 章 平行處理排序器架構 26
4.1 管線化排序器架構 26
4.1.1 SDF架構 26
4.1.2 MDF架構 27
4.2 串接排序器架構 28
4.3 區塊合併排序器架構 32
4.3.1 區塊C&S處理單元 33
4.3.2 資料繞線網路 36
第5 章 實驗結果 39
第6 章 未來工作 46
第7 章 參考文獻 47
圖表 2-1 排序演算法的概念 4
圖表 2-2 C&S運算單元示意圖 5
圖表 2-3 Batcher’s奇偶合併排序法示意圖 6
圖表 2-4 2×2合併排序網路資料流程圖 6
圖表 2-5 16點奇偶排序演算法資料流程圖 8
圖表 2-6 資料流程排列的規律 9
圖表 3-1 單一處理單元硬體排序器架構圖 10
圖表 3-2 位元排列函式在k=1,2,4時所產生的資料流程 13
圖表 3-3 資料流程圖中step所會出現的3種情況 14
圖表 3-4 利用計數器序列轉換成所需位址的程序示意 15
圖表 3-5 跳過不需運算位址方式的虛擬程式碼 16
圖表 3-6 完整奇偶排序法之位址產生器的虛擬程式碼 18
圖表 3-7 位址產生器架構圖 19
圖表 3-8 將記憶體分割成個別含有2埠的記憶體區塊 20
圖表 3-9 針對記憶體讀取位址所可能會出現之情形 22
圖表 3-10 以記憶體為主要記憶單元的硬體排序加速器架構圖 23
圖表 4-1 16點SDF排序器架構圖 27
圖表 4-2 16點MDF排序器架構圖 28
圖表 4-3 二級串接排序器架構圖 29
圖表 4-4 針對不同模式所表達的資料流程說明圖 30
圖表 4-5 16點資料序列且區塊層級(block level)L=4的資料流程圖 33
圖表 4-6 利用合併網路之架構取代單一C&S處理單元 34
圖表 4-7 詳細BC&S處理單元的資料流程圖 34
圖表 4-8 區塊層級L=4的詳細區塊Merge Sorter架構 36
圖表 4-9 資料繞線網路單元 37
圖表 4-10 在區塊層級L=4中的詳細資料流程圖 38
圖表 5-1 1024點區塊排序器正規化的任意區塊大小之比較係數 41
圖表 5-2 區塊層級大小L=4 的區塊排序器之佈局圖 44
表格 3-1 使用位元排列函式在k=1,2,4時之結果 12
表格 3-2 Bmask參數產生方式 15
表格 3-3 以8點資料排序為例在第3 個stage產生所需位址的方法 17
表格 3-4 8點筆數資料位址列表 21
表格 3-5 排序筆數為8且L=0的條件下,各訊號之排程 25
表格 4-1 對於2個串接C&S處理單元所做運算之分類 30
表格 4-2 16點序列在two-step串接架構上所需的讀寫位址列表 31
表格 5-1 各排序架構效能及空間使用的相關係數整理 39
表格 5-2 以N點序列且區塊層級大小為L的排序器效能摘要 40
表格 5-3 以64點為標準與參考文獻比較之結果 42
表格 5-4 32點輸入筆數且區塊大小為L的block-sort分析 43
表格 5-5 64點輸入筆數且區塊大小為L的區塊-sort分析 43
表格 5-6 輸入點數為1024點區塊排序器之實現結果 44
參考文獻 References
[1].N. Wernersson and M. Skoglund, “Sorting-based multiple description quantization,” IEEE Transactions on Circuits and Systems—Part I: Fundamental Theory and Applications, vol. 54, no. 9, pp. 1521 – 1526, Sept. 2006.
[2].Y. Chao, C. Guoliang, Z. Cheng, and S. Yifei, “Sorting networks on a nanocomputing architecture,” in Proceedings of the Fourth International Conference on Parallel and Distributed Computing, Applications and Technologies, Chengdu, China, Aug. 2003, pp. 784 – 788.
[3].D. Taniar and J. W. Rahayu, “Sorting in parallel database systems,”in Proc. of The Fourth International Conference/Exhibition on High Performance Computing in the Asia-Pacific Region, New Zealand, May 2000, pp. 830 – 835.
[4].C. Chakrabarti, “Sorting network-based architectures for media filters,”IEEE Transactions on Circuits and Systems, pp. 723 – 727, Nov. 1993.
[5].C.-Y. Huang, G.-J. Yu, and B.-D. Liu, “A hardware design approach for merge-sorting network,” in Proc of the 2001 IEEE International Symposium on Circuits and Systems, Sydney, Australia, May 2001, pp.534 – 537.
[6].C.-S. Lin and B.-D. Liu, “Design of a pipelined and expandable sorting architecture with simple control scheme,” in Proc of the 2002 IEEE International Symposium on Circuits and Systems, Phoenix, Arizona, May 2002, pp. 217–220.
[7].S.-H. Ou, C.-S. Lin, and B.-D. Liu, “A scalable sorting architecture based on maskable WTA/MAX circuit,” in Proc of the 2002 IEEE International Symposium on Circuits and Systems, Phoenix, Arizona, May 2002, pp. 209–212.
[8].C. Layer and H.-J. Pfleiderer, “A reconfigurable recurrent bitonic sorting network for concurrently accessible data,” in The 2004 international conference on Field-Programmable Logic and its Applications, Leuven, Belgium, Sept. 2004, pp. 648–657.
[9].C. J. Kuo and Z. W. Huang, “Modified odd-even merge-sort network for arbitrary number of inputs,” in Proc of the 2001 IEEE International Conference on Multimedia and Expo., Tokyo, Japan, Aug. 2001, pp. 929 – 932.
[10].R. Singhal, G. Choi, and R. Mahapatra, “Programmable LDPC decoder based on the bubble-sort algorithm,” in 19th International Conference on VLSI Design., Hyderabad, India, Jan. 2006, p. 6.
[11].D. E. Knuth, Art of Computer Programming: Sorting and Searching. Boston, MA: Addison-Wesley, 1998.
[12].K. E. BATCHER, “Sorting networks and their applications,” in Proc. of AFIPS Conference, Atlantic city, N.J., 1968, pp. 307 – 314.
[13].K. K. Parhi, VLSI Digital Signal Processing Systems: Design and Implementation. New York, NY: John Wiley & Sons, Inc., 1999.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:校內一年後公開,校外永不公開 campus withheld
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus:永不公開 not available

您的 IP(校外) 位址是 54.225.1.66
論文開放下載的時間是 校外不公開

Your IP address is 54.225.1.66
This thesis will be available to you on Indicate off-campus access is not available.

紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code