Skip to main content

Fujitsu

Hong Kong

Archived content

NOTE: this is an archived page and the content is likely to be out of date.

Fujitsu Laboratories(富士通研究所)開發新技術自動化解決分散式儲存系統性能問題

減輕熱門數據項目 70% 存取集中性 穩定ICT服務操作

富士通香港有限公司

香港, August 07, 2012

Fujitsu Laboratories(富士通研究所)今天宣布開發新技術,為分散式儲存系統之熱門數據項目的密集存取情況,自動化解決存取時間緩延的問題。

分散式儲存系統將多重伺服器集結於單一儲存器之中。增加伺服器數量可以提高儲存的容量和性能,使這種系統適用於日益增長的數據儲存量。此外,在多重伺服器中同步儲存複製的數據,可以攏高數據可靠度及存取性能。可是,當存取某一儲存數據急劇上升時,便會提高伺服器的負荷,可能會大大增加用戶存取的時間。

Fujitsu Laboratories 已經研發出一種新技術,可以即時檢測熱門數據項目,並自動增加其複製量以減輕伺服器負載。現時雖然可以人手操作,但會使存取時間變慢。這項嶄新技術應用於分散式對象儲存¹,並於互聯網上的存取測試中證明可以減輕約 70% 的集中程度,使存取時間的進展提高十倍或以上。

此技術可穩定 ICT 系統操作中難以掌握的存取模式。

有關此項新技術的細節於 8 月 1 日(星期三)在日本鳥取縣的「平行式、分散式和協作處理(SWoPP2012鳥取)」夏季聯合研討會上發佈。

背景

隨著智能手機和感應器的普及,數據的儲存量和分析量持續迅速增長,帶來了新的商業價值。分散式儲存常用於儲存龐大數據,尤其在多重硬盤、固態硬盤和其他儲存機制組合成單一儲存。增加更多的伺服器可以提高儲存的容量和性能。此外,在多重伺服器中同時儲存複製的數據,可以提高數據的可靠性。(圖1)

 圖1:分散式儲存
20120730-01a

技術問題

在分散式儲存系統中,熱門的數據往往被集中存取,令系統表現與伺服器數目失去關連性。舉例說,在新聞網站上的一單熱門消息,往往會被網民不斷讀取,亦只會加重單一伺服器的負荷。就算是增加伺服器數量,也未能解決整體效能下降的問題。(圖2)

 圖2:集中存取熱門數據,令系統表現下降
20120730-01b

關於新開發的技術

Fujitsu Laboratories 已開發一套名為「適應等級複製」(Adaptive Replication Degree)技術,能自動偵測被集中讀取的數據,並複製至不同的伺服器,以分流系統存取。這項科技可以高速偵察及解決系統被過量讀取、減少存取時間緩延,確保系統穩定表現。甚至可以穩定ICT系統中難以預計的存取模式。「適應等級複製」不需要手動設置,亦能實現自動處理密集存取偵測,以及改變複製數據的數量。

有關「適應等級複製」(Adaptive Replication Degree)技術的詳細資料:

1. 以少量記憶體資源,迅速偵測急劇提升的熱門數據,致大量被過量讀取的數據項目
為了偵測特發的密集數據存取,Fujitsu Laboratories 開發一套只需佔用少量記憶體的「熱門估算機器」(Popularity-estimation engine),就能推算出數據被讀取的模式。(圖3)在新開發的方法下,只需少量記憶體即可記錄指定資料的數據存取。當非指定的數據被讀取時,系統將會記錄為「較少讀取」;而當被讀取的次數不斷增加,系統就能準確地預測「熱門數據」所在。

另一方面,如果用戶降低指定資料的數據存取基數,就會令系統增加計算最近讀取數據的次數,偵察當中更明顯的存取變化,判斷哪些為「熱門」數據。

2. 自動優化數據複製的數量
為了解決複製數據數量波動的問題,Fujitsu Laboratories 已研究出一項新技術以周期性計算數據存取集中性,並分析資料如何被大量讀取(圖4)。當偵察到被大量讀取的數據項目,系統就會自動增加複製數據的數量。此項技術存在兩項優點—指出當前過度讀取的,以及預測下一次負荷的出現;另一方面,該技術亦能偵察數據周期內的存取集中性。當數據被讀取的次數增加,系統就會複製更多「副本」,在網絡數據流量激增時,提升被讀取的比例。

 圖3:「熱門估算機器」(Popularity-estimation engine)
20120730-01c
 圖4:數據存取梯度分析機制(Access gradient analysis mechanism)
20120730-01d

成果

這項新技術使用 64 台伺服器針對現實生活的娛樂項目進行測試²,根據一位著名歌星(圖5,圖6)在互聯網上的熱門話題故事所導致的龐大數據流量為背景。研究人員每小時對每台伺服器儲存頻率的變化進行檢測,並採用現有的方法,集中存取只包含相關數據的伺服器,發現存取的頻率增加約 2.3 倍。然而,採用新技術,存取頻率的增加率下降到以前水平的 70%,證明新技術有效減輕負載情況。

 圖5:使用舊方法測試每台伺服器在存取集中時的頻率變化
20120730-01e
 圖6:使用新方法測試每台伺服器在存取集中時的頻率變化
20120730-01f

另一個測試使用了 16 台伺服器,從用戶的角度檢視存取所花的時間。圖7顯示所有數據被集中存取的平均時間和熱門數據被集中存取的平均時間。對比以往的方法,新技術使全部數據的存取時間在正常存取下變得平均。縱觀所有數據的平均存取時間,舊方法使集中存取的時間較正常存取的時間高約 4 倍,而新的技術只有約 1.2 倍。至於熱門數據方面,舊方法使存取時間增加約 15 倍,而新技術只花約 1.4 倍的時間。

 圖7:針對不同的數據範疇以及流量情況,進行新舊方法對照
20120730-01g

未來計劃

Fujitsu Laboratories 將繼續測試並改進這項新技術的性能,目標在 2013 財政年度應用於產品與服務並推出市場。


術語和註釋

1 分散式對象儲存:
將數據及其元數據視為單一邏輯單位並以分佈形式處理的儲存方式

2 Recreation:
於Wikimedia projects, Wikimedia (online) 檢視有關統計 連結: http://dumps.wikimedia.org/other/pagecounts-raw/

在此提及的所有其他公司或產品均為其各自擁有者的商標或註冊商標。此新聞稿的資料在發布時為準確,資料會有機會更新,但不會作另行通知。

關於 Fujitsu Laboratories

Fujitsu Laboratories Limited(富士通研究所)為 Fujitsu Limited(富士通株式會社)的全資附屬公司,成立於 1968 年,是世界頂尖的研究中心之一。Fujitsu Laboratories Limited 的環球實驗室網絡遍佈日本、中國、美國和歐洲等地,積極從事廣泛的基礎和應用研究,涵蓋下一代服務、電腦伺服器、網絡、電子裝置及先進物料等範疇。如欲獲取更多資料,http://www.fujitsu.com/jp/

關於 Fujitsu(富士通)集團

Fujitsu(富士通)是世界領先的日本資訊通信技術(ICT)企業,提供全方位的技術產品、解決方案和服務,在全球擁有約16萬2千名員工,客戶遍佈世界100多個國家。Fujitsu憑藉在ICT領域的豐富經驗和實力,致力於與客戶攜手共創美好的未來社會。富士通集團(東京證券交易所上市代碼:6702)截至2014年3月31日財政年度的合併收益為4.8兆日元(460億美元)。如需更多資訊,請瀏覽:www.fujitsu.com

關於Fujitsu香港

Fujitsu香港是首屈一指的資訊及通訊科技方案和服務供應商,為客戶提供優質可靠及符合環保原則的產品及服務,為他們創造價值。憑藉五十年在業界的豐富經驗,加上是全球資訊科技與電訊基建專家Fujitsu集團的一分子,Fujitsu香港一直透過不斷創新和精益求精的技術,靈活回應每一位元客戶的獨特需求。此外,對於在中國和亞太區內外尋求業務發展機會的企業而言,Fujitsu香港也擔當著「樞紐和橋樑」的角色,務求與客戶建立長遠的合作夥伴關係。我們在本港的主要客戶包括香港特別行政區政府、國泰航空、電訊盈科、凱基證券、中信證券國際、現代貨箱碼頭、八達通及萬華媒體集團等。查詢更多資料,請瀏覽:http://www.fujitsu.com/hk

趙少華 (Yvonne Yew)

Phone: Phone: (852) 2827 5780
E-mail: E-mail: yvonne_yew@hk.fujitsu.com
Company:富士通香港有限公司

陳裕邦 (Brian Chan) / 程凱雯 (Jessica Ching)

Phone: Phone: (852) 2231 8105 / 2231 8112
E-mail: E-mail: jchan@hoffman.com / bchan@hoffman.com / jching@hoffman.com
Company:PR Agency, The Hoffman Agency (www.hoffman.com)

Date: 07 August, 2012
City: 香港
Company: 富士通香港有限公司