當前位置:編程學習大全網 - 編程語言 - 地球科學研究中的超級計算

地球科學研究中的超級計算

王群

1 緒論

包括地質、地理、大氣、海洋等眾多學科在內的地球科學,是自然科學中直接面向人類與自然關系的部分。地球科學不僅是認識地球固態、液體和氣態各圈層及其與人類關系的渠道,而且通過找礦勘探、氣象預測、水文、測繪、地震等學科的科技實踐活動,在資源、能源、環境和防災、減災等方面直接為社會經濟服務。

衛星通信技術、網絡技術和計算機技術,改變傳統地學研究的模式。遙感、信息技術和各種實時觀測、分析技術的發展,使地球科學進入了覆蓋全球、穿越圈層,亦即地球系統科學的新階段,從局部現象的描述推進到行星範圍的機理探索,獲得了全球性和系統性的信息。

在應用方面,地球科學的作用幾乎無所不在,從采掘業、工業、農業到建設規劃、旅遊和軍事,都是地球科學施展的領域。而且,隨著社會發展而出現的環境惡化和自然災害後果的加重,使得原來主要面向資源的地球科學朝環境和減災防災發展,從而拓寬了地球科學為社會服務的領域。

現代化的探測手段、信息技術的應用,生成了PB/TB級的地質空間數據,需要萬億次以上的超級計算機處理和解釋、存取和利用。另壹方面,數字信息和通信環境的發展,也改變了傳統基礎學科研究的手段和方法,壹個多學科交叉的研究隊伍是完成大型科學研究和工程實現的重要保證。先進的超級計算機和網格計算技術為基礎交叉學科的研究提供壹個多學科***享資源平臺。2002年以來,美國、英國、日本、澳大利亞和歐盟都啟動“e-Research”或“e-Science”項目,投資額從1億到10億美元不等,其目的是利用網格技術和中間件技術把全國或區域範圍的大學或研究室的超級計算機連接起來,形成壹個虛擬的協同多學科資源***享平臺。與此同時,先進發達國家正在建立以地球科學為核心的多學科資源***享平臺。

2 超級計算機

正如Moore定律的解釋,計算機的運行速度正快速增加(每18個月增加壹倍),制造費用急劇下降,超級計算成本趨於合理,購買壹個萬億次計算能力的超級計算機,目前我國大多數大學可以支付得起。根據超級計算機的性能最新統計TOP500 顯示(截至2004年12月),其中358臺是2004年最新安裝的,2003年安裝了95臺。兩者相加占世界最快500臺計算機的90%以上,如表1所示。加快計算機的速度在技術上已不是難題,關鍵是軟件系統的開發,而這正是我們的薄弱環節。

在基礎學科研究領域,地球科學是應用超級計算機最多的領域。根據TOP500的最新統計(截至2004年12月),如表2所示,在最高性能的500臺超級計算機中,地球物理占了51臺,占總數的10%以上。如果加天氣和氣象研究、天氣預報等,地球科學占用的超級計算機的比例還要大。

表1

表2

目前我國許多大學和研究機構也開展了超級計算體系結構的研究,例如,以Linux操作系統為主的集群式計算機結構體系。這種體系在大型計算機和超級計算機昂貴時,為超級計算任務提供了壹個可行的解決方案。但是現在已不能滿足更大規模計算的要求。其主要問題是性能比差,可靠性低,維護困難,擴展性差,安全性差,研究人員在系統的構造上花太多的精力,費用也不壹定低。

2003年,美國兩院院士、美國《時代》周刊封面人物陳世卿博士回到中國,在深圳蜆殼星盈公司發明了超級刀片計算機。陳世卿博士亦是世界著名CRAY超級計算機CRAY-MP和Y-MP開發的領導者。

超級刀片計算機的“刀片”設計理念類似於噴氣發動機的渦輪“葉片”。這些“葉片”隨時可以取下來更換,將它們絞合在壹起便產生強大的動力。超級刀片計算機充分運用了這種設計理念,深入淺出,化繁為簡,采用全新的技術,對計算節點的升級只需要增加“刀片”不需要重新布線和配置。這種計算機如同發動機上插滿了壹個個“刀片”,每個“刀片”就是壹個運算單元,理論上可以無限擴充,而且可以在不停機的情況下隨時增加和更換。超級刀片計算機采用了嶄新的設計理念和系統架構,運算速度可超過每秒50萬億次浮點數,達到了美日等先進國家超級計算機的水平。超級刀片計算機具有持久的生命力,安全可靠,合理的價格性能比,實時協同模式等性能。

3 地球科學研究的超級計算問題

地球科學研究的超級計算問題包括:地震數據處理和解釋、遙感信息處理和解釋,大規模地理信息系統,地質空間數據處理和可視化,地球、大氣和海洋等各種自然現象動態模擬,如地震,洪水,沙塵暴等,工程地質結構模擬,材料分子動力學模擬等等。另外,在地球科學的研究中,有許多超級計算涉及多學科,跨學科問題。有些問題是實時的,協同工作流模式。

4 基於高性能網絡的超級計算

隨著計算機和信息技術的發展和應用,特別是高速網和相關設備的建設和應用,已經深刻地影響到科學研究的方法,改變了研究的手段,同時,導致了e-Research和e-Science概念的出現。

e-Science是對壹個超大規模的、需要全球科學家協同合作的、利用互聯網及相關技術的科學研究基礎設施的定義。這些協同科學研究的壹個最典型的特征是,科學家需要存取海量級的數據集,利用獨特的科學研究設施,消耗大量的科學計算資源,執行高性能的分析、建模和可視化顯示。這種超大規模的研究的另壹個重要方面是為科學家和跨學科之間的信息交流,新概念萌發提供了學科交叉的平臺。

e-Research是e-Science更壹般的定義和概括,它包含了非理科研究的行為和活動。例如e-Research包括人類學和社會學的研究,為了協同工作和知識***享,e-Research也有利用分布式計算資源的特征。

網格技術(Grid Technologies)在e-Research和e-Science的發展中扮演了壹個重要角色。與顧客和企業可以獲取電力供應壹樣,網格使研究員和研究機構以某種規定的方式,存取網絡上分布的數據倉庫,特殊的科學設備,獲取知識服務,以及***享強大的計算功能。他們可以實現靈活多變的、安全的知識***享,並且在個體研究者、研究機構以及資源動態組合中,協調科學研究問題的求解。這種方式通常也稱為虛擬組織(Virtual Organization)。

計算基礎設施(Cyberinfrastructure)代表了壹個由分布式計算機、信息和通信技術組建的、新型的、虛擬科學和工程知識環境。它實現了壹個高效,多種形式進行科學研究的平臺。

科學家通過對新知識的挖掘、交互式建模、利用仿真和模擬工具、***同協作解決復雜的科學和工程技術問題,這些導致了基礎科學研究設施正在發生變化。復雜的科學和工程技術問題要求我們的新型基礎科學研究設施必須是跨學科的、分布式的、集成***享平臺。天文學(Astronomy)、生物學(Biology)、地球科學(Geosciences)、公***衛生(Public Health)和納米材料(Nano-materials)通常都需要實現信息集成、數據分析和安全的知識***享。它們都需要安全地、可操作地、連續地存取物理設備(例如計算機、磁盤陣列、儀表儀器等)、數據和信息(大量的數據集、商業和科學數據庫、信息和軟件庫,視頻和圖像庫)以及特定的專家和學者。

e-Research中間件是具有特定功能的軟件,該軟件為整個計算基礎設施上的應用系統、計算資源、研究機構和個人之間的知識管理、知識***享、任務合作提供標準的通用工具和服務,它是e-Research計算基礎設施的重要組件。

美國、英國、歐洲***同體、日本等都實施了龐大的e-Research計算基礎設施的研究計劃,他們希望計劃可以增加國家長期的經濟繁榮以及發揮基礎設施所提供的知識分布的功力。許多研究計劃已經研發出了重要的中間件,壹些項目是國家之間的合作計劃,或交流項目,***同開發跨大洲的通用中間件。

通過國家自然科學基金(NSF)的資助,美國目前正在考慮每年增加投資10億美金建造和開發壹個高性能計算基礎設施計劃(Advanced Cyberinfrastructure Program),其中的三分之壹(大約3.95億美元)將投到中間件的技術研究以及相應的開發活動中。表3列舉了壹些重要的e-Research基礎設施研發計劃以及大約投入到中間件研發經費。

表3

雖然我國在計算基礎設施(Cyberinfrastructure)建設中投入了壹定的研究經費,但是報告顯示有效地利用它獲取研究資源的效率是較低的、耗時的,需要較多的人力。用戶迫使使用不可靠的、手工的方法去發現合適的資源;有時需要與資源的擁有者協商;有時需要通過低效、耗時、昂貴的手段利用這些資源;有時甚至需要跨洲飛行。對存取高速網上資源、設備、服務和數據缺乏足夠的認識,導致了我們失去了很多機會。另外,用戶也給系統的安全帶來了許多不確定因數,需要防止非授權人員對資源的入侵。由於標準化、系統支持和維護以及用戶界面的不完善,在支持和維護軟件過程中研究人員需要投入更多的時間和精力。

地球科學需要有壹個互信的、協同的、交互的、基於高速網的資源環境,為軟件服務提供支持的中間件可以達到該目的。雖然我國ICT(Information and Computer Technology)研究人員對許多中間件的關鍵技術和服務做了大量的調查研究,但他們大多是學科單壹的研究小組和企業,缺乏中心協調和壹個特殊應用的驅動。因此,在我國中間件研究項目內部以及與國際中間件研究項目之間,都應該建立更多的協調機制。當前,我國對中間件基礎設施研究的資助基金是有限的、支離破碎的,從而導致了壹些項目的重復和低效。

我國需要壹個公開中間件研究計劃(Open middleware program),它可以保證這些研究活動的集成和整體協調,可以把現有的傳統中間件擴展和改造成符合國際標準的OMP(Open middleware program)體系結構,並提供特殊應用領域的服務。該中間件研究計劃還將識別和填補我們與國際中間件研究技術的差異,把目前研究項目的軟件更新到可以被e-Research研究機構應用的軟件。

目前的網格服務中間件(身份管理,存取控制,供貨管理,預訂服務,通知服務),當運行在現有的計算基礎設施的時候,是很脆弱的,不可靠的。網格服務組件需要工程化,使組件更魯棒,更可靠。用戶可以完全透明地存取網格***享的設備、計算和數據資源。我們需要擴大網格服務中間件的研究和投資力度,提高它的標準化、魯棒性和可用性。

實施公開中間件計劃重要目的之壹是解決和完善OGSA網格服務之間的界面、基於因特網的應用層中間件、數字圖書館和信息管理服務、知識服務管理等。在過去的幾年裏,全球網格聯盟GGF(Global Grid Forum)開發了網格基礎設施技術要求(Grid infrastructure specifications),例如Globus Toolkit和Open Grid Services Architecture(OGSA)。全球網格聯盟(包括Globus聯盟,HP和IBM)集聚在壹起開發符合WSRF(WS-Resource Frame-work)形式的網絡服務。這也將使得網格研究機構牽動W3C和OASIS開發的技術和工具,現已吸引到大量的工業界投資。WSRF和相關的技術要求目前還不是壹個工業標準,OMP的作用之壹跟蹤這些發展,確保它們反映和了解我國e-Research和網格技術的現狀。

現有的中間件的工具和服務應該重新認識,並使它們更加可靠、實用。

現有的中間件的工具和服務應該更具有可操作性、***享性、客戶化,並且能夠與更大的框架集成、與網格環境集成。

為此,需要開發新的中間件工具和服務。在缺乏以下功能的情況更應該考慮開發新的中間件:網格安全,網格管理和組裝,服務適應的質量,工作流引擎,協同工具,多媒體語義索引,智能服務發現,決策支持和假設測定軟件,數據和知識的驗證和校訂,自動表示機制,協同可視化,模擬和仿真以及為應用系統科學家設計的高端網格用戶界面。

在領域特殊的科學數據倉庫中存在大量的異構數據集,例如空間數據、時間數據、圖像、視頻、音頻、3D、光譜、圖形和多媒體等,這些數據應該能存取、***享以及與其他領域的信息資源、數字圖書館(發表的文章和論文)和網站集成。

知識網格層需要加入到現有的計算和數據網格中,這將涉及定義知識管理服務和網格管理之間的界面以及實現知識網格服務和網格環境的集成。

加大研究工作的協調和增加資金的投入可以防止工作的重復,縮小與國際的差距。

5 協同計算中間件

理論上講,中間件處在用戶之間、應用系統之間,或用來解決復雜科學和工程問題的資源之間(見下圖)。中間件提供了壹組通用的服務和工具,容許研究人員和應用系統在處理計算、數據倉庫、其他分布資源時,就好像它們是壹個超大型的虛擬設施。中間件把壹組應用系統需要的核心服務放在壹個標準的、無所不在的容器中。這種通用的服務品簡化了應用系統的開發,提供了系統的魯棒性和交互操作性,減少了許多重復的工作,並在各方面提高效率。

計算基礎設施的關鍵組件圖

雖然這裏把中間件分為三個服務和工具類型,但是還有壹些其他傳統的方法劃分中間件的空間。另外,有些組件(例如,安全、語義、來源等)實際上橫跨在所有三個分類。

網格服務和資源管理中間件:該中間件包括壹個公開網格服務設施OGS(Open Grid Services Infrastructure),提供網格數據和計算資源之間的以及使用這些資源高端應用服務之間的存取、通信、安全、認證、記賬和協調服務。計算和數據網格依賴網格服務中間件,因而又稱該層為資源管理中間件(Resource Management Middleware)。

知識管理中間件:該中間件提供了大量的服務和工具,以實現對各種類型的大型數據倉庫和視頻信息存儲倉庫的索引、歸檔、查詢、分析、集成、管理和表示等。這些工具可以實現對多學科的數據集的整合和自動索引,並且實現交互式分析、建模和可視化。工具還可以挖掘、獲取和發布新層次的知識,***享新的註釋。

協同中間件:該中間件提供服務和工具以支持形式和非形式化的,實時和非實時的協同活動,這些活動可能出現在遠程科學家之間、研究機構之間或資源(動態,可擴展的虛擬組織)之間。表4列出了這些中間件的基本功能,它們是該研究項目典型需要集成和需要研發的。

表4

續表

6 結論

地球系統科學的發展在經濟社會可持續發展中占有重要地位。

地球系統科學的研究需要應用大型科學儀器設備和超大規模計算設施,處理PB、TB級地質空間數據集。

現代地球系統科學研究涉及大量的多學科和交叉學科的問題求解,因此需要壹個協同多學科資源***享平臺和使用該平臺的技術標準和規範。

地球系統科學的研究不應是壹個孤立的行為,應與世界聯合***同研究,該資源***享平臺可以參與世界e-Research和Geo Grid網格建設中去。

我國地球系統科學基礎研究的超級計算設施較差,特別是大學裏,需要加大投入和整合我們的基礎研究資源。

建立以地球科學超級計算和地質空間數據處理為目的的基礎研究平臺。

實現地球科學基礎研究為目的的多學科資源***享環境和地學網格計算環境。

開展超級並行計算、分布式協同處理、多學科資源***享的中間件研發以及相關的應用基礎研究。

為參加更大規模的國家乃至世界級科學研究網格計算(e-Research Grid R&D)奠定基礎。

參考文獻

汪品先,趙鵬大,醜紀範,李德仁,殷鴻福.2003.從落實可持續發展戰略看中國地球科學教育的未來.教育部科學技術委員會專家建議,第11期(總第25期)

龔建華,林琿.2001.虛擬地理環境——在線虛擬現實的地理學透視.當代科學前沿論叢.北京:高等教育出版社

江斌,黃波,陸鋒.2002.GIS環境下的空間分析和地學視覺化.當代科學前沿論叢.北京:高等教育出版社

鄔建國.2000.景觀生態學——格局、過程、尺度與等級.當代科學前沿論叢.北京:高等教育出版社

浦端良,宮鵬.2000.高光譜遙感及其應用.當代科學前沿論叢.北京:高等教育出版社

張有學,尹安.2002.地球的結構、演化和動力學.當代科學前沿論叢.北京:高等教育出版社

陳長勝.2003.海洋生態系統動力學與模型.當代科學前沿論叢.北京:高等教育出版社

L.Foster,C.Kesselman.2005.網格計算(英文版).北京:機械工業出版社

A.Grama,A.Gupta,G.Karypis and V.Kumar(張武等譯).2005.並行計算導論.北京:機械工業出版社

J.Duato,S.Yalamanchili and L.Ni(張民選等譯).2004.並行計算機互聯網絡技術——壹種工程方法.北京:電子工業出版社

G.Tel(霍紅衛譯).2004.分布式算法導論.北京:機械工業出版社

W.Stallings(齊望東等譯).2003.高速網絡與互聯網——性能與服務質量.北京:電子工業出版社

R.Buyya(鄭緯民等譯).2001.高性能集群計算——結構與系統.北京:電子工業出版社

R.Buyya(鄭緯民等譯).2001.高性能集群計算——編程與應用.北京:電子工業出版社

  • 上一篇:Xi安鐵路技師學院是國家承認的嗎?
  • 下一篇:兒童職業體驗作文 六壹兒童職業體驗作文
  • copyright 2024編程學習大全網