機器學習技術有望能夠實現材料科學的變革。
這是所有最極客的視頻的強大競爭者:一部屏幕滾動播放著一行行數字與符號的智能手機。但是,每當參觀者駐足俯瞰日內瓦湖的辦公室,Nicola Marzari總會迫不及待地向他們展示。“這是我的手機,”他說,“從2010年開始,它實時計算著硅的電子結構!”。
來自瑞士洛桑的瑞士聯邦理工學院(EPFL)的物理學家Marzari解釋到,他的手機,僅花費40秒就能完成曾經超級電腦耗費數小時才能完成的任務量子力學計算。這一壯舉不僅顯示了過去十年間計算方式的進步;也向我們展示了運算方法改變材料科學研究道路的可能性。
Marzari拋開以往開發新材料的方法——靠運氣誤打誤撞發現新材料,而后在實驗室里煞費苦心地測量性能——他與志同道合的同伴一起,利用計算機建模和機器學習技術生成數以萬計的備選材料庫。即使是實驗失敗,實驗數據也能提供有用的信息。
盡管備選材料中有許多完全基于假設,但工程師已開始進行縮減。通過找尋預期屬性,針對特定的應用來篩選有合成和檢測的價值的材料。例如,它們能否作為導體或絕緣體,能否用作磁鐵以及能夠承受多大的壓力和溫度。
加州大學伯克利分校的材料科學家,材料科學領域的先驅Ceder表示,他們希望以上做法可以實現材料科學研究的速度與效率的巨大飛躍。“對于現存材料的屬性,我們大概只了解其中的1%,”由此指向了磷酸鐵鋰的例子:這種化合物首次合成于20世紀30年代,但直到1996年才被公認為有望替代未來鋰離子電池的材料。“而在這之前,沒人測量過它的電壓。”Ceder說到。
迄今,世界上至少有三個主要的材料數據庫,各包含幾萬或幾十萬的化合物。Marzari計劃將在今年晚些時候推出洛桑的材料云計劃,這受到越來越廣泛的關注。
在倫敦帝國學院擔任副院長的材料學家Neil Alford,不隸屬于任何一個數據庫,他指出:“現在,實驗者所想與理論所能及真正地融合在一起。”
盡管已經提出了設想,但是從計算機預測過渡到現實世界的技術,卻還有很長一段路要走。現有數據庫還沒能收納所有已知材料,更別說所有可能性材料。
以數據驅動的研究對某些材料有效,對另外一些材料卻無用。此外,即使我們在電腦上篩選出某一有趣材料,后續合成工作也要耗時數年。“我們總是擅長設想,卻無法付諸實踐。”Ceder說。
盡管如此,研究人員堅信有著大量化合物的寶藏等待他們去挖掘,它們能夠開啟電力、能源、機器人、醫療保健和交通運輸領域的創新時代。芝加哥的伊利諾斯州大學的計算材料科學家Giulia Galli表示:“我們正在共同拼湊這塊巨大的拼圖,當每個部位都正確歸位后,對材料的預測就會成為現實。”
基因組啟發
21世紀初,在劍橋麻省理工學院的Ceder受到當時的人類基因組計劃的啟發,想到了以數據驅動的高通量材料科學研究方法。“就其本身而言,人類基因組不是新的治療方法的秘訣。”他說,“但是它為醫學提供了數量驚人的基礎性定量信息。”
他猜想,或許材料學家可以借鑒遺傳學家的做法。或許,材料學家可以用DNA堿基對的生物信息編碼方式,對各種化合物進行編碼,進而確定“材料基因組”?
他猜想,如果以上設想實現,那么編碼必須在組成所給材料的原子與電子中,以及它們的晶體結構中。2003年,Ceder和他的團隊首次展示量子力學計算數據庫如何預測金屬合金的可能性晶體結構,這是新材料研發領域邁出的關鍵一步。
過去,就算對于超級計算機來說,這樣的計算既困難又耗費時間。機器要經歷大量嘗試,歷經數次失敗才能找到“基態”:一種能量最低且受力均衡的電子排布以及晶體結構。
2003年,Ceder團隊在論文中指出了一條捷徑。研究人員計算了一個小型二元合金庫里的常見晶體結構的能量,然后設計出一套機器學習算法,從庫中提取模型,預測新型合金的最可能基態。算法十分有效,大大縮減了計算時長。
Stefano Curtarolo說:“那篇論文介紹了建設材料屬性公用庫,利用數據填補缺失部分的設想。”同年,他離開研究小組,在北卡羅來納州達勒姆市杜克大學創辦了自己的實驗室。隨后,那一設想催生了兩個獨立項目。
2006年,Ceder在麻省理工啟動了材料基因組計劃,采用算法的改進版本來預估電動汽車電池的鋰基材料。到2010年,該項目已包含了近兩萬種備選化合物。“我們從現有材料入手,修改它們的晶體結構——改動這里或那里的元素并計算結果。”Ceder團隊的前成員 Kristin Persson說到。2008年,她搬到加利福利亞洲的勞倫斯伯克利國家實驗室后,仍繼續跟進項目。
與此同時,Curtarolo在杜克大學設立了材料基因組中心,專注研究金屬合金。同來自猶他州普羅沃楊百翰大學、猶他州和以色列內蓋夫的核研究中心的研究人員一起,Curtarolo最終將2003年的算法和庫發展為AFLOW,一套能夠計算已知晶體結構并自動預測新型結構的系統。
初始研究團隊外的研究者也對高通量計算感興趣。其中一個是化學工程師Jens Nørskov,在丹麥技術學院期間,他用這種計算來研究催化劑,將水分解為氫氣和氧氣。后來,他擔任加利福利亞斯坦福大學研究催化劑計算的SUNCAT中心的主任,并拓展了該項研究。另一個是Marzari,他是Quantum Espresso開發團隊中的一員,該項目研究量子機器運算,于2009年啟動。
材料基因組
盡管如此,直到2011年7月,白宮宣布了數百萬元的材料基因組計劃(MGI),材料科學才成為主流。“白宮的官員了解Ceder的研究后,非常激動,”來自標準與技術的美國全國學院的材料科學家和MGI執行秘書James Warren說到。“人們普遍認識到計算機模擬已發展到了對創新與制造產生實際影響的階段,這是令人稱道的盛況。”
自2011起,該倡議已投資逾250多萬美元,用于軟件工具、收集和報告實驗數據的標準化方法、主要大學的計算材料科學中心、校際合作以及具體應用研究。至于這項投資對科學起了多大推動作用,我們尚不得知。Ceder表示:“這一舉措獲益頗豐,但也出現了一些偏差,有些團隊開始稱自己的研究為這為那,然而這些與研究并沒有什么聯系。”
不過,可以確定的一點是,MGI旨在幫助Ceder和其他研究者實現材料屬性在線數據庫的愿景。2011年底,受白宮要求,Ceder和Persson將他們的材料基因組計劃改為材料計劃,放棄了“基因組”標簽,以避免與國家工作混淆。次年,在杜克大學期間研究的軟件基礎上,Curtarolo推出了自己的數據庫——AFLOWlib。
2013年,伊利諾伊州埃文斯頓西北大學的研究人員Chris Wolverton推出了開放量子材料數據庫(OQMD)。他說:“我們借鑒了材料計劃和AFLOWlib的總體思路,但我們的軟件和數據是自產自銷。”
這三個數據庫共享從無機晶體結構數據庫獲取的近五萬種核心已知材料數據。這些數據都已經至少在實驗室和論文中出現過一次,但其電力和磁力性能從未得到完整測試;它們是新材料得以產生的起點。
三個數據庫的不同之處在于它們包含的假設材料。材料計劃數據相對較少,約15000個從Ceder和Persson的鋰電池研究中得出的計算結構,“只有確定了計算結果的準確性和研究可行性,我們才會將材料收入庫中。”Persson說。
另外的13萬左右條結構由明尼蘇達的明尼阿波利斯大學的納米多孔材料基因組中心預測得出。后者關注沸石和金屬有機框架:晶體結構中帶有規律性重復小孔的海綿狀材料,可以捕及氣體分子,儲存甲烷或二氧化碳。
AFLOWlib是最大的數據庫,擁有超過一百萬的不同材料和一億左右的性能屬性。Curtarolo表示,那時因為它也包含了數以萬記的假設材料,其中許多在現實世界中一轉眼的功夫就消失了。“但是當你嘗試去預測如何制造某一金屬,功夫總不負有心人。”
例如,他正利用AFLOWlib的數據研究為什么一些合金可以合成金屬玻璃(一種金屬形式,其無序微觀結構賦予了該金屬特殊的電磁屬性)。研究結果顯示,玻璃形成劑的優劣之分在于不穩定晶體結構的數量和能量,這些晶體結構和“基態”在合金冷卻過程中“完成”。
Wolverton的QQMD包含大約40萬假想材料,它們由自然普遍發現的一系列晶體結構計算得出。Wolverton的團隊幾乎選用了元素周期表的每一個部分,來“裝飾”這些材料。
QQMD涵蓋了大量的鈣鈦礦——這種晶體常常展示出引人注目的性能,如超導以及用于太陽能電池開發的微電子。顧名思義,該項目最具開放性:用戶可以在電腦上下載整個數據庫,而不僅僅是個人研究結果。
以上數據庫都還處于建設階段,管理者仍然要耗費大量時間添進更多的化合物、完善計算;他們承認,目前的計算遠不夠完善。
數據庫中的代碼善于預估晶體結構的穩定與否,但卻無法很好地預估晶體結構如何吸收光或者導電性能;因此,常常會制造出類似半導體的非金屬。Marzari指出,即使是在計算材料科學發展最好的領域——電池材料,也存在半伏的平均誤差。
失之毫厘,謬以千里。Curtarolo表示:“事實上,有些誤差來源于理論本身:我們永遠無法糾正它們。”
各個團隊都在改進自身的技術,調整計算法并修改系統性誤差。但同時,他們和其他團隊的用戶已經利用數據開始了實驗。材料計劃已經確定了幾個具有前景的陰極材料,可能比用于鋰電池中的現存材料要好;他們還發現了能夠提升太陽能電池捕光和產能效率的金屬氧化物。
今年早些時候,來自都柏林三一學校的研究人員使用 AFLOWlib里的數據預估20種哈勒斯合金,一種可用于傳感器和電腦儲存器的磁鐵。他們成功合成了其中的兩種合金,并表示二者的磁性屬性與預估值非常接近。
延伸至歐洲地區
材料基因組學已經走向了歐洲地區,盡管它的名稱有所變化。例如,瑞士創造了MARVEL,一個計算材料科學組織,以洛桑聯邦理工學院為首,以Marzari為領導者。
有了新的計算平臺,Marzari創建了名為材料云的數據庫。他用該數據庫檢索由單層原子或分子構成的“二維”材料,如石墨。這類材料既可以用于納米電子,又可用于醫學裝置。
為了找到好的備選材料,Marzari對超過15萬已知材料進行了所謂的“計算剝皮”:計算從一個普通晶體表面分離一層需要多大的能量。今年晚些時候,數據庫將對外公布,Marzari預測到那時初步運算已經涵蓋了1500種可能性“二維”結構,并在后續的實驗中進行檢驗。
計算化學家Berend Smit建立了另一個洛桑聯邦理工學院中心,聳立在距錫安幾千公里外的阿爾卑斯山脈上。該中心致力于研發算法,預估數以萬計的納米多孔沸石和金屬有機框架。此外,還有衍生自面部識別技術的算法,用于掃描一定的孔狀形狀,然后尋找最佳備選材料,吸收化石燃料工廠煙囪排放的二氧化碳。
Smit的工作還揭示了材料基因組的缺點。許多研究者希望納米多孔材料打造空間更小儲甲烷量更大的汽車水箱。然而,在掃描了逾65萬計算材料后,Smit團隊發現大部分優秀材料早已存在。新材料僅僅有些許進步,而美國機構設定的能源目標——實現甲烷儲存的重大技術進步,也就顯得不現實。
正如以上例子一樣耐人尋味,材料基因組學在實現自身的承諾前,還需要克服許多困難。其中最大的困難就是,計算機建模還無法找出制作有趣新材料的方法,更別說質量問題了。
“我們一直在提出關于新物質的有趣設想,”Ceder說。“這些設想,有時候兩周就實現了。而有時,就算進行了6個月研究,我們也沒有絲毫頭緒,我們甚至不知道方向是否正確,亦或是可行性有多少。”
Ceder和Curtarolo都在嘗試改進機器學習算法,從已知制造過程中提取規則,指導化合物的合成。
另一個限制是,材料基因組一直用于工程師所稱的功能性材料中,即能在任務中發揮作用的化合物,如在太陽能電池中吸收光線。但是該技術并不能很好地用于研究結構性材料,如鋼,如飛機機翼、橋梁或發動機。這是因為諸如彈性和硬度的機器屬性取決于生產過程,而這是量子力學代碼不能描述的。
即使對于功能性材料,現行的計算機代碼只適用于完美的晶體結構,而這只是材料領域的一小部分。Galli表示:“未來,最有趣的材料可能是由微觀層面的創造性組裝而成。”可能是納米顆粒或是異質材料晶體的組裝。要預估這些材料,Galli補充到:“你需要立即計算出許多屬性,系統如何在及時地在特定溫度在衍生。”方法有許多,“但是將其運用于高通量研究,計算成本仍舊十分高昂。”
短期而言,實驗中更多的數據交換,可以更好地檢驗計算結果并加以完善。目前,Ceder正與麻省理工的團隊一起研究新型軟件,通過閱讀材料科學實驗論文,自動以標準格式提供晶體結構的相關信息。“我們計劃在未來幾個月,將這些數據加入材料計劃中。”
長期而言,摩爾定律將會起到一定作用:隨著計算能力不斷提高,一些目前計算機無法實現的技術很快將會變得可行。
Marzari表示:“我們已經走出計算材料科學的手工時代,并進入了產業化階段。現在,我們可以創建模擬裝配鏈,并將它們投入使用,以一種全新的方式探索問題。”目前市場上海沒有計算預估材料。Galli說:“但十年后呢?我相信那時就會有很多了。”