DeepMind 發(fā)布 JEST 算法,AI 模型訓練耗能降低十倍
作者 | 趙明華
近日,谷歌的人工智能研究實(shí)驗室 DeepMind 發(fā)表了關(guān)于訓練 AI 模型的新研究——多模態(tài)對比學(xué)習與吉印通示例選擇 (JEST)。
JEST 算法可以將訓練速度和能源效率提高一個(gè)數量級。DeepMind 聲稱(chēng),“我們的方法超越了最先進(jìn)的模型,迭代次數減少了 13 倍,計算量減少了 10 倍。”
論文鏈接:
有網(wǎng)友激動(dòng)地表示:“我沒(méi)想到它來(lái)得這么快。對于模型來(lái)說(shuō),選擇訓練數據的能力是很強大的,因為這可以使得訓練變得十分容易。你不需要再去猜測什么是高質(zhì)量的訓練數據,因為你有一個(gè)專(zhuān)門(mén)學(xué)習它的模型。”
JEST 算法以一種簡(jiǎn)單的方式打破了傳統的 AI 模型訓練技術(shù)。典型的訓練方法側重于對單個(gè)數據點(diǎn)的學(xué)習和訓練,而 JEST 則是對整個(gè)批次進(jìn)行訓練,優(yōu)化了數據的整體學(xué)習效果。
多模態(tài)對比學(xué)習能夠直接揭示數據之間的交互,通過(guò)選擇高質(zhì)量的子批次顯著(zhù)提高訓練效率。
多模態(tài)數據交互:利用不同模態(tài)(圖像、文本等)間的相互作用增強數據的表征力。例如,將圖像中的對象與其描述文本相匹配,增強模型的理解。
對比目標:最大化相同概念的不同模態(tài)表示(如圖像和對應文本)之間的相似度,同時(shí)最小化不相關(guān)模態(tài)之間的相似度。通過(guò) sigmoid-contrastive loss 等對比損失函數實(shí)現。
學(xué)習效率的提升:多模態(tài)學(xué)習方法使 JEST 算法從數據交互中學(xué)習到更復雜的數據表示,提高了學(xué)習效率和模型性能。
吉印通示例選擇通過(guò)評估數據子批次的整體可學(xué)習性,從大批次中選擇出最有學(xué)習價(jià)值的子批次。
可學(xué)習性評分:結合當前模型的損失和預訓練模型的損失,優(yōu)先選擇當前模型尚未學(xué)會(huì )但預訓練模型已學(xué)會(huì )的數據。
評分函數:結合預訓練模型的易學(xué)性評分和當前學(xué)習模型的難學(xué)性評分,得到綜合的可學(xué)習性評分。
但是,這個(gè)系統完全依賴(lài)于其訓練數據的質(zhì)量,如果沒(méi)有高質(zhì)量的數據集,引導技術(shù)就會(huì )分崩離析。對于業(yè)余愛(ài)好者或者業(yè)余 AI 開(kāi)發(fā)者來(lái)說(shuō),JEST 比其他方法要更難以掌控。
近年來(lái),人工智能技術(shù)迅猛發(fā)展,大規模語(yǔ)言模型(LLM)如 ChatGPT 的應用日益廣泛。然而,這些模型的訓練和運行消耗了大量能源。研究稱(chēng),微軟用水量從 2021 年到 22 年飆升了 34%,ChatGPT 每處理 5-50 個(gè)提示就會(huì )消耗接近半升水。在這樣的背景下,JEST 技術(shù)的出現顯得尤為重要。
參考鏈接:
021yin.com/tech-industry/artificial-intelligence/google-claims-new-ai-training-tech-is-13-times-faster-and-10-times-more-power-efficient-deepminds-new-jest-optimizes-training-data-for-massive-gains
021yin.com/google-deepminds-jest-speeds-up-ai-training-by-13x-while-slashing-computing-needs/
點(diǎn)擊底部閱讀原文訪(fǎng)問(wèn) InfoQ 官網(wǎng),獲取更多精彩內容!
德國再次擁抱Linux:數萬(wàn)系統從windows遷出,能否避開(kāi)二十年前的“坑”?
69 歲的 Java 之父退休了!近億人因他受益
從 AI 高管到犀利 CEO,賈揚清創(chuàng )業(yè)這一年:我們的目標是做AI時(shí)代的“第一朵云”
下一代 RAG 技術(shù)來(lái)了!微軟正式開(kāi)源 GraphRAG:大模型行業(yè)將迎來(lái)新的升級?