騰訊研究院AI速遞 20240726
生成式AI
一、 用AI生成的數據訓練AI,模型會(huì )崩潰?最新Nature封面
1. 使用AI生成的數據訓練新的AI模型導致了“模型崩潰”,表現為生成內容的質(zhì)量逐代下降,最終導致輸出無(wú)意義的信息;
2. 牛津、劍橋等機構的研究發(fā)現,合成數據的使用類(lèi)似于近親繁殖,會(huì )導致數據質(zhì)量低下,建議更多使用人類(lèi)數據以避免這種情況;
3. 研究強調,為防止AI模型退化,應在訓練數據中保持一定比例的原始數據,并探索更魯棒的訓練算法.
021yin.com/s/1kUNJDqW6R5lSDH_2dM-sA
二、 開(kāi)源瘋狂內卷!Mistral Large 2發(fā)布,超Llama 3.1支持中文
1. Mistral Large 2支持多語(yǔ)言,包括中文,參數量達1230億,優(yōu)于不支持中文的Llama 3.1;
2. 在代碼生成和數學(xué)推理方面表現優(yōu)異,支持多種編程語(yǔ)言,性能在主流模型中排名靠前;
3. 設計針對單節點(diǎn)推理,適用于長(cháng)上下文應用,與多個(gè)云平臺有技術(shù)合作,便于部署和使用.
021yin.com/s/7d_KqQrMpd1GReDlVqe6_Q
三、 RLHF不夠用了,OpenAI設計出了新的規則獎勵機制RBR
1. OpenAI開(kāi)發(fā)了基于規則的獎勵(RBR)機制,提供靈活適應性以適應變化的安全政策,減少對人類(lèi)數據的依賴(lài);
2. RBR通過(guò)定義期望的模型響應規則,自動(dòng)執行模型微調,提高了模型的安全性和效率;
3. RBR允許快速更新規則,適應新的安全準則,減少了大量人工數據需求和重新訓練的成本.
021yin.com/s/gn_MoLjessnCMxRNNjhtuw
四、 微軟旗下Bing搜索引擎,正式上線(xiàn)基于 AI 的生成式搜索功能
1. 微軟Bing搜索引擎正式支持AI生成式搜索功能,通過(guò)自然語(yǔ)言處理和生成模型理解用戶(hù)查詢(xún)并提供直接答案,減少查找和篩選時(shí)間;
2. 傳統搜索引擎基于關(guān)鍵詞匹配和鏈接分析,難以滿(mǎn)足問(wèn)答需求,AI搜索引擎利用訓練數據和模型知識庫,提高信息獲取效率;
3. AI搜索引擎市場(chǎng)競爭加劇,Bing的新功能可能對Google的市場(chǎng)地位構成挑戰。
021yin.com/s/Bc55cuOS7GudnW0tKTqsfQ
五、 Open-Sora Plan v1.2發(fā)布,3D全注意力架構,提升物理理解
1. Open-Sora Plan v1.2發(fā)布,引入新的3D全注意力架構,提升AI對物理世界的立體理解能力;
2. 通過(guò)優(yōu)化的CausalVideoVAE結構,顯著(zhù)提升視頻生成的清晰度、一致性及推理速度;
3. Open-Sora Plan v1.2開(kāi)源代碼、數據和模型,促進(jìn)AI視頻生成技術(shù)的共享和進(jìn)步.
021yin.com/s/wJcUlQnivRPEnrB7q-f5aQ
六、 Adobe Firefly Vector AI 更新,Illustrator和Photoshop狂飆進(jìn)化
1. Adobe Firefly Vector AI 模型為 Illustrator 和 Photoshop 帶來(lái)生成式 AI 功能,能自動(dòng)生成可編輯的矢量圖形;
2. Illustrator 新增生成形狀填充、增強的文本到圖案和 Mockup 工具,提升矢量圖形創(chuàng )作的靈活性和效率;
3. Photoshop 引入選擇筆刷工具和文本生成圖像功能,簡(jiǎn)化操作步驟并支持更精細的圖像編輯和創(chuàng )作.
021yin.com/s/7mdpKBIWVpw8gUSg8mEQBw
七、 減輕幻覺(jué)新SOTA,迭代自訓練ANAH-v2,上海AI lab發(fā)布
1. 上海AI lab開(kāi)發(fā)的ANAH-v2迭代自訓練框架使用期望最大化算法,自動(dòng)擴展幻覺(jué)檢測數據集并提升標注準確性;
2. 7B參數的ANAH-v2模型在幻覺(jué)檢測基準HaluEval和HalluQA上表現優(yōu)于GPT-4,達到新的SOTA;
3. ANAH-v2通過(guò)多輪對話(huà)形成的訓練數據,有效提高了模型在處理幻覺(jué)問(wèn)題時(shí)的性能和泛化能力.
021yin.com/s/M3dAx9PSP8x7NA1HC85zzA
前沿科技
八、 騰訊、清華等生物大模型作者專(zhuān)訪(fǎng),暢談AI生物學(xué)、細胞模型技術(shù)
1. 大型細胞模型(LCM)如scBERT和Geneformer,基于類(lèi)似LLM的結構,用于單細胞轉錄組學(xué),展示了在生物學(xué)任務(wù)中的應用潛力;
2. LCM面臨的技術(shù)挑戰包括如何將復雜的生物數據轉換為AI兼容格式,處理數據的高維性和稀疏性,以及在有限數據和資源下優(yōu)化模型性能;
3. LCM的發(fā)展促進(jìn)了生物學(xué)研究的變革,特別是在細胞類(lèi)型注釋、基因網(wǎng)絡(luò )分析等領(lǐng)域,預示著(zhù)AI與生命科學(xué)深度融合的未來(lái)趨勢.
021yin.com/s/goJTMDMqw85MiRciBBpYGg
報告觀(guān)點(diǎn)
九、 Perplexity CEO 談 AI 搜索的未來(lái):做知識發(fā)現引擎,不是搜索引擎
1. Perplexity 結合搜索引擎和大型語(yǔ)言模型(LLM),通過(guò)引用互聯(lián)網(wǎng)上的來(lái)源,減少LLM的幻覺(jué)問(wèn)題,提高信息的可靠性和研究便利性;
2. Perplexity 的核心創(chuàng )新包括增強生成(RAG)、思維鏈推理和網(wǎng)絡(luò )索引,旨在提供有引用支持的準確答案;
3. CEO Aravind Srinivas 視 Perplexity 為知識發(fā)現引擎而非傳統搜索引擎,強調其在幫助用戶(hù)探索和擴展知識方面的功能.
021yin.com/s/ziIuWdDfbbVi1XgA_iqDRQ
十、 紅杉美國合伙人談AI布局:分發(fā)革命接近極限,下一次是計算革命!
1. 紅杉資本合伙人Pat Grady預測,未來(lái)的技術(shù)革命將是計算革命,重點(diǎn)在于A(yíng)I模型的應用深度而非廣度;
2. 基礎模型公司可能不會(huì )像大型云服務(wù)公司那樣規模龐大,更類(lèi)似于數據庫公司,主要提供開(kāi)發(fā)者API;
3. AI的主要應用將在服務(wù)行業(yè),如法律和咨詢(xún),利用AI進(jìn)行數據處理和決策支持,而不是簡(jiǎn)單替換現有軟件.
021yin.com/s/flDv0pfNHYY4f4y-MJ5x8w
??訂閱下方合集,獲取每日推送