AI繪圖新秀FLUX爆火,Figure 02人形機器人正式發(fā)布,一張照片實(shí)現實(shí)時(shí)直播換臉,這就是這周的AI大新聞!
8.05~8.11,又是刺激的一周。
這周的AI大事件,就都在這里啦。
1.FLUX的周邊生態(tài)發(fā)展迅速
021yin.com/javilop/status/1821814987737735344
前段時(shí)間由于SD3的問(wèn)題,開(kāi)源的圖片生態(tài)發(fā)展一度停滯,值得關(guān)注的新項目和模型幾乎沒(méi)有。
FLUX上周發(fā)布后這個(gè)態(tài)勢被快速改變了,由于其優(yōu)秀的圖片質(zhì)量,高昂的訓練成本并沒(méi)有阻止開(kāi)源社區。
而且由于在其偏向真實(shí)的美學(xué)調教風(fēng)格,也使生成的發(fā)布會(huì )寫(xiě)實(shí)圖片在推上的熱度爆發(fā)使得FLUX模型快速出圈。再加上Runway把那張AI生成的照片變成視頻讓更多人對現在圖像和視頻模型的發(fā)展進(jìn)度有了更多的了解。
目前Xlabs已經(jīng)發(fā)布了基于FLUX的Controlnet模型和Lora模型的訓練腳本。
021yin.com/XLabs-AI/x-flux
他們還順便發(fā)布了一個(gè)FLUX的Canny Controlnet模型,另外這里還有Instant ID作者的新組織InstantX訓練的一個(gè)Canny模型也可以試試。
Xlabs 也跟Lora訓練腳本一起發(fā)布了他們的多個(gè)Lora,其中這個(gè)火遍推特的圖片就是用那個(gè)寫(xiě)實(shí)Lora做的。
具體的Lora包括mjv6_lora、動(dòng)漫Lora、寫(xiě)實(shí)Lora、迪士尼Lora、風(fēng)景_lora、藝術(shù) Lora。
Xlabs Lora 下載:
另外社區也開(kāi)始利用這些訓練腳本訓練 Lora了,比如這個(gè)動(dòng)漫 Lora。
021yin.com/models/633553?modelVersionId=710421
SD模型訓練工具simpletuner支持了FLUX Lora的訓練,如果你想要訓練FLUX Lora 模型的話(huà)可以用這個(gè)。
021yin.com/bghira/SimpleTuner/blob/main/documentation/DEEPSPEED.md
一個(gè)全面的FLUX的Comfyui工作流,支持FLUX Lora、ControlNet的加載,支持文生圖、圖生圖。
021yin.com/Ling-APE/ComfyUI-All-in-One-FluxDev-Workflow
2.Figure發(fā)布 Figure 02人形機器人
021yin.com/Figure_robot/status/1820791819023909031
Figure上周發(fā)布了Figure 02人形機器人,他們說(shuō)這是世界上最先進(jìn)的Al硬件。2023年2月他們就完成了Figure 02的概念設計,用了18個(gè)月才將這個(gè)機器人變成實(shí)體。
語(yǔ)音到語(yǔ)音:能夠通過(guò)內置麥克風(fēng)和揚聲器連接自定義AI模型與人類(lèi)對話(huà)。
攝像頭:AI驅動(dòng)的視覺(jué)系統由6個(gè)內置RGB攝像頭組成。
手部:第四代手具有16個(gè)自由度并具有人類(lèi)等同的力量。
內置大語(yǔ)言模型(VLM):使機器人攝像頭能夠快速進(jìn)行常識性視覺(jué)推理。
電池:機器人軀干內的2.25千瓦時(shí)定制電池組提供超過(guò)50%的能量。
CPU/GPU:提供比上一代多3倍的計算和AI推理能力。
3.Deep Live Cam:單圖實(shí)現實(shí)時(shí)直播換臉
021yin.com/hacksider/Deep-Live-Cam
前幾天引起人們對AI寫(xiě)實(shí)能力警惕的另一個(gè)項目,只需要一張圖片就可以實(shí)現實(shí)時(shí)的直播換臉。
從演示來(lái)看角度大的話(huà)還是會(huì )穿幫,另外換臉的清晰度和原來(lái)視頻的清晰度差別比較大,不過(guò)這玩意確實(shí)很危險,簡(jiǎn)單的可以用來(lái)頂替面試,嚴重點(diǎn)用來(lái)詐騙。
這里有演示視頻:
021yin.com/MatthewBerman/status/1821949143918489794
使用方式的話(huà)先選擇一個(gè)臉部,然后點(diǎn)擊直播,等待十幾秒鐘,直播會(huì )跟真實(shí)的視頻有十幾秒到30秒的延遲,取決于硬件水平。
其他動(dòng)態(tài) ?
1.阿里發(fā)布通義發(fā)布支持語(yǔ)音輸入的模型Qwen2-Audio,該模型能夠分析音頻信息,包括語(yǔ)音、聲音、音樂(lè )等,并配有文本說(shuō)明。
/
2.阿里推出Qwen2-Math系列的LLM,專(zhuān)注于提高解決數學(xué)問(wèn)題的能力。模型包括Qwen2-Math-Instruct-1.5B/7B/72B,其中72B在數學(xué)測試中超過(guò)了GPT-4o和Claude 3.5。
/
3.谷歌的Gemini 1.5 Flash也降價(jià)了。輸入成本下降了78%,輸出成本下降了71%。1.5Flash現在所有人都可以微調。
021yin.com/en/gemini-15-flash-updates-google-ai-studio-gemini-api/
4.Mistral發(fā)布了La Plateforme。支持用自己的數據對已有的Mistral模型進(jìn)行微調。另外還有Agents平臺,支持對模型進(jìn)行詳細調整構建Agents。
/
5.Comfyui上周主要更新內容有提供Hunyuan DiT和FLUX的支持,第四個(gè)穩定版本發(fā)布,新的Type前端將推出,引入更強大的核心執行引擎,允許實(shí)現for循環(huán)等高級功能。
021yin.comfy.org/august-2024-flux-support-new-frontend-for-loops-and-more/
6.GPT-40 0806模型推出,輸入Token便宜50%,輸出Token便宜33%。還支持了結構化輸出,另外支持16K的輸出長(cháng)度。
021yin.com/OpenAIDevs/status/1820987573793386527
7.Groq宣布獲得6.4億美元的D輪融資,目前估值為28億美元。此輪融資由BlackRock Private Equity Partners管理的基金和賬戶(hù)領(lǐng)投。
021yin.com/news_press/groq-raises-640m-to-meet-soaring-demand-for-fast-ai-inference/
8.Cursor Al 宣布獲從a16z、Thrive等公司獲得了6,000萬(wàn)美元的A輪融資,估值達到4億美元。
021yin.com/2024/08/09/anysphere-a-github-copilot-rival-has-raised-60m-series-a-at-400m-valuation-from-a16z-thrive-sources-say
9.John Schulman是OpenAl的吉印通創(chuàng )始人之一,他已經(jīng)離開(kāi)該公司加入了競爭對手AI初創(chuàng )公司Anthropic。Greg Brockman也在推上宣布自己開(kāi)始休假。據The Information報道,ChatGPT的產(chǎn)品負責人Peter Deng也即將離職。
021yin.com/johnschulman2/status/1820610863499509855
021yin.com/gdb/status/1820644694264791459
以上,既然看到這里了,如果覺(jué)得不錯,隨手點(diǎn)個(gè)贊、在看、轉發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標?~謝謝你看我的文章,我們,下次再見(jiàn)。
/ 作者:歸藏
021yin.com