蠟炬教育:如何處理機器學(xué)習中大型數據的加載問(wèn)題?
原標題:蠟炬教育:如何處理機器學(xué)習中大型數據的加載問(wèn)題?
蠟炬教育老師表示,在處理機器學(xué)習算法時(shí),經(jīng)常會(huì )因為數據庫太大而導致無(wú)法放入內存中,而遇到這樣幾個(gè)問(wèn)題:當運行數據集算法而導致崩潰時(shí)如何解決?當需要處理大容量數據文件時(shí)該如何加載?如何方便快捷的解決內存不足的問(wèn)題?
針對以上問(wèn)題,蠟炬教育老師給出7個(gè)建議:
1.分配更多內存
某些ML工具或數據庫默認內存配置不合理,可以看看是否可以手動(dòng)分配。
2.使用較小樣本
確認是否需要處理所有數據?在對最終數據擬合前,使用隨機抽取數據樣本這個(gè)示例即可。
3.使用內存更大的設備
可以租用大內存的服務(wù)器,這樣可以在物理手段上獲取更大的計算能力。
4.更改數據格式
可以通過(guò)更改數據格式來(lái)加快數據加載并降低內存使用率,比如二進(jìn)制格式。
5.流數據或使用漸進(jìn)加載
可以將數據逐步加載到內存中進(jìn)行使用。
6.使用關(guān)聯(lián)數據庫
從內部來(lái)看,存儲在磁盤(pán)上的數據可以逐步加載,并可以使用標準語(yǔ)言(SQL)來(lái)進(jìn)行查詢(xún)。
7.使用大型數據平臺
比如用Mahout機器學(xué)習庫的Hadoop以及用MLLib庫的Spark,它們是為處理非常大的數據集專(zhuān)門(mén)設計的平臺。
蠟炬教育老師說(shuō)到,如果遇到數據庫太大無(wú)法放入內訓的相關(guān)問(wèn)題,可以從如上7個(gè)方法中尋找解決辦法。