蠟炬教育:如何處理機器學(xué)習中大型數據的加載問(wèn)題?

5年前 (2020-07-27)閱讀971回復0
艾維迪斯
艾維迪斯
  • 管理員
  • 發(fā)消息
  • 注冊排名645
  • 經(jīng)驗值115
  • 級別管理員
  • 主題23
  • 回復0
樓主

  原標題:蠟炬教育:如何處理機器學(xué)習中大型數據的加載問(wèn)題?

  蠟炬教育老師表示,在處理機器學(xué)習算法時(shí),經(jīng)常會(huì )因為數據庫太大而導致無(wú)法放入內存中,而遇到這樣幾個(gè)問(wèn)題:當運行數據集算法而導致崩潰時(shí)如何解決?當需要處理大容量數據文件時(shí)該如何加載?如何方便快捷的解決內存不足的問(wèn)題?

  針對以上問(wèn)題,蠟炬教育老師給出7個(gè)建議:

蠟炬教育:如何處理機器學(xué)習中大型數據的加載問(wèn)題?

  1.分配更多內存

  某些ML工具或數據庫默認內存配置不合理,可以看看是否可以手動(dòng)分配。

  2.使用較小樣本

  確認是否需要處理所有數據?在對最終數據擬合前,使用隨機抽取數據樣本這個(gè)示例即可。

  3.使用內存更大的設備

  可以租用大內存的服務(wù)器,這樣可以在物理手段上獲取更大的計算能力。

  4.更改數據格式

  可以通過(guò)更改數據格式來(lái)加快數據加載并降低內存使用率,比如二進(jìn)制格式。

  5.流數據或使用漸進(jìn)加載

  可以將數據逐步加載到內存中進(jìn)行使用。

  6.使用關(guān)聯(lián)數據庫

  從內部來(lái)看,存儲在磁盤(pán)上的數據可以逐步加載,并可以使用標準語(yǔ)言(SQL)來(lái)進(jìn)行查詢(xún)。

  7.使用大型數據平臺

  比如用Mahout機器學(xué)習庫的Hadoop以及用MLLib庫的Spark,它們是為處理非常大的數據集專(zhuān)門(mén)設計的平臺。

  蠟炬教育老師說(shuō)到,如果遇到數據庫太大無(wú)法放入內訓的相關(guān)問(wèn)題,可以從如上7個(gè)方法中尋找解決辦法。

0
0
收藏0
回帖

蠟炬教育:如何處理機器學(xué)習中大型數據的加載問(wèn)題? 期待您的回復!

取消
載入表情清單……
載入顏色清單……
插入網(wǎng)絡(luò )圖片

取消確定

圖片上傳中
編輯器信息
提示信息