蠟炬教育:AI程序員如何獲取大量的開(kāi)源數據,用于實(shí)踐練習
原標題:蠟炬教育:AI程序員如何獲取大量的開(kāi)源數據,用于實(shí)踐練習
很多大數據、機器學(xué)習、人工智能的初學(xué)者都需要大量的數據去進(jìn)行練習,因為之前從未深度接觸過(guò)相關(guān)領(lǐng)域,很難找到合適的練習數據,今天蠟炬教育的老師就給大家推薦幾個(gè)開(kāi)源的數據集網(wǎng)站。
一、比較簡(jiǎn)單的數據集網(wǎng)站
Data.gov,這個(gè)是美國政府的公開(kāi)數據網(wǎng)站,包含了來(lái)自氣候、教育、能源、金融等領(lǐng)域的19萬(wàn)多的數據集。
data.WorldBank.org,這個(gè)是世界銀行的開(kāi)放數據網(wǎng)站,提供了世界發(fā)展指數、教育指數等幾大類(lèi)數據集。
二、大型數據集網(wǎng)站
Amazon WebServices(AWS)datasets,亞馬遜提供完整的安然電子郵件、Google Booksn-gram,N(xiāo)ASA NEX,百萬(wàn)歌曲等數據集,你可以在亞馬遜平臺使用也可以在本地計算機上使用。
Googledatasets
谷歌為廣大開(kāi)發(fā)者提供了一些數據集作為其Big Query工具的一部分,包括GiHub公共資料庫和
Hacker News的所有故事和評論。
三、預測建模與機器學(xué)習數據集
UCI MachineLearning Repository
UCI機器學(xué)習庫是當下最受歡迎的數據庫,其包括了各種各樣的數據集。比如空氣質(zhì)量、GPS軌跡等
大型數據集。
Kaggle
Kaggle推出了一個(gè)數據收集平臺,人們可以自發(fā)貢獻數據,現在總共有350多個(gè)數據集,其中有超過(guò)
200個(gè)是特征數據集。
四、圖像分類(lèi)數據集
The MNISTDatabase
當下國內外最熱門(mén)的圖像識別數據庫,主要為手寫(xiě)數字。包括6萬(wàn)個(gè)示例和1萬(wàn)個(gè)示例的測試集。
Chars74K
該數據集包括自然圖像中的字符識別,包含74,000個(gè)圖像。
Frontal FaceImages
這個(gè)數據集主要是是由CMU & MIT收集的正面人臉圖像。
五、文本分類(lèi)數據集
Movie ReviewData
這個(gè)數據集網(wǎng)站提供了一席勒電影評論文件,其中標注了用戶(hù)的總體情緒極性(正面或負面)或主觀(guān)評
價(jià)和對其主觀(guān)性地位(主觀(guān)或客觀(guān))或極性的標簽
蠟炬教育授課老師表示,通過(guò)以上數據集網(wǎng)站,即使是一個(gè)初學(xué)者也可以輕松找到需要的練習數據。