文章詳情頁

python - sklearn如何訓練大規模數據集

瀏覽：142日期：2022-06-27 16:56:25

問題描述

問題一：

現在我有40多萬條的數據，需要對該數據使用某種機器學習分類算法建立模型，遇到的問題是因為數據過于龐大不能一次性的進行數據的讀取，所以想問一下該如何處理數據？

問題二：

關于sklearn交叉驗證有個疑問：假如我有10000個訓練數據，由交叉驗證原理可以將這一萬個訓練數據集使用KFold方法分成n組訓練(train數據占0.7)，現在搞不明白的就是我對第一組的訓練集進行fit()，然后對測試集進行預測驗證得到預測的準確率，但是得到預測準確率有什么用呢？會對下一次的訓練有影響嗎？還有就是上一次的訓練模型會被用到下一次的fit()函數嗎？

問題解答

回答1：

我最近在學大數據的數據挖掘與分析這一塊，對于問題一，我有個思路你參考一下:既然無法一次性讀取，可以建立分布式數據模型，分次讀取數據，確定地址datanode（可以是某個變量名），建立一個namenode（名字與該地址對應的表），然后獲取數據的時候，先在namenode中確認地址（需要的是哪一個變量對應的數據），再訪問該地址獲取數據進行處理。由于初學，我只是提供下我個人的思路，答案不唯一，僅供參考，各路大牛不喜勿噴。

回答2：

40萬沒多少啊，頂多幾G吧......如果真的是內存小到8G也沒有，那還是得看你具體場景啊，舉個列子，單純算tf-idf，一個generator，內存中只有最后的tf-idf字典。

交叉驗證只是為了選取誤差最小的一個，你提到的前面的影響后面，是boosting的概念。

回答3：

這種問答網站最好是一個問題一個坑，必要時兩個分開的問題給連結連相關性，避免 Double-barreled question

(1) 見How to optimize for speed，你會發現有很多可以調控試驗的方式，包括(a)儘量使用簡單的演算法計巧 (b)針對現實狀況做記憶體使用及速度的側寫 (c)試著用Numpy陣列取代所有nested loops (d)必要時使用Cython Wrapper 去調更有效率的C/C++函數庫。這些只是基本原則和方向，實際上還是要看你要操作問題的瓶頸分析，是速度還是空間，把代碼最佳化後再考慮是否要用平行計算等手段

(2) 你這問題得區分數學和實證上要求的差異，希望你對過擬合(overfitting)及 underfitting的實證及數學意義有所掌握，這裡的問答還蠻不錯的，讀一下有幫助的。

Python 編程

上一條：selenium - 請教一下 Python 爬蟲工具下一條：python - 爬取微信公眾號文章需要輸入驗證碼問題

相關文章：

1. node.js - mysql如何通過knex查詢今天和七天內的匯總數據2. mysql 插入數值到特定的列一直失敗3. 360瀏覽器與IE瀏覽器有何區別？？？4. Python從URL中提取域名5. mysql - 百萬行的表中是否盡量避免使用update等sql語句？6. python - 在使用Pycharm時經常看到如下的樣式，小括號里紅色的部分是什么意思呢？7. javascript - 新浪微博網頁版的字數限制是怎么做的8. 怎么在網頁中設置圖片進行左右滑動9. javascript - 豆瓣的這個自適應是怎么做的？10. javascript - 用jsonp抓取qq音樂總是說回調函數沒有定義

排行榜

					
					android - MIUI8短信權限問題
angular.js - angularjs ng-repeat 不能刷新
代碼如下，java用BigDecimal四舍五入怎么還有問題呀？哪種方式是完全沒有問題的？
javascript - 如何讓手機端的代碼只能在手機端執行，在pc端的模擬器里面也不執行
android - 安卓使用webview播放騰訊、優酷視頻的方法
javascript - vue如何偵聽change事件實現雙向綁定的？
android-studio - Androidstudio運行時報錯
java - Spring使用@Autowired失效但是getBean()可以執行成功
微信開放平臺 - android 微信支付后點完成按鈕，后回調打開第三方頁面，屏幕閃動，求解決方法
angular.js - angularjs動態增加DOM
java - 所有類都是由Object類的記載器加載的嗎？
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python - sklearn如何訓練大規模數據集