国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

python - sklearn如何訓練大規模數據集

瀏覽:117日期:2022-06-27 16:56:25

問題描述

問題一:

現在我有40多萬條的數據,需要對該數據使用某種機器學習分類算法建立模型,遇到的問題是因為數據過于龐大不能一次性的進行數據的讀取,所以想問一下該如何處理數據?

問題二:

關于sklearn交叉驗證有個疑問:假如我有10000個訓練數據,由交叉驗證原理可以將這一萬個訓練數據集使用KFold方法分成n組訓練(train數據占0.7),現在搞不明白的就是我對第一組的訓練集進行fit(),然后對測試集進行預測驗證得到預測的準確率,但是得到預測準確率有什么用呢?會對下一次的訓練有影響嗎?還有就是上一次的訓練模型會被用到下一次的fit()函數嗎?

問題解答

回答1:

我最近在學大數據的數據挖掘與分析這一塊,對于問題一,我有個思路你參考一下:既然無法一次性讀取,可以建立分布式數據模型,分次讀取數據,確定地址datanode(可以是某個變量名),建立一個namenode(名字與該地址對應的表),然后獲取數據的時候,先在namenode中確認地址(需要的是哪一個變量對應的數據),再訪問該地址獲取數據進行處理。由于初學,我只是提供下我個人的思路,答案不唯一,僅供參考,各路大牛不喜勿噴。

回答2:

40萬沒多少啊,頂多幾G吧......如果真的是內存小到8G也沒有,那還是得看你具體場景啊,舉個列子,單純算tf-idf,一個generator,內存中只有最后的tf-idf字典。

交叉驗證只是為了選取誤差最小的一個,你提到的前面的影響后面,是boosting的概念。

回答3:

這種問答網站最好是一個問題一個坑,必要時兩個分開的問題給連結連相關性,避免 Double-barreled question

(1) 見How to optimize for speed,你會發現有很多可以調控試驗的方式,包括(a)儘量使用簡單的演算法計巧 (b)針對現實狀況做記憶體使用及速度的側寫 (c)試著用Numpy陣列取代所有nested loops (d)必要時使用Cython Wrapper 去調更有效率的C/C++函數庫。這些只是基本原則和方向,實際上還是要看你要操作問題的瓶頸分析,是速度還是空間,把代碼最佳化後再考慮是否要用平行計算等手段

(2) 你這問題得區分 數學 和 實證 上要求的差異,希望你對 過擬合(overfitting)及 underfitting的 實證及數學意義有所掌握,這裡的問答還蠻不錯的,讀一下有幫助的。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 亚洲精品国产第一区二区三区 | 新久草视频 | 成人ab片 | 成年人在线免费观看视频网站 | 青青热久久综合网伊人 | 一级毛片美国一级j毛片不卡 | 成人观看免费大片在线观看 | 99精品国产高清一区二区三区香蕉 | 日本精品99 | 男人桶女人暴爽的视频 | 日本又黄又爽又免费 | 国产系列在线播放 | 亚洲精品国产一区二区图片欧美 | 欧美成年| 久久tv免费国产高清 | 中文字幕在线永久 | 久久精品国产半推半就 | 亚洲国产高清一区二区三区 | 久久福利资源站免费观看i 久久高清精品 | 九色视频在线观看免费 | 最新国产三级在线观看不卡 | 日韩国产在线观看 | 欧美亚洲日本一区二区三区浪人 | 手机在线国产精品 | a黄色毛片| 亚洲好视频 | 国产精品久久网 | 另类专区欧美 | 欧美丝袜xxxxx在线播放 | 毛片中文字幕 | 高清欧美性xxxx成熟 | 日韩在线观看中文字幕 | 欧美成人高清手机在线视频 | 国产成人亚洲综合 | 欧美一级片网站 | 黄色大片三级 | 五月色婷婷琪琪综合伊人 | 国产欧美日韩综合精品无毒 | 欧美成人看片一区二区三区尤物 | 全部在线播放免费毛片 | 日韩亚洲欧美一区 |