色婷婷AV无码久久精品,久久天天躁狠狠躁夜夜97,羞羞麻豆国产精品1区2区3区,啪影院免费线观看视频,思思久久er99精品亚洲

常州機(jī)器視覺培訓(xùn)

常州上位機(jī)軟件開發(fā)

常州工業(yè)機(jī)器人編程設(shè)計(jì)培訓(xùn)

常州PLC培訓(xùn)

常州PLC

常州PLC編程培訓(xùn)

常州電工培訓(xùn)

常州和訊plc培訓(xùn)中心歡迎您!
當(dāng)前位置:網(wǎng)站首頁(yè) > 新聞中心 新聞中心
神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中不收斂或者訓(xùn)練失敗的原因-常州上位培訓(xùn),常州機(jī)器視覺培訓(xùn)
日期:2024-4-30 16:10:02人氣:  標(biāo)簽:常州上位培訓(xùn) 常州機(jī)器視覺培訓(xùn)

在面對(duì)模型不收斂的時(shí)候,首先要保證訓(xùn)練的次數(shù)夠多。在訓(xùn)練過(guò)程中,loss并不是一直在下降,準(zhǔn)確率一直在提升的,會(huì)有一些震蕩存在。只要總體趨勢(shì)是在收斂就行。若訓(xùn)練次數(shù)夠多(一般上千次,上萬(wàn)次,或者幾十個(gè)epoch)沒(méi)收斂,再考慮采取措施解決。


一、數(shù)據(jù)與標(biāo)簽

沒(méi)有對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)分類標(biāo)注是否準(zhǔn)確?數(shù)據(jù)是否干凈?

沒(méi)有對(duì)數(shù)據(jù)進(jìn)行歸一化。由于不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會(huì)影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級(jí),適合進(jìn)行綜合對(duì)比評(píng)價(jià)。此外,大部分神經(jīng)網(wǎng)絡(luò)流程都假設(shè)輸入輸出是在0附近的分布,從權(quán)值初始化到激活函數(shù)、從訓(xùn)練到訓(xùn)練網(wǎng)絡(luò)的優(yōu)化算法。將數(shù)據(jù)減去均值并除去方差。

樣本的信息量太大導(dǎo)致網(wǎng)絡(luò)不足以fit住整個(gè)樣本空間。樣本少只可能帶來(lái)過(guò)擬合的問(wèn)題,你看下你的training set上的loss收斂了嗎?如果只是validate set上不收斂那就說(shuō)明overfitting了,這時(shí)候就要考慮各種anti-overfit的trick了,比如dropout,SGD,增大minibatch的數(shù)量,減少fc層的節(jié)點(diǎn)數(shù)量,momentum,finetune等。

標(biāo)簽的設(shè)置是否正確。

二、模型

網(wǎng)絡(luò)設(shè)定不合理。如果做很復(fù)雜的分類任務(wù),卻只用了很淺的網(wǎng)絡(luò),可能會(huì)導(dǎo)致訓(xùn)練難以收斂。應(yīng)當(dāng)選擇合適的網(wǎng)絡(luò),或者嘗試加深當(dāng)前網(wǎng)絡(luò)?傮w來(lái)說(shuō),網(wǎng)絡(luò)不是越深越好,開始可以搭建一個(gè)3~8層的網(wǎng)絡(luò),當(dāng)這個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)的不錯(cuò)時(shí),你可以考慮實(shí)驗(yàn)更深的網(wǎng)絡(luò)來(lái)提升精確度。從小網(wǎng)絡(luò)開始訓(xùn)練意味著更快,并且可以設(shè)置不同參數(shù)觀察對(duì)網(wǎng)絡(luò)的影響而不是簡(jiǎn)單的堆疊更多層。

Learning rate不合適,如果太大,會(huì)造成不收斂,如果太小,會(huì)造成收斂速度非常慢。學(xué)習(xí)率設(shè)定不合理。在自己訓(xùn)練新網(wǎng)絡(luò)時(shí),可以從0.1開始嘗試,如果loss不下降的意思,那就降低,除以10,用0.01嘗試,一般來(lái)說(shuō)0.01會(huì)收斂,不行的話就用0.001. 學(xué)習(xí)率設(shè)置過(guò)大,很容易震蕩。不過(guò)剛剛開始不建議把學(xué)習(xí)率設(shè)置過(guò)小,尤其是在訓(xùn)練的開始階段。在開始階段我們不能把學(xué)習(xí)率設(shè)置的太低否則loss不會(huì)收斂。我的做法是逐漸嘗試,從0.1,0.08,0.06,0.05 ......逐漸減小直到正常為止。有的時(shí)候候?qū)W習(xí)率太低走不出低估,把沖量提高也是一種方法,適當(dāng)提高mini-batch值,使其波動(dòng)不大。learning rate設(shè)大了會(huì)帶來(lái)跑飛(loss突然一直很大)的問(wèn)題。這個(gè)是新手最常見的情況——為啥網(wǎng)絡(luò)跑著跑著看著要收斂了結(jié)果突然飛了呢?可能性最大的原因是你用了relu作為激活函數(shù)的同時(shí)使用了softmax或者帶有exp的函數(shù)做分類層的loss函數(shù)。當(dāng)某一次訓(xùn)練傳到最后一層的時(shí)候,某一節(jié)點(diǎn)激活過(guò)度(比如100),那么exp(100)=Inf,發(fā)生溢出,bp后所有的weight會(huì)變成NAN,然后從此之后weight就會(huì)一直保持NAN,于是loss就飛起來(lái)辣。如果lr設(shè)的過(guò)大會(huì)出現(xiàn)跑飛再也回不來(lái)的情況。這時(shí)候你停一下隨便挑一個(gè)層的weights看一看,很有可能都是NAN了。對(duì)于這種情況建議用二分法嘗試。0.1~0.0001.不同模型不同任務(wù)最優(yōu)的lr都不一樣。

隱層神經(jīng)元數(shù)量錯(cuò)誤。在一些情況下使用過(guò)多或過(guò)少的神經(jīng)元數(shù)量都會(huì)使得網(wǎng)絡(luò)很難訓(xùn)練。太少的神經(jīng)元數(shù)量沒(méi)有能力來(lái)表達(dá)任務(wù),而太多的神經(jīng)元數(shù)量會(huì)導(dǎo)致訓(xùn)練緩慢,并且網(wǎng)絡(luò)很難清除一些噪聲。隱層神經(jīng)元數(shù)量可以從256 到1024中間開始設(shè)置,然后可以看看研究人員使用的數(shù)字,可以用作參考。如果他們使用的數(shù)字與這個(gè)大不相同,那么可以想象一下這其中的原理。在決定使用隱層的單元數(shù)量之前,最為關(guān)鍵的是考慮你需要通過(guò)這個(gè)網(wǎng)絡(luò)表達(dá)信息的實(shí)際值的最少數(shù)量,然后再慢慢增加這個(gè)數(shù)字。如果你做回歸任務(wù)可以考慮使用的神經(jīng)元數(shù)量為輸入或輸出變量的2到3倍。實(shí)際上,與其它因素相比,隱藏單元的數(shù)量通常對(duì)于神經(jīng)網(wǎng)絡(luò)的性能影響相當(dāng)小。并且在很多情況下,增大所需要隱藏單元的數(shù)量?jī)H僅是減慢了訓(xùn)練速度。

錯(cuò)誤初始化網(wǎng)絡(luò)參數(shù)。如果沒(méi)有正確初始化網(wǎng)絡(luò)權(quán)重,那么網(wǎng)絡(luò)將不能訓(xùn)練。通常使用的比較多的初始化權(quán)重的方法有‘he’,’lecun’,’xavier’在實(shí)際應(yīng)用中這些方法有非常好的性能而網(wǎng)絡(luò)偏差通常初始化為0,你可以選擇一個(gè)最適合你任務(wù)的初始化方式。

沒(méi)有正則化。 正則化典型的就是dropout、加噪聲等。即使數(shù)據(jù)量很大或者你覺得網(wǎng)絡(luò)不可能出現(xiàn)過(guò)擬合,但是對(duì)網(wǎng)絡(luò)進(jìn)行正則化還是很有必要的。dropout 通常從設(shè)定參數(shù)為0.75或0.9開始,根據(jù)你認(rèn)為網(wǎng)絡(luò)出現(xiàn)過(guò)擬合的可能性來(lái)調(diào)整這個(gè)參數(shù)。另外,如果你確定這個(gè)網(wǎng)絡(luò)不會(huì)出現(xiàn)過(guò)擬合,那么可以將參數(shù)設(shè)定為0.99。正則化不僅僅可以防止過(guò)擬合,并且在這個(gè)隨機(jī)過(guò)程中,能夠加快訓(xùn)練速度以及幫助處理數(shù)據(jù)中的異常值并防止網(wǎng)絡(luò)的極端權(quán)重配置。對(duì)數(shù)據(jù)擴(kuò)增也能夠?qū)崿F(xiàn)正則化的效果,最好的避免過(guò)擬合的方法就是有大量的訓(xùn)練數(shù)據(jù)。

Batch Size 過(guò)大。Batch size 設(shè)置的過(guò)大會(huì)降低網(wǎng)絡(luò)的準(zhǔn)確度,因?yàn)樗档土颂荻认陆档碾S機(jī)性。另外,在相同情況下batch size 越大那么要達(dá)到相同的精確度通常需要訓(xùn)練更多的epoch。我們可以嘗試一些較小的batch size 如 16 ,8 甚至是1。使用較小的batch size 那么一個(gè)epoch就可以進(jìn)行更多次的權(quán)值更新。這里有兩個(gè)好處,第一,可以跳出局部最小點(diǎn)。其二可以表現(xiàn)出更好的泛化性能。

學(xué)習(xí)率設(shè)的不對(duì)。許多深度學(xué)習(xí)的框架默認(rèn)開啟了gradient clipping ,這個(gè)可以處理gradient explosion問(wèn)題,這個(gè)是非常有用的,但是在默認(rèn)情況下它也很難找到最佳學(xué)習(xí)率。如果你正確的清理了數(shù)據(jù),刪除了異常值,以及設(shè)定了正確的學(xué)習(xí)率,那么可以不需要使用gradient clipping,偶爾你也會(huì)遇到gradient explosion問(wèn)題,那么你可以開啟gradient clipping。但是,出現(xiàn)這種問(wèn)題一般情況下表明數(shù)據(jù)有其它問(wèn)題,而gradient clipping只是一個(gè)臨時(shí)的解決方案。

最后一層的激活函數(shù)用的不對(duì)。在最后一層使用錯(cuò)誤的激活函數(shù)會(huì)導(dǎo)致網(wǎng)絡(luò)最終不能輸出你期望的范圍值,最常見的錯(cuò)誤就是最后一層使用Relu函數(shù),其輸出無(wú)負(fù)值。如果是做回歸任務(wù),大多數(shù)情況下不需要使用激活函數(shù),除非你知道你所期望的值作為輸出。想象一下你的數(shù)據(jù)值實(shí)際代表了什么,以及再歸一化之后它們的范圍是多少,最有可能的情況是輸出沒(méi)有邊界的正數(shù)和負(fù)數(shù)。在這種情況下,最后一層不應(yīng)該使用激活函數(shù)。如果你的輸出值只能在某個(gè)范圍內(nèi)有意義,如0~1范圍內(nèi)的概率組成。那么最后一層可以使用sigmoid函數(shù)。

網(wǎng)絡(luò)存在壞梯度。 如果你訓(xùn)練了幾個(gè)epoch誤差沒(méi)有改變,那可能是你使用了Relu,可以嘗試將激活函數(shù)換成leaky Relu。因?yàn)镽elu激活函數(shù)對(duì)正值的梯度為1,負(fù)值的梯度為0。因此會(huì)出現(xiàn)某些網(wǎng)絡(luò)權(quán)值的成本函數(shù)的斜率為0,在這種情況下我們說(shuō)網(wǎng)絡(luò)是“dead”,因?yàn)榫W(wǎng)絡(luò)已經(jīng)不能更新。


如何通過(guò)train loss與test loss分析網(wǎng)絡(luò)當(dāng)下的狀況?

train loss 不斷下降,test loss不斷下降,說(shuō)明網(wǎng)絡(luò)仍在學(xué)習(xí);

train loss 不斷下降,test loss趨于不變,說(shuō)明網(wǎng)絡(luò)過(guò)擬合;

train loss 趨于不變,test loss不斷下降,說(shuō)明數(shù)據(jù)集100%有問(wèn)題;

train loss 趨于不變,test loss趨于不變,說(shuō)明學(xué)習(xí)遇到瓶頸,需要減小學(xué)習(xí)率或批量數(shù)目;

train loss 不斷上升,test loss不斷上升,說(shuō)明網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)不當(dāng),訓(xùn)練超參數(shù)設(shè)置不當(dāng),數(shù)據(jù)集經(jīng)過(guò)清洗等問(wèn)題。

本文網(wǎng)址:
下一篇:沒(méi)有資料

相關(guān)信息:
版權(quán)所有 CopyRight 2006-2017 江蘇和訊自動(dòng)化設(shè)備有限公司 常州自動(dòng)化培訓(xùn)中心 電話:0519-85602926 地址:常州市新北區(qū)府琛商務(wù)廣場(chǎng)2號(hào)樓1409室
蘇ICP備14016686號(hào)-2 技術(shù)支持:常州山水網(wǎng)絡(luò)
本站關(guān)鍵詞:常州PLC培訓(xùn) 常州PLC編程培訓(xùn) 常州PLC編程 常州PLC培訓(xùn)班 網(wǎng)站地圖 網(wǎng)站標(biāo)簽
在線與我們?nèi)〉寐?lián)系
色婷婷AV无码久久精品,久久天天躁狠狠躁夜夜97,羞羞麻豆国产精品1区2区3区,啪影院免费线观看视频,思思久久er99精品亚洲