發(fā)布時間:2020-05-13 08:32:11來源:轉(zhuǎn)載
當別人在高談闊論機器學習時,你卻插不上嘴,這是一種怎樣的體驗?不懂機器學習沒有關(guān)系,但你一定要知道下面的十個機器學習基本常識。曾經(jīng)在Endeca、谷歌和LinkedIn機器學習開發(fā)的Daniel Tunkelang為我們概括總結(jié)了這十個常識。
1. 機器學習就是從數(shù)據(jù)中挖掘洞見,而人工智能是炒作。
只要使用了正確的訓練數(shù)據(jù)和算法,機器學習可以解決大部分問題。而所謂的人工智能,只不過是一種包裝。只要有助于營銷,你要把它叫作什么都可以。
2. 數(shù)據(jù)和算法是機器學習的核心,而數(shù)據(jù)更為重要。
雖然人們熱衷于研究機器學習算法,但數(shù)據(jù)才是機器學習的關(guān)鍵要素。機器學習可以沒有復雜完備的算法,但沒有高質(zhì)量的數(shù)據(jù)就不行。
3. 如果你沒有大量數(shù)據(jù),就不要使用太復雜的模型。
機器學習根據(jù)輸入?yún)?shù)來探索模型空間,參數(shù)越多,越有可能出現(xiàn)過擬合,所以應(yīng)該要盡量遵循簡單模型的原則。
4. 機器學習的成果取決于數(shù)據(jù)的質(zhì)量。
種瓜得瓜,種豆得豆。機器學習只能發(fā)現(xiàn)已經(jīng)存在于數(shù)據(jù)中的模式。比如在解決分類問題時,就要求訓練數(shù)據(jù)具有清晰的特征。
5. 只有當訓練數(shù)據(jù)具有代表性時,機器學習才能奏效。
過去不能代表未來。要時刻警惕訓練數(shù)據(jù)和生產(chǎn)數(shù)據(jù)之間出現(xiàn)傾斜,經(jīng)常性地訓練數(shù)據(jù),避免數(shù)據(jù)模型過時。
6. 機器學習困難的部分其實是數(shù)據(jù)轉(zhuǎn)換。
機器學習的大肆炒作可能會給你造成一種印象,就是機器學習主要是如何選擇和調(diào)整算法。但實際上,機器學習工作的大部分時間花在了數(shù)據(jù)清理和特征工程上,也就是將數(shù)據(jù)的原始特征轉(zhuǎn)換成更具表示性的特征。
7. 深度學習是革命性的,但不是銀彈。
深度學習對部分傳統(tǒng)的特征工程進行了自動化,特別是在圖像和視頻處理領(lǐng)域。但深度學習不是銀彈,我們無法在它擅長的領(lǐng)域之外應(yīng)用它,況且,我們?nèi)匀灰ê芏嗑M行數(shù)據(jù)清理和轉(zhuǎn)換。
8. 機器學習系統(tǒng)也是高度脆弱的。
機器學習算法不會干掉人類,干掉人類的是人類自己。機器學習系統(tǒng)如果出現(xiàn)故障,通常都不是因為機器學習算法本身,而是人類在訓練數(shù)據(jù)中引入了錯誤。要時刻警惕,軟件工程中出現(xiàn)的錯誤在機器學習系統(tǒng)中同樣會出現(xiàn)。
9. 機器學習可能在無意之中創(chuàng)造出可自我實現(xiàn)的預言。
今天通過機器學習做出的決策,將會影響未來收集到的訓練數(shù)據(jù)。如果你在機器學習系統(tǒng)中嵌入了某種偏見,它會持續(xù)不斷地生成新的訓練數(shù)據(jù),這些數(shù)據(jù)反過來增強了這種偏見,而有些偏見會毀掉人類的生活。所以,不要讓機器學習系統(tǒng)有機會創(chuàng)造出可自我實現(xiàn)的預言。
10. 人工智能不會自我感知,也不會崛起到要干掉人類。
很多吃瓜群眾從科幻電影中看到人工智能。但要注意,我們可以從科幻電影中獲得靈感,但它們畢竟不是現(xiàn)實,我們真正要擔心的是人類無意識地在機器學習系統(tǒng)中嵌入偏見。
更多培訓課程: 成都少兒編程 更多學校信息: 成都光華童程童美少兒編程培訓 咨詢電話: