統(tǒng)計機(jī)器學(xué)習(xí)中的特征選擇方法綜述
在機(jī)器學(xué)習(xí)的嗡嗡聲下,許多人加入了從事機(jī)器這個行業(yè),因此越來越多人學(xué)習(xí)機(jī)器,那么機(jī)器學(xué)習(xí)的方法有哪些?下面是學(xué)習(xí)啦小編分享給大家的機(jī)器學(xué)習(xí)的方法的資料,希望大家喜歡!
機(jī)器學(xué)習(xí)的方法一
從心開始
在先前的Thinking Big Data? Think Bold Questions Instead一文中我指出,在大數(shù)據(jù)時代,我鼓勵人們從一個問題開始學(xué)習(xí)而不是從一個工具開始。這個道理同樣適用于AI/機(jī)器學(xué)習(xí)領(lǐng)域。在我們?nèi)缃裆畹哪甏屓伺d奮的是我們可以提出真正無所畏懼的問題。因?yàn)槲覀円呀?jīng)不再受到硬件或軟件的限制。
首先花時間徹底弄清楚你正在解決的問題的類型。使用“五個為什么”(問為什么?五次)的方法來追朔問題的根源。根據(jù)我的經(jīng)驗(yàn),我發(fā)現(xiàn)了一些常規(guī)形式:
Top Line(收入):哪一個是我們最好/最有利可圖的產(chǎn)品、客戶、期望等,采取什么行動可以獲取最大利益?這是一個擴(kuò)展的經(jīng)典市場細(xì)分和商業(yè)智能報告。使用大數(shù)據(jù)和人工智能領(lǐng)域的新工具,我們可以分析海量的數(shù)據(jù)和組,或者做出高精度和細(xì)微差別的預(yù)測。
Bottom Line (成本代價):在我們的操作過程中,效率低下的地方有哪些,如何優(yōu)化才能降低成本?這也是一個擴(kuò)展的傳統(tǒng)報表技術(shù)。
消費(fèi)者經(jīng)驗(yàn):促使消費(fèi)者最佳/積極消費(fèi)經(jīng)歷的因素是什么,要怎么做才可以提升它?除了上面提到的方法和工具,推薦引擎(類似于Amazon和Netflix)在這個領(lǐng)域里也扮演了重要的角色。面向客服服務(wù)的自動助手也成為可能。
知識發(fā)現(xiàn)/決策支持:我們從已知的信息中能夠挖掘到什么新知識,并且應(yīng)該如何使用它來做出決策呢?這是我個人最喜歡的一個方向,我職業(yè)生涯的大部分時間都在做這個。決策支持工具已經(jīng)出現(xiàn)了一段時間,但技術(shù)的進(jìn)步持續(xù)地提高了計算機(jī)的處理分析能力,讓我們從處理分析能力的限制里解脫出來,不用擔(dān)心處理能力的不足,從而專注發(fā)現(xiàn)。
智能機(jī)器/軟件:其他領(lǐng)域都集中于使企業(yè)或消費(fèi)者變得更好,然而這一領(lǐng)域?qū)W⒂趧?chuàng)造智能機(jī)器來處理世界上特定的問題:從導(dǎo)航真實(shí)世界到數(shù)據(jù)的實(shí)時分析和反應(yīng)。機(jī)會仍然存在,即使你不是一個核心軟體開發(fā)公司。如果你在這個領(lǐng)域有商業(yè)理念,你可以永遠(yuǎn)與那些能給你的生活帶來愿景的人合作。
如果這些問題帶領(lǐng)你去尋找一個非技術(shù)性解決方案,那么請不要驚訝。有時候,最好的解決方案并不是實(shí)現(xiàn)一個軟件,而是從人以及處理方法上做改進(jìn)。
比如,我曾被帶去幫助一個出版社組織去評估新的分析工具。在挖掘詳細(xì)信息之后,我發(fā)現(xiàn)他們面臨的真實(shí)問題是“創(chuàng)新者的窘境”。任何一種新技術(shù)都可能腐蝕他們已存的商業(yè)模式,除非他們先解決自己市場上的混亂。我對此給出了一些適度的技術(shù)改進(jìn)方法,但我還是鼓勵他們把大部分精力集中在解決商業(yè)模式的問題上。
你可能也會發(fā)現(xiàn),很多傳統(tǒng)的商業(yè)智能工具都是有必要的,或許你有一個不需要人工智能的大數(shù)據(jù)規(guī)模問題。請牢牢記住,成功往往是問正確的問題,而不是挑選閃亮的新玩具。
機(jī)器學(xué)習(xí)的方法二
識別機(jī)器學(xué)習(xí)類別
盡管供應(yīng)商和算法多的讓人有些眼花繚亂,但事實(shí)上機(jī)器學(xué)習(xí)方法只有那么幾類。首先,從你需要解決的問題開始識別方法,然后你就可以縮小供應(yīng)商和支持此方法的最佳工具。這看起來可能很明顯,但我都不知道有多少次看到一些公司在理解需求或方法之前就開始使用特定的工具了(Hadoop,還有其它的嗎?)。
最常見的方法如下:
Feature Extraction(特征提取):這種方法需要一個類似文本、圖像、視頻、音頻的原始輸入,然后提取可以在隨后的機(jī)器學(xué)習(xí)算法中使用的相關(guān)“特征”和模式。這與其自身并不是息息相關(guān),但卻是一個重要的預(yù)處理步驟。
Clustering(聚類):此方法也稱作"unsupervised learning(無監(jiān)督學(xué)習(xí))",它基于相似性原理將原始數(shù)據(jù)或特征和組對象組放到一起。唯一真正的要求就是對象需要一種比較相似性的手段,例如,比較它們相似或不同的方法。
Classification(分類):此方法也稱作“supervised learning(監(jiān)督學(xué)習(xí))”,分類需要原始數(shù)據(jù)或特征,以及一個用戶定義的類別,然后開發(fā)規(guī)則將這些對象歸入到這些類別中。這種規(guī)則接著可以用來預(yù)測新的、沒有類別的對象。這種技術(shù)也有助于標(biāo)記內(nèi)容,例如,圖片、視頻和產(chǎn)品。
Prediction(預(yù)測):此方法根據(jù)已知的數(shù)據(jù)來確定關(guān)系,并制定規(guī)則,然后預(yù)測未來的事件,例如,一個客戶的離開(“客戶流失”)或一個人會不會買這件商品(“推薦引擎”)。預(yù)測的過程真的很有趣,做預(yù)測的一個最佳理由就是:誰不想預(yù)測未來呢?
該列表看似很短,然而很多公司在實(shí)踐中都曾在其中絆倒過,簡而言之就這幾個。即使更先進(jìn)的解決方案,如谷歌的無人駕駛汽車使用的也是這些基本的構(gòu)建模塊:特征提取(將其三維空間降解為一系列機(jī)器可讀的對象),分類(這些物體看起來像一輛車,那些對象看起來像行人),預(yù)測(如果是紅燈,我前面的車將會停止)。
這些模塊的選擇(無論是單獨(dú)使用還是組合),取決于你需要解決的問題,并且你可以以你的方式更好地完成一個成功的機(jī)器學(xué)習(xí)項目。
機(jī)器學(xué)習(xí)的方法三
選擇適合你風(fēng)險承受能力的技術(shù)
一旦你了解了你需要的機(jī)器學(xué)習(xí)的算法類型,最后一步就是評估和選擇符合你特定需求的技術(shù)。你可能會傾向于使用最富有特色的方法,但這可能會導(dǎo)致組織風(fēng)險承受能力的不匹配。我看到一些大的、成熟的組織從一些靈活的小公司中選擇軟件,類似于小公司和IBM這樣的大公司。每一次,都在合同的墨水還沒干涸之前就出現(xiàn)了問題。
所以,你最好和一個與你的整體策略、理念和風(fēng)險承受能力在一個等級的供應(yīng)商合作。領(lǐng)域的變化非???,一個純技術(shù)的決定是相當(dāng)短見的。你要有一個能以類似的速度成長和適應(yīng)的伙伴,這樣就不存在任何期望的不匹配。除了技術(shù),還需根據(jù)以下幾個方面進(jìn)行評估:
機(jī)器學(xué)習(xí)的方法四
公司成長戰(zhàn)略
領(lǐng)導(dǎo)團(tuán)隊
咨詢方式(傳統(tǒng)的瀑布型,敏捷開發(fā)型等)
技術(shù)風(fēng)格(專有的重型研發(fā),集成等)
找到那些與你的企業(yè)精神相匹配的公司,如此你才會為你踏上這個旅程找到一個好的合作伙伴。你也可以使用這種評估,故意地移除這些公司。如果你是一個需要更多創(chuàng)新的大型公司,你可以選擇一個更富有活力和進(jìn)取心的供應(yīng)商,僅僅只是為了將新的思想和精力注入到一個不景氣的企業(yè)。只是要確保時刻睜開你的雙眼,關(guān)注著發(fā)生的一切。