數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘涉及的內容比較泛,機器學習、數(shù)據(jù)挖掘、人工智能,但實際上這些知識大多是相通的,機器學習實戰(zhàn)這本書是我看的啟蒙書里很好的一本了,該有的都有,難度較小,有理論有實踐,可以較快的對各種知識有個大概的了解,但是想要長期在這個行業(yè)發(fā)展,還需要學習更多的知識,比如說提到回歸模型,你不僅僅要知道最小二乘法,你還要想到怎么進行數(shù)據(jù)清洗、哪些數(shù)據(jù)需要清洗,怎么規(guī)范數(shù)據(jù),數(shù)據(jù)是否過多,要不要進行歸約和降維,采用哪種回歸模型,精確度大致要達到什么水平,要不要考慮過擬合和欠擬合,要不要進行交叉驗證,幾折交叉驗證效果好,如果回歸模型不適用,有哪些備選方案等等。
(1)定義問題。在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
(2)建立數(shù)據(jù)挖掘庫。建立數(shù)據(jù)挖掘庫包括以下幾個步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質量評估和數(shù)據(jù)清理,合并與整合,構建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,維護數(shù)據(jù)挖掘庫。
(3)分析數(shù)據(jù)。分析的目的是找到對預測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。
(4)準備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準備工作??梢园汛瞬襟E分為四個部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉換變量。
(5)建立模型。建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準確性。訓練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分,一個用于模型訓練,另一個用于模型測試。
(6)評價模型。模型建立好之后,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數(shù)據(jù)有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。經(jīng)驗證明,有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實世界中測試模型很重要。先在小范圍內應用,取得測試數(shù)據(jù),覺得滿意之后再向大范圍推廣。
(7)實施。模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的數(shù)據(jù)集上。
消防工程專業(yè)是一門綜合性的學科,涉及與諸多學科的相互交叉、滲透、融合,它涉及物理學、化學、數(shù)學、機械、電子、建筑、信息、心理、生理等多種自然...
人力資源管理專業(yè)培養(yǎng)熟練掌握人力資源管理的各種理論和技術,能獨立從事人力資源管理不同功能模塊方案設計、操作和實施的應用型專門人才。那么人力資...
會計專業(yè)學哪些課程,就業(yè)前景如何,以下是會計專業(yè)的相關內容,希望能夠對您有所參考與幫助。
網(wǎng)絡技術專業(yè)學習數(shù)據(jù)庫原理與SQL,SERVER,Oracle數(shù)據(jù)庫管理、面向對象程序設計,網(wǎng)絡安全管理與維護技術等。
人力資源管理專業(yè)培養(yǎng)具備管理、經(jīng)濟、法律及人力資源管理等方面的知識和能力,能在事業(yè)單位及政府部門從事人力資源管理以及教學、科研方面工作的工商...
計算機網(wǎng)絡技術培養(yǎng)具有一定計算機網(wǎng)絡基本理論和開發(fā)技術,具備從事程序設計、Web的軟件開發(fā)、計算機網(wǎng)絡的組建、網(wǎng)絡設備配置、網(wǎng)絡管理和安全維...
廣告學專業(yè)是將廣告以學術性的方法進行研究的專業(yè)。它通過研究市場經(jīng)濟、消費心理、美學,來增強人們的消費意識,產(chǎn)生社會心理共鳴。那么廣告學專業(yè)主...
大學會計專業(yè)的會計課程有哪些,小編整理了會計的相關內容,希望內購對您有所幫助與參考。
心理學的專業(yè)課程有心理學、普通心理學、實驗心理學、心理統(tǒng)計、心理測量、生理心理學、人格心理學、社會心理學、認知心理學、發(fā)展心理學等等。
會計專業(yè)是現(xiàn)今大學生報考的幾大熱門專業(yè)之一,那么2022大學會計專業(yè)主要有哪些課程呢,小編進行了以下整理。
很多人想知道室內設計工資一般多少,室內設計師前景好不好呢?下面小編為大家介紹一下!
通脹,即通過膨脹,是經(jīng)濟學中的一個重要知識點。指的是當一個經(jīng)濟中的大多數(shù)商品和勞務的價格連續(xù)在一段時間內普遍上漲時,宏觀經(jīng)濟學就稱這個經(jīng)濟經(jīng)...
高考后選擇軟件工程專業(yè)的同學或者正在讀軟件工程專業(yè)的同學,你們當初選擇這個專業(yè)的時候或者學到現(xiàn)在,是否在迷茫:軟件工程專業(yè)應該怎么學?下面有...
想要寫好大學四級英語作文,長期的積累和練習是必要的。如果沒有那么大的詞匯量,考前背誦一些關于英語作文的萬能句型,也是提高英語作文得分的關鍵。...
想要寫好大學英語作文,考前背誦一些關于英語作文的萬能句型,是提高英語作文得分的關鍵。下面是小編整理的大學英語作文萬能句子參考,希望對大家有所...