如何利用Mahout和Hadoop處理大規模資料

2022-09-12 12:32:25 字數 2339 閱讀 9572

1樓:匿名使用者

親, 問的好籠統。。。。

是不是 mahout 和 hadoop 理解的並不是很深啊。

mahout 他最強大的功能就是內部實現了很多的演算法,可以讓你簡單的操作 生成mapreduce 的 job, 比如一些演算法是生成好的。如果資料量不是很大且需要一些演算法非常建議使用。

而 hadoop 可以被樓主看作是 mahout 之下的偏底層的東西, 建議如果需要做一些高效能的分散式分析。 你仍然要去仔細搞一下 hadoop 知道hdfs mapreduce 知道怎麼分割槽,並且搞定一些演算法 來讓程式變得高效。

如何利用mahout和hadoop處理大規模資料

2樓:匿名使用者

規模問題在機器學習演算法中有什麼現實意義?讓我們考慮你可能需要部署mahout來解決的幾個問題的大小。

據粗略估計,picasa三年前就擁有了5億張**。 這意味著每天有百萬級的新**需要處理。一張**的分析本身不是一個大問題,即使重複幾百萬次也不算什麼。

但是在學習階段可能需要同時獲取數十億張**中的資訊,而這種規模的計算是無法用單機實現的。

據報道,google news每天都會處理大約350萬篇新的新聞文章。雖然它的絕對詞項數量看似不大,但試想一下,為了及時提供這些文章,它們連同其他近期的文章必須在幾分鐘的時間內完成聚類。

netflix為netflix prize公佈的評分資料子集中包含了1億個評分。因為這僅僅是針對競賽而公佈的資料,據推測netflix為形成推薦結果所需處理的資料總量與之相比還要大出許多倍。

機器學習技術必須部署在諸如此類的應用場景中,通常輸入資料量都非常龐大,以至於無法在一臺計算機上完全處理,即使這臺計算機非常強大。如果沒有 mahout這類的實現手段,這將是一項無法完成的任務。這就是mahout將可擴充套件性視為重中之重的道理,以及本書將焦點放在有效處理大資料集上的原因,這一點與其他書有所不同。

將複雜的機器學習技術應用於解決大規模的問題,目前僅為大型的高新技術公司所考慮。但是,今天的計算能力與以往相比,已廉價許多,且可以藉助於 apache hadoop這種開源框架更輕鬆地獲取。mahout通過提供構築在hadoop平臺上的、能夠解決大規模問題的高質量的開源實現以期完成這塊拼圖,並可為所有技術團體所用。

hadoop實現了mapreduce正規化,即便mapreduce聽上去如此簡單,這仍然稱得上是一大進步。它負責管理輸入資料、中間鍵值對以及輸出資料的儲存;這些資料可能會非常龐大,並且必須可被許多工作節點訪問,而不僅僅存放在某個節點上。hadoop還負責工作節點之間的資料分割槽和傳輸,以及各個機器的故障監測與恢復。

理解其背後的工作原理,可以幫你準備好應對使用hadoop可能會面對的複雜情況。hadoop不僅僅是一個可在工程中新增的庫。它有幾個元件,每個都帶有許多庫,還有(幾個)獨立的服務程序,可在多臺機器上執行。

基於hadoop的操作過程並不簡單,但是投資一個可擴充套件、分散式的實現,可以在以後獲得回報:你的資料可能會很快增長到很大的規模,而這種可擴充套件的實現讓你的應用不會落伍。

鑑於這種需要大量計算能力的複雜框架正變得越來越普遍,雲端計算提供商開始提供hadoop相關的服務就不足為奇了。例如,亞馬遜提供了一種管理hadoop叢集的服務 elastic mapreduce,該服務提供了強大的計算能力,並使我們可通過一個友好的介面在hadoop上操作和監控大規模作業,而這原本是一個非常複雜的任務。

如何讓hadoop結合r語言做大資料分析

如何利用mahout和hadoop處理大規模資料

3樓:

規模問題在機器學習演算法中有什麼現實意義?讓我們考慮你可能需要部署mahout來解決的幾個問題的大小。

據粗略估計,picasa三年前就擁有了5億張**。 這意味著每天有百萬級的新**需要處理。一張**的分析本身不是一個大問題,即使重複幾百萬次也不算什麼。

但是在學習階段可能需要同時獲取數十億張**中的資訊,而這種規模的計算是無法用單機實現的。

如何讓hadoop結合r語言做大資料分析?

4樓:匿名使用者

資料分析師主要工作就是通過資料去解決企業實際遇到的問題,包括根據資料分析的原因和結果推理以及**未來進行制定方案、對調研蒐集到的各種產品資料的整理、對資料進行分類和彙總等等

發展前景很好,畢竟資料分析這一行在國內才剛剛起步,很多企業都需要這方面的人才,是很有潛力的,這一行偏商科,技術輔助。真正的大牛不是資料分析工具技術,而是用資料幫助企業在產品、**、**、顧客、流量、財務、廣告、流程、工藝等方面進行價值提升的人。像我本人就是自學的資料分析師然後畢業後去了決明工作,現在基本實現了財務自由,但想成為大資料分析師的話,需要日積月累堅持沉澱下去,相信你總有一天也能達到這個層次。

如何利用秸稈和酒糟養牛

都是可以拿來喂牛的!酒糟 是麥芽進行糖化工藝,過濾後直接得到的濾渣,而不是經過發酵處理的糟,因 此遭受的破壞程度最輕,營養成分相對也比較豐富。但正因為如此,發酵啤酒糟喂牛羊的話,需要儘量縮短酒糟的運輸和儲存時間,儘量用當 天出廠的酒糟來進行發酵處理,粉碎處理後,再發酵,效果更好。em菌液發酵酒糟喂牛...

企業如何整合和利用外部資源

1 業務外包 所謂業務外包 outsourcing 也稱資源外包 資源外接,是指企業基於契約,將一些非核心的 輔助性的功能或業務外包給外部的專業化廠商,利用它們的專長和優勢來提高企業的整體效率和競爭力,從而達到降低成本 提高效率 充分發揮自身核心競爭力和增強企業對環境的迅速應變能力的一種管理模式。企...

如何利用spss繪製roc曲線,如何利用SPSS繪製ROC曲線

spss中有roc的專門分析模組。一 roc曲線的概念 受試者工作特徵曲線 receiver operator characteristic curve,roc曲線 最初用於評價雷達效能,又稱為接收者操作特性曲線。roc曲線是根據一系列不同的二分類方式 分界值或決定閾 以真陽性率 靈敏度 為縱座標,...