導航:首頁 > 配伺服器 > 大數據伺服器怎麼做

大數據伺服器怎麼做

發布時間:2022-07-20 02:43:40

1. 大數據在醫療行業的運用如何構建大數據伺服器以及配置伺服器

就我賣過給醫院的伺服器,設備選擇,直接撥打伺服器廠家客服,會有專門的客戶經理為你選型定製,至於大數據構建,由軟體決定,就我見過的,一般統計,醫院一段時間內就診人數,哪一科看病人數最多,什麼年齡段,那種病情看病人數多,有些會顯示實時人數,比如醫護人員有多少人,病床住院有多少人,現在醫院進出多少人,及整個醫院總人數,

2. 用台式電腦怎麼樣做個數據伺服器

搭建一個ftp伺服器,不給普通用戶設置刪除許可權就行了

3. 如何創建一個大數據平台

所謂的大數據平台不是獨立存在的,比如網路是依賴搜索引擎獲得大數據並開展業務的,阿里是通過電子商務交易獲得大數據並開展業務的,騰訊是通過社交獲得大數據並開始業務的,所以說大數據平台不是獨立存在的,重點是如何搜集和沉澱數據,如何分析數據並挖掘數據的價值。

我可能還不夠資格回答這個問題,沒有經歷過一個公司大數據平台從無到有到復雜的過程。不過說說看法吧,也算是梳理一下想法找找噴。
這是個需求驅動的過程。
曾經聽過spotify的分享,印象很深的是,他們分享說,他們的hadoop集群第一次故障是因為,機器放在靠窗的地方,太陽曬了當機了(笑)。從簡單的沒有機房放在自家窗前的集群到一直到現在復雜的數據平台,這是一個不斷演進的過程。
對小公司來說,大概自己找一兩台機器架個集群算算,也算是大數據平台了。在初創階段,數據量會很小,不需要多大的規模。這時候組件選擇也很隨意,Hadoop一套,任務調度用腳本或者輕量的框架比如luigi之類的,數據分析可能hive還不如導入RMDB快。監控和部署也許都沒時間整理,用腳本或者輕量的監控,大約是沒有ganglia、nagios,puppet什麼的。這個階段也許算是技術積累,用傳統手段還是真大數據平台都是兩可的事情,但是為了今後的擴展性,這時候上Hadoop也許是不錯的選擇。
當進入高速發展期,也許擴容會跟不上計劃,不少公司可能會遷移平台到雲上,比如AWS阿里雲什麼的。小規模高速發展的平台,這種方式應該是經濟實惠的,省了運維和管理的成本,擴容比較省心。要解決的是選擇平台本身提供的服務,計算成本,打通數據出入的通道。整個數據平台本身如果走這條路,可能就已經基本成型了。走這條路的比較有名的應該是netflix。
也有一個階段,你發現雲服務的費用太高,雖然省了你很多事,但是花錢嗖嗖的。幾個老闆一合計,再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。這時候你大概需要一群靠譜的運維,幫你監管機器,之前兩三台機器登錄上去看看狀態換個磁碟什麼的也許就不可能了,你面對的是成百上千台主機,有些關鍵服務必須保證穩定,有些是數據節點,磁碟三天兩頭損耗,網路可能被壓得不堪重負。你需要一個靠譜的人設計網路布局,設計運維規范,架設監控,值班團隊走起7*24小時隨時准備出台。然後上面再有平台組真的大數據平台走起。
然後是選型,如果有技術實力,可以直接用社區的一整套,自己管起來,監控部署什麼的自己走起。這個階段部署監控和用戶管理什麼的都不可能像兩三個節點那樣人肉搞了,配置管理,部署管理都需要專門的平台和組件;定期Review用戶的作業和使用情況,決定是否擴容,清理數據等等。否則等機器和業務進一步增加,團隊可能會死的很慘,疲於奔命,每天事故不斷,進入惡性循環。
當然有金錢實力的大戶可以找Cloudera,Hortonworks,國內可以找華為星環,會省不少事,適合非互聯網土豪。當然互聯網公司也有用這些東西的,比如Ebay。
接下去你可能需要一些重量的組件幫你做一些事情。
比如你的數據接入,之前可能找個定時腳本或者爬log發包找個伺服器接收寫入HDFS,現在可能不行了,這些大概沒有高性能,沒有異常保障,你需要更強壯的解決方案,比如Flume之類的。
你的業務不斷壯大,老闆需要看的報表越來越多,需要訓練的數據也需要清洗,你就需要任務調度,比如oozie或者azkaban之類的,這些系統幫你管理關鍵任務的調度和監控。
數據分析人員的數據大概可能漸漸從RDBMS搬遷到集群了,因為傳統資料庫已經完全hold不住了,但他們不會寫代碼,所以你上馬了Hive。然後很多用戶用了Hive覺得太慢,你就又上馬交互分析系統,比如Presto,Impala或者SparkSQL。
你的數據科學家需要寫ML代碼,他們跟你說你需要Mahout或者Spark MLLib,於是你也部署了這些。
至此可能數據平台已經是工程師的日常工作場所了,大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。
比如各個業務線數據各種數據表多的一塌糊塗,不管是你還是寫數據的人大概都不知道數據從哪兒來,接下去到哪兒去。你就自己搞了一套元數據管理的系統。
你分析性能,發現你們的數據都是上百Column,各種復雜的Query,裸存的Text格式即便壓縮了也還是慢的要死,於是你主推用戶都使用列存,Parquet,ORC之類的。
又或者你發現你們的ETL很長,中間生成好多臨時數據,於是你下狠心把pipeline改寫成Spark了。
再接下來也許你會想到花時間去維護一個門戶,把這些零散的組件都整合到一起,提供統一的用戶體驗,比如一鍵就能把數據從資料庫chua一下拉到HDFS導入Hive,也能一鍵就chua一下再搞回去;點幾下就能設定一個定時任務,每天跑了給老闆自動推送報表;或者點一下就能起一個Storm的topology;或者界面上寫幾個Query就能查詢Hbase的數據。這時候你的數據平台算是成型了。
當然,磕磕碰碰免不了。每天你都有新的問題和挑戰,否則你就要失業了不是?
你發現社區不斷在解決你遇到過的問題,於是你們架構師每天分出很多時間去看社區的進展,有了什麼新工具,有什麼公司發布了什麼項目解決了什麼問題,興許你就能用上。
上了這些亂七八糟的東西,你以為就安生了?Hadoop平台的一個大特點就是坑多。尤其是新做的功能新起的項目。對於平台組的人,老闆如果知道這是天然坑多的平台,那他也許會很高興,因為跟進社區,幫忙修bug,一起互動其實是很提升公司影響力的實情。當然如果老闆不理解,你就自求多福吧,招幾個老司機,出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上,因為數據平台還是亂世,三天不跟進你就不知道世界是什麼樣了。任何一個新技術,都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術,那需要小心再小心,技術主管也要有足夠的積累,能夠駕馭,知道收益和風險。

4. 如何打造高性能大數據分析平台

1.大數據是什麼?
大數據是最近IT界最常用的術語之一。然而對大數據的定義也不盡相同,所有已知的論點例如結構化的和非結構化、大規模的數據等等都不夠完整。大數據系統通常被認為具有數據的五個主要特徵,通常稱為數據的5 Vs。分別是大規模,多樣性,高效性、准確性和價值性。
據Gartner稱,大規模可以被定義為「在本(地)機數據採集和處理技術能力不足以為用戶帶來商業價值。當現有的技術能夠針對性的進行改造後來處理這種規模的數據就可以說是一個成功的大數據解決方案。
這種大規模的數據沒將不僅僅是來自於現有的數據源,同時也會來自於一些新興的數據源,例如常規(手持、工業)設備,日誌,汽車等,當然包括結構化的和非結構化的數據。
據Gartner稱,多樣性可以定義如下:「高度變異的信息資產,在生產和消費時不進行嚴格定義的包括多種形式、類型和結構的組合。同時還包括以前的歷史數據,由於技術的變革歷史數據同樣也成為多樣性數據之一 「。
高效性可以被定義為來自不同源的數據到達的速度。從各種設備,感測器和其他有組織和無組織的數據流都在不斷進入IT系統。由此,實時分析和對於該數據的解釋(展示)的能力也應該隨之增加。
根據Gartner,高效性可以被定義如下:「高速的數據流I/O(生產和消費),但主要聚焦在一個數據集內或多個數據集之間的數據生產的速率可變上」。
准確性,或真實性或叫做精度是數據的另一個重要組成方面。要做出正確的商業決策,當務之急是在數據上進行的所有分析必須是正確和准確(精確)的。
大數據系統可以提供巨大的商業價值。像電信,金融,電子商務,社交媒體等,已經認識到他們的數據是一個潛在的巨大的商機。他們可以預測用戶行為,並推薦相關產品,提供危險交易預警服務,等等。
與其他IT系統一樣,性能是大數據系統獲得成功的關鍵。本文的中心主旨是要說明如何讓大數據系統保證其性能。
2.大數據系統應包含的功能模塊
大數據系統應該包含的功能模塊,首先是能夠從多種數據源獲取數據的功能,數據的預處理(例如,清洗,驗證等),存儲數據,數據處理、數據分析等(例如做預測分析,生成在線使用建議等等),最後呈現和可視化的總結、匯總結果。
下圖描述了大數據系統的這些高層次的組件:

2.1各種各樣的數據源

當今的IT生態系統,需要對各種不同種類來源的數據進行分析。這些來源可能是從在線Web應用程序,批量上傳或feed,流媒體直播數據,來自工業、手持、家居感測的任何東西等等。
顯然從不同數據源獲取的數據具有不同的格式、使用不同的協議。例如,在線的Web應用程序可能會使用SOAP / XML格式通過HTTP發送數據,feed可能會來自於CSV文件,其他設備則可能使用MQTT通信協議。
由於這些單獨的系統的性能是不在大數據系統的控制范圍之內,並且通常這些系統都是外部應用程序,由第三方供應商或團隊提供並維護,所以本文將不會在深入到這些系統的性能分析中去。
2.2數據採集
第一步,獲取數據。這個過程包括分析,驗證,清洗,轉換,去重,然後存到適合你們公司的一個持久化設備中(硬碟、存儲、雲等)。
在下面的章節中,本文將重點介紹一些關於如何獲取數據方面的非常重要的技巧。請注意,本文將不討論各種數據採集技術的優缺點。
2.3存儲數據
第二步,一旦數據進入大數據系統,清洗,並轉化為所需格式時,這些過程都將在數據存儲到一個合適的持久化層中進行。
在下面的章節中,本文將介紹一些存儲方面的最佳實踐(包括邏輯上和物理上)。在本文結尾也會討論一部分涉及數據安全方面的問題。
2.4數據處理和分析
第三步,在這一階段中的一部分干凈數據是去規范化的,包括對一些相關的數據集的數據進行一些排序,在規定的時間間隔內進行數據結果歸集,執行機器學習演算法,預測分析等。
在下面的章節中,本文將針對大數據系統性能優化介紹一些進行數據處理和分析的最佳實踐。
2.5數據的可視化和數據展示
最後一個步驟,展示經過各個不同分析演算法處理過的數據結果。該步驟包括從預先計算匯總的結果(或其他類似數據集)中的讀取和用一種友好界面或者表格(圖表等等)的形式展示出來。這樣便於對於數據分析結果的理解。
3.數據採集中的性能技巧
數據採集是各種來自不同數據源的數據進入大數據系統的第一步。這個步驟的性能將會直接決定在一個給定的時間段內大數據系統能夠處理的數據量的能力。
數據採集過程基於對該系統的個性化需求,但一些常用執行的步驟是 – 解析傳入數據,做必要的驗證,數據清晰,例如數據去重,轉換格式,並將其存儲到某種持久層。
涉及數據採集過程的邏輯步驟示如下圖所示:

下面是一些性能方面的技巧:

●來自不同數據源的傳輸應該是非同步的。可以使用文件來傳輸、或者使用面向消息的(MoM)中間件來實現。由於數據非同步傳輸,所以數據採集過程的吞吐量可以大大高於大數據系統的處理能力。 非同步數據傳輸同樣可以在大數據系統和不同的數據源之間進行解耦。大數據基礎架構設計使得其很容易進行動態伸縮,數據採集的峰值流量對於大數據系統來說算是安全的。
●如果數據是直接從一些外部資料庫中抽取的,確保拉取數據是使用批量的方式。
●如果數據是從feed file解析,請務必使用合適的解析器。例如,如果從一個XML文件中讀取也有不同的解析器像JDOM,SAX,DOM等。類似地,對於CSV,JSON和其它這樣的格式,多個解析器和API是可供選擇。選擇能夠符合需求的性能最好的。
●優先使用內置的驗證解決方案。大多數解析/驗證工作流程的通常運行在伺服器環境(ESB /應用伺服器)中。大部分的場景基本上都有現成的標准校驗工具。在大多數的情況下,這些標準的現成的工具一般來說要比你自己開發的工具性能要好很多。
●類似地,如果數據XML格式的,優先使用XML(XSD)用於驗證。
●即使解析器或者校等流程使用自定義的腳本來完成,例如使用java優先還是應該使用內置的函數庫或者開發框架。在大多數的情況下通常會比你開發任何自定義代碼快得多。
●盡量提前濾掉無效數據,以便後續的處理流程都不用在無效數據上浪費過多的計算能力。
●大多數系統處理無效數據的做法通常是存放在一個專門的表中,請在系統建設之初考慮這部分的資料庫存儲和其他額外的存儲開銷。
●如果來自數據源的數據需要清洗,例如去掉一些不需要的信息,盡量保持所有數據源的抽取程序版本一致,確保一次處理的是一個大批量的數據,而不是一條記錄一條記錄的來處理。一般來說數據清洗需要進行表關聯。數據清洗中需要用到的靜態數據關聯一次,並且一次處理一個很大的批量就能夠大幅提高數據處理效率。
●數據去重非常重要這個過程決定了主鍵的是由哪些欄位構成。通常主鍵都是時間戳或者id等可以追加的類型。一般情況下,每條記錄都可能根據主鍵進行索引來更新,所以最好能夠讓主鍵簡單一些,以保證在更新的時候檢索的性能。
●來自多個源接收的數據可以是不同的格式。有時,需要進行數據移植,使接收到的數據從多種格式轉化成一種或一組標准格式。
●和解析過程一樣,我們建議使用內置的工具,相比於你自己從零開發的工具性能會提高很多。
●數據移植的過程一般是數據處理過程中最復雜、最緊急、消耗資源最多的一步。因此,確保在這一過程中盡可能多的使用並行計算。
●一旦所有的數據採集的上述活動完成後,轉換後的數據通常存儲在某些持久層,以便以後分析處理,綜述,聚合等使用。
●多種技術解決方案的存在是為了處理這種持久(RDBMS,NoSQL的分布式文件系統,如Hadoop和等)。
●謹慎選擇一個能夠最大限度的滿足需求的解決方案。
4.數據存儲中的性能技巧
一旦所有的數據採集步驟完成後,數據將進入持久層。
在本節中將討論一些與數據數據存儲性能相關的技巧包括物理存儲優化和邏輯存儲結構(數據模型)。這些技巧適用於所有的數據處理過程,無論是一些解析函數生的或最終輸出的數據還是預計算的匯總數據等。
●首先選擇數據範式。您對數據的建模方式對性能有直接的影響,例如像數據冗餘,磁碟存儲容量等方面。對於一些簡單的文件導入資料庫中的場景,你也許需要保持數據原始的格式,對於另外一些場景,如執行一些分析計算聚集等,你可能不需要將數據範式化。
●大多數的大數據系統使用NoSQL資料庫替代RDBMS處理數據。
●不同的NoSQL資料庫適用不同的場景,一部分在select時性能更好,有些是在插入或者更新性能更好。
●資料庫分為行存儲和列存儲。
●具體的資料庫選型依賴於你的具體需求(例如,你的應用程序的資料庫讀寫比)。
●同樣每個資料庫都會根據不同的配置從而控制這些資料庫用於資料庫復制備份或者嚴格保持數據一致性。
●這些設置會直接影響資料庫性能。在資料庫技術選型前一定要注意。
●壓縮率、緩沖池、超時的大小,和緩存的對於不同的NoSQL資料庫來說配置都是不同的,同時對資料庫性能的影響也是不一樣的。
●數據Sharding和分區是這些資料庫的另一個非常重要的功能。數據Sharding的方式能夠對系統的性能產生巨大的影響,所以在數據Sharding和分區時請謹慎選擇。
●並非所有的NoSQL資料庫都內置了支持連接,排序,匯總,過濾器,索引等。
●如果有需要還是建議使用內置的類似功能,因為自己開發的還是不靈。
●NoSQLs內置了壓縮、編解碼器和數據移植工具。如果這些可以滿足您的部分需求,那麼優先選擇使用這些內置的功能。這些工具可以執行各種各樣的任務,如格式轉換、壓縮數據等,使用內置的工具不僅能夠帶來更好的性能還可以降低網路的使用率。
●許多NoSQL資料庫支持多種類型的文件系統。其中包括本地文件系統,分布式文件系統,甚至基於雲的存儲解決方案。
●如果在互動式需求上有嚴格的要求,否則還是盡量嘗試使用NoSQL本地(內置)文件系統(例如HBase 使用HDFS)。
●這是因為,如果使用一些外部文件系統/格式,則需要對數據進行相應的編解碼/數據移植。它將在整個讀/寫過程中增加原本不必要的冗餘處理。
●大數據系統的數據模型一般來說需要根據需求用例來綜合設計。與此形成鮮明對比的是RDMBS數據建模技術基本都是設計成為一個通用的模型,用外鍵和表之間的關系用來描述數據實體與現實世界之間的交互。
●在硬體一級,本地RAID模式也許不太適用。請考慮使用SAN存儲。
5.數據處理分析中的性能技巧
數據處理和分析是一個大數據系統的核心。像聚合,預測,聚集,和其它這樣的邏輯操作都需要在這一步完成。
本節討論一些數據處理性能方面的技巧。需要注意的是大數據系統架構有兩個組成部分,實時數據流處理和批量數據處理。本節涵蓋數據處理的各個方面。
●在細節評估和數據格式和模型後選擇適當的數據處理框架。
●其中一些框架適用於批量數據處理,而另外一些適用於實時數據處理。
●同樣一些框架使用內存模式,另外一些是基於磁碟io處理模式。
●有些框架擅長高度並行計算,這樣能夠大大提高數據效率。
●基於內存的框架性能明顯優於基於磁碟io的框架,但是同時成本也可想而知。
●概括地說,當務之急是選擇一個能夠滿足需求的框架。否則就有可能既無法滿足功能需求也無法滿足非功能需求,當然也包括性能需求。
●一些這些框架將數據劃分成較小的塊。這些小數據塊由各個作業獨立處理。協調器管理所有這些獨立的子作業
●在數據分塊是需要當心。
●該數據快越小,就會產生越多的作業,這樣就會增加系統初始化作業和清理作業的負擔。
●如果數據快太大,數據傳輸可能需要很長時間才能完成。這也可能導致資源利用不均衡,長時間在一台伺服器上運行一個大作業,而其他伺服器就會等待。
●不要忘了查看一個任務的作業總數。在必要時調整這個參數。
●最好實時監控數據塊的傳輸。在本機機型io的效率會更高,這么做也會帶來一個副作用就是需要將數據塊的冗餘參數提高(一般hadoop默認是3份)這樣又會反作用使得系統性能下降。
●此外,實時數據流需要與批量數據處理的結果進行合並。設計系統時盡量減少對其他作業的影響。
●大多數情況下同一數據集需要經過多次計算。這種情況可能是由於數據抓取等初始步驟就有報錯,或者某些業務流程發生變化,值得一提的是舊數據也是如此。設計系統時需要注意這個地方的容錯。
●這意味著你可能需要存儲原始數據的時間較長,因此需要更多的存儲。
●數據結果輸出後應該保存成用戶期望看到的格式。例如,如果最終的結果是用戶要求按照每周的時間序列匯總輸出,那麼你就要將結果以周為單位進行匯總保存。
●為了達到這個目標,大數據系統的資料庫建模就要在滿足用例的前提下進行。例如,大數據系統經常會輸出一些結構化的數據表,這樣在展示輸出上就有很大的優勢。
●更常見的是,這可能會這將會讓用戶感覺到性能問題。例如用戶只需要上周的數據匯總結果,如果在數據規模較大的時候按照每周來匯總數據,這樣就會大大降低數據處理能力。
●一些框架提供了大數據查詢懶評價功能。在數據沒有在其他地方被使用時效果不錯。
●實時監控系統的性能,這樣能夠幫助你預估作業的完成時間。
6.數據可視化和展示中的性能技巧
精心設計的高性能大數據系統通過對數據的深入分析,能夠提供有價值戰略指導。這就是可視化的用武之地。良好的可視化幫助用戶獲取數據的多維度透視視圖。
需要注意的是傳統的BI和報告工具,或用於構建自定義報表系統無法大規模擴展滿足大數據系統的可視化需求。同時,許多COTS可視化工具現已上市。
本文將不會對這些個別工具如何進行調節,而是聚焦在一些通用的技術,幫助您能打造可視化層。
●確保可視化層顯示的數據都是從最後的匯總輸出表中取得的數據。這些總結表可以根據時間短進行匯總,建議使用分類或者用例進行匯總。這么做可以避免直接從可視化層讀取整個原始數據。
●這不僅最大限度地減少數據傳輸,而且當用戶在線查看在報告時還有助於避免性能卡頓問題。
●重分利用大化可視化工具的緩存。緩存可以對可視化層的整體性能產生非常不錯的影響。
●物化視圖是可以提高性能的另一個重要的技術。
●大部分可視化工具允許通過增加線程數來提高請求響應的速度。如果資源足夠、訪問量較大那麼這是提高系統性能的好辦法。
●盡量提前將數據進行預處理,如果一些數據必須在運行時計算請將運行時計算簡化到最小。
●可視化工具可以按照各種各樣的展示方法對應不同的讀取策略。其中一些是離線模式、提取模式或者在線連接模式。每種服務模式都是針對不同場景設計的。
●同樣,一些工具可以進行增量數據同步。這最大限度地減少了數據傳輸,並將整個可視化過程固化下來。
●保持像圖形,圖表等使用最小的尺寸。
●大多數可視化框架和工具的使用可縮放矢量圖形(SVG)。使用SVG復雜的布局可能會產生嚴重的性能影響。
7.數據安全以及對於性能的影響
像任何IT系統一樣安全性要求也對大數據系統的性能有很大的影響。在本節中,我們討論一下安全對大數據平台性能的影響。
– 首先確保所有的數據源都是經過認證的。即使所有的數據源都是安全的,並且沒有針對安全方面的需求,那麼你可以靈活設計一個安全模塊來配置實現。
– 數據進過一次認證,那麼就不要進行二次認證。如果實在需要進行二次認證,那麼使用一些類似於token的技術保存下來以便後續繼續使用。這將節省數據一遍遍認證的開銷。
– 您可能需要支持其他的認證方式,例如基於PKI解決方案或Kerberos。每一個都有不同的性能指標,在最終方案確定前需要將其考慮進去。
– 通常情況下數據壓縮後進入大數據處理系統。這么做好處非常明顯不細說。
– 針對不同演算法的效率、對cpu的使用量你需要進行比較來選出一個傳輸量、cpu使用量等方面均衡的壓縮演算法。
– 同樣,評估加密邏輯和演算法,然後再選擇。
– 明智的做法是敏感信息始終進行限制。
– 在審計跟蹤表或登錄時您可能需要維護記錄或類似的訪問,更新等不同的活動記錄。這可能需要根據不同的監管策略和用戶需求個性化的進行設計和修改。
– 注意,這種需求不僅增加了數據處理的復雜度,但會增加存儲成本。
– 盡量使用下層提供的安全技術,例如操作系統、資料庫等。這些安全解決方案會比你自己設計開發性能要好很多。
8.總結
本文介紹了各種性能方面的技巧,這些技術性的知道可以作為打造大數據分析平台的一般准則。大數據分析平台非常復雜,為了滿足這種類型系統的性能需求,需要我們從開始建設的時候進行考量。
本文介紹的技術准則可以用在大數據平台建設的各個不同階段,包括安全如何影響大數據分析平台的性能。

5. 怎樣設計一個良好大數據處理的解決方案

在園子裡面雖然待的時間不久,不過也有一年有餘了,遇到了問題,第一個想到的就是去園子裡面借鑒一些前輩們的經驗,以免自己走彎路。漸漸的自己也有了一定的獨立處理問題的能力,大神們不要噴我是標題黨,標題是疑問,小弟不才,遇到了一些數據同步問題或是解決方案錯誤的麻煩,需要求助大神們,如果您不是趕時間,幫忙看完這篇文章,留上兩句言就可以了,小弟不勝感激。好了,不多扯淡了,趕快說正事。1、項目介紹 下圖為目前項目的整體框架圖,大至如下:這是一個winform系統,採用了.NET Framework3.5和SQL Server2008編寫與存儲。這是一個某車輛監控管理系統,分為前端採集車輛信息,然後存儲到後台資料庫伺服器上,整個系統的大致流程是:前端採集的圖片數據,通過交換機統一介面,將數據傳入到負責存儲的中心服務軟體(以下簡稱為「服務軟體」),然後服務軟體將接收到的數據存入到資料庫中(資料庫為SQLServer2008),客戶端通過網路去訪問資料庫的信息,進行檢索等一些操作。這是一個大至流程,上圖中有N個分中心,每個點都部署了一樣的系統及軟體,流程一樣,然後將分中心的數據同步到總的伺服器上,主要同步的對象是從相機過來的照片(照片是轉換為二進制後存儲到資料庫某表中的)及一些相關數據,實現總點可以查看各個分點的數據信息。2、目前問題 由於圖片是存儲在資料庫表中的,由數據量過大,平均一天有20萬左右的信息需要存儲,峰值每秒達到了15-20條左右的記錄,圖片壓縮後為150KB左右的高清圖,伺服器為24*365天工作的,所以壓力比較大,目前的問題是伺服器的磁碟IO出現了瓶頸(伺服器採用了500G的硬碟做了磁碟陣列),伺服器的連接通訊管道出現了擁堵,寫入操作超時。這種情況偶爾會發生。3、個人的解決方案 經過研究發現,出現了該情況的最大問題在於伺服器的磁碟IO出現了瓶頸,頻繁的寫操作,導致寫入操作超時,於是我們就對證下葯,解決磁碟IO的壓力,由於之前圖片是存儲在資料庫表中的,在佔用了資料庫的大量空間的同時又減慢了客戶端訪問伺服器的速度。有些時候不是所有的事情軟體都能解決的,我們對硬體進行一個升級,同時改變一下系統的存儲策略,把圖片單獨存儲,解決伺服器的IO瓶頸,減輕伺服器寫操作的壓力。 4、遇到的問題 上圖的方案貌似是可以解決問題,但是問題來了,如果更好的把分中心的數據同步到總伺服器上(主要指圖片伺服器),目前圖片保存的格式是:年月日文件夾/相機IP文件夾/照片編號.JPG 如何在保證了可以快速的同步圖片至總伺服器的同時,又可以保證圖片數據的完整性,不會在同步過程中出現丟失或其它問題,曾經考慮過利用資料庫中記錄圖片的路徑,遠程訪問圖片信息,這樣倒省去了同步圖片的麻煩,可是效率過低,而且對網路要求過高;另外想到的一種方法就是利用FTP進行圖片同步,自己寫同步代碼,定製同步機制。5、求助 求助各位大神們,有遇到過類似問題或是有這方面經驗的,可以提一下自己的建議和看法,對於目前遇到的情況,不止是同步,包括這個解決方案的可行性給出一些意見和建議,在你們的不吝指教中,小弟或許會找到一些答案。 1、對上上述的方案,可否有更好的解決方案; 2、對於不同的方案,可否有更好的、詳細的解決辦法; 3、對於上述方案,關於存儲和同步是否有更好的意見和建議; 小弟在這里感謝各們園子裡面的兄弟姐妹了,希望你們踴躍發言,多一個人多一份力量,看到了就說上兩句,留個言吧。小弟在線等留言,感謝了!

6. 大數據 伺服器配置

你這個數據量還是比較大的,相對的伺服器配置要高一點,伺服器主要的就是CPU 內存以及硬碟 分析數據要求數據讀取速度要高的 所以也決定了不能用普通的硬碟 用SSD或者SAS硬碟好一點 伺服器可以自己采購 ,可以用戴爾的或者IBM的 具體的看你那邊的配置 ,機器的價格差不多要幾萬了,後期你那邊如果在idc機房託管的話 還要一部分錢,具體的情況要看你那邊具體情況了 詳細情況咱們可以再聊一下

7. 搭建大數據平台的具體步驟是什麼

1、操作體系的挑選


操作體系一般使用開源版的RedHat、Centos或許Debian作為底層的構建渠道,要根據大數據渠道所要建立的數據剖析東西能夠支撐的體系,正確的挑選操作體系的版本。


2、建立Hadoop集群


Hadoop作為一個開發和運行處理大規模數據的軟體渠道,實現了在大量的廉價計算機組成的集群中對海量數據進行分布式計算。Hadoop結構中最核心的規劃是HDFS和MapRece,HDFS是一個高度容錯性的體系,合適布置在廉價的機器上,能夠供給高吞吐量的數據訪問,適用於那些有著超大數據集的應用程序;MapRece是一套能夠從海量的數據中提取數據最終回來成果集的編程模型。在生產實踐應用中,Hadoop非常合適應用於大數據存儲和大數據的剖析應用,合適服務於幾千台到幾萬台大的伺服器的集群運行,支撐PB級別的存儲容量。


3、挑選數據接入和預處理東西


面臨各種來源的數據,數據接入便是將這些零散的數據整合在一起,歸納起來進行剖析。數據接入首要包括文件日誌的接入、資料庫日誌的接入、關系型資料庫的接入和應用程序等的接入,數據接入常用的東西有Flume,Logstash,NDC(網易數據運河體系),sqoop等。


4、數據存儲


除了Hadoop中已廣泛應用於數據存儲的HDFS,常用的還有分布式、面向列的開源資料庫Hbase,HBase是一種key/value體系,布置在HDFS上,與Hadoop一樣,HBase的目標首要是依靠橫向擴展,通過不斷的添加廉價的商用伺服器,添加計算和存儲才能。同時hadoop的資源管理器Yarn,能夠為上層應用供給統一的資源管理和調度,為集群在利用率、資源統一等方面帶來巨大的優點。


5、挑選數據挖掘東西


Hive能夠將結構化的數據映射為一張資料庫表,並供給HQL的查詢功能,它是建立在Hadoop之上的數據倉庫根底架構,是為了削減MapRece編寫工作的批處理體系,它的出現能夠讓那些通曉SQL技術、可是不熟悉MapRece、編程才能較弱和不擅長Java的用戶能夠在HDFS大規模數據集上很好的利用SQL言語查詢、匯總、剖析數據。


6、數據的可視化以及輸出API


關於處理得到的數據能夠對接主流的BI體系,比如國外的Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數(可免費試用)等,將成果進行可視化,用於決策剖析;或許迴流到線上,支撐線上業務的開展。

8. 如何自建網路資料庫伺服器

伺服器如何選擇?伺服器的選擇大概分為以下幾種情況:

一、個人網站或者入門級網站,這類網站由於網站內容和訪問量都相對比較低,所以對伺服器的要求也較低,選擇入門級的伺服器即可,而且價格會比較便宜。

二、如果是一般的企業網站,企業的產品數量有限,需要存儲的內容也有限的話,一般1核、2G、1M的就夠用。

三、如果是做開發游戲、數據分析、在線商城等業務或者有高網路包收發需求的企業,這類網站對訪問速度、訪問量、存儲量、穩定性等的要求都比較高,所以建議考慮計算型伺服器。

四、如果有大數據計算與存儲分析需求,比如互聯網行業、金融行業等,最好選擇大數據型的伺服器,這種伺服器的優勢是可以隨意升降配置。在具體選擇伺服器的過程中,有幾個重要參數是一定要慎重考慮的:

1、CPU:伺服器的CPU代表了主機的運算能力,靜態頁面對CPU的消耗比較小,動態頁面對CPU消耗比較大,所以如果是靜態頁面一般1核的CPU就夠了,如果是動態頁面則建議選擇2核以上的CPU。

2、內存:伺服器內存越大,網站打開速度越快。對有資料庫運行需求的中小型網站來說最少選擇1G以上內存,因為資料庫運行也是比較消耗內存的。

3、硬碟:硬碟需要根據程序體量以及資料庫大小來定了,此外系統本身會佔用一部分硬碟空間,所以開通以後看到硬碟已經被使用了一部分空間。

4、帶寬:如果選擇VPS或者雲伺服器,他們對流量是沒限制的,重點要考慮帶寬。帶寬越大訪問網站時速度越快。所以可根據訪問量大小及未來的發展規劃選擇帶寬。

5、線路:大陸常用的線路一般是三大運營商的,移動、聯通、電信;境外的有香港、美國的。可以根據業務面向用戶市場區域選擇。

9. java 大數據怎麼做

Java是編程語言;
大數據是一個概念,包含的技術較多,比如Hadoop、Spark、Storm等;
學習大數據先要學習Java,Java是基礎,而大數據比較核心的兩個課程是HADOOP、SPARK。

閱讀全文

與大數據伺服器怎麼做相關的資料

熱點內容
戶型公攤面積快速演算法 瀏覽:321
亞洲7衛星加密節目破解 瀏覽:785
什麼相機app濾鏡好用 瀏覽:813
oracle存儲過程提示編譯完 瀏覽:547
頂級程序員出山 瀏覽:365
java獲取指定路徑 瀏覽:175
xampp教程linux 瀏覽:386
壓縮空氣洗車 瀏覽:707
cad中命令zoome 瀏覽:1001
如何改變家長對安卓的偏見 瀏覽:94
微擎伺服器ip地址怎麼查 瀏覽:212
江陰變頻空氣壓縮機品牌 瀏覽:906
家用閑置電腦如何改造為伺服器 瀏覽:402
作業幫加密碼 瀏覽:454
手機怎麼沒有伺服器 瀏覽:67
swift編程軟體 瀏覽:752
php中pathinfo是什麼 瀏覽:71
tsp演算法源代碼 瀏覽:553
程序員鎖死一個游戲 瀏覽:196
小程序免費源碼網站 瀏覽:634