① 怎麼開啟sas pc files server
一、軟體准備
1、 SAS
2、安裝JRE
如果沒裝JRE,可能會卡在安裝java運行時環境多個小時無反應
記下JRE的安裝目錄 C:\Program Files (x86)\Java\jre6\ 備用
也可選1.7的版本(文件名為「jre-7u15-windows-i586.exe」,約30MB),1.7的安裝後地址一般是:C:\Program Files (x86)\Java\jre7\
——無論是32位,還是64位Windows都得安裝32位版本的JRE,所以下載的時候要看清楚文件名包含"windows-i586"字樣的exe文件。。。錯誤下載了64位版本的JRE就悲劇了。
3、准備SID文件
文件名任意,如 SAS9.3 X64_2013_SID.txt 內容如下(拷貝後存為txt文件):
[_SID_]
Version=9.3
Revision=9.3
Platform_long=Microsoft Windows Workstation for x64
Platform_short=wx6
Order=99CKGN
License_prod=SAS
Setnumid=70082279
SID_schema=2
ph_agreement=PROMPT
SID_header=SAS 9.3
[_Info_]
[_FileData_]
$_Filename=setinit.sss
$_Path=sas\core\sasinst\
$_Date=
$_Time=
$_Stream=-------------------- BEGIN --------------------
PROC SETINIT RELEASE='9.3';
SITEINFO NAME='UNIVERSITY OF AUCKLAND - EAS'
SITE=10003679 OSNAME='WX64_WKS' RECREATE WARN=15 GRACE=15
BIRTHDAY='11DEC2012'D EXPIRE='31DEC2013'D PASSWORD=484805459;
CPU MODEL=' ' MODNUM=' ' SERIAL=' ' NAME=CPU000;
EXPIRE 'PRODNUM000' 'PRODNUM001' 'PRODNUM002' 'PRODNUM003'
'PRODNUM004' 'PRODNUM005' 'PRODNUM006' 'PRODNUM007' 'PRODNUM008'
'PRODNUM010' 'PRODNUM012' 'PRODNUM013' 'PRODNUM015' 'PRODNUM018'
'PRODNUM025' 'PRODNUM035' 'PRODNUM045' 'PRODNUM050' 'PRODNUM054'
'PRODNUM070' 'PRODNUM075' 'PRODNUM095' 'PRODNUM110' 'PRODNUM119'
'PRODNUM123' 'PRODNUM164' 'PRODNUM165' 'PRODNUM166' 'PRODNUM167'
'PRODNUM192' 'PRODNUM194' 'PRODNUM204' 'PRODNUM208' 'PRODNUM209'
'PRODNUM215' 'PRODNUM219' 'PRODNUM225' 'PRODNUM448' 'PRODNUM535'
'PRODNUM538' 'PRODNUM539' 'PRODNUM550' 'PRODNUM555' 'PRODNUM557'
'PRODNUM560' 'PRODNUM633' 'PRODNUM645' 'PRODNUM646' 'PRODNUM678'
'31DEC2013'D / CPU=CPU000;
SAVE; RUN;
*PRODNUM000 = BASE Base SAS;
*PRODNUM001 = STAT SAS/STAT;
*PRODNUM002 = GRAPH SAS/GRAPH;
*PRODNUM003 = ETS SAS/ETS;
*PRODNUM004 = FSP SAS/FSP;
*PRODNUM005 = OR SAS/OR;
*PRODNUM006 = AF SAS/AF;
*PRODNUM007 = IML SAS/IML;
*PRODNUM008 = QC SAS/QC;
*PRODNUM010 = SHARE SAS/SHARE;
*PRODNUM012 = LAB SAS/LAB;
*PRODNUM013 = ASSIST SAS/ASSIST;
*PRODNUM015 = CONNECT SAS/CONNECT;
*PRODNUM018 = INSIGHT SAS/INSIGHT;
*PRODNUM025 = EIS SAS/EIS;
*PRODNUM035 = SHARENET SAS/SHARE*NET;
*PRODNUM045 = MDDB SAS OLAP Server;
*PRODNUM050 = DMINESOL Enterprise Miner Server;
*PRODNUM054 = INTRNET SAS/Intrnet;
*PRODNUM070 = MDDBCOM MDDB Server common procts;
*PRODNUM075 = INTTECHSRV SAS Integration Technologies;
*PRODNUM095 = SECUREWBNDL SAS/Secure Windows;
*PRODNUM110 = SASOLAPBNDL SAS OLAP Server;
*PRODNUM119 = EGUIDE SAS Enterprise Guide;
*PRODNUM123 = ESRIBRDGORD SAS Bridge for ESRI;
*PRODNUM164 = OROPT SAS/OR Optimization;
*PRODNUM165 = ORPRS SAS/OR Project and Resource Scheling;
*PRODNUM166 = ORIVS SAS/OR Interactive Visualization and Simulation;
*PRODNUM167 = ORLSO SAS/OR Local Search Optimization;
*PRODNUM192 = DB2BNDL SAS/ACCESS DB2;
*PRODNUM194 = ORACLEBNDL SAS/ACCESS ORACLE;
*PRODNUM204 = SYBASE SAS/ACCESS SYBASE SQL;
*PRODNUM208 = PCFILE SAS/ACCESS PC File Formats;
*PRODNUM209 = ODBC SAS/ACCESS ODBC;
*PRODNUM215 = OLEDB SAS/ACCESS TO OLE DB;
*PRODNUM219 = TERADATABNDL SAS/ACCESS Teradata;
*PRODNUM225 = MYSQL SAS/ACCESS Intface MYSQL;
*PRODNUM448 = DMINEDESKTOP SAS Enterprise Miner for Desktop;
*PRODNUM535 = STATSTUDIO SAS/IML Studio;
*PRODNUM538 = WKSPSRVLOCAL SAS Workspace Server for Local Access;
*PRODNUM539 = WKSPSRVENT SAS Workspace Server for Enterprise Access;
*PRODNUM550 = NETEZZABNDL SAS/ACCESS Netezza;
*PRODNUM555 = ASTERBNDL SAS/ACCESS Interface to Aster nCluster;
*PRODNUM557 = GREENPLMBNDL SAS/ACCESS Interface to Greenplum;
*PRODNUM560 = SYBASEIQBNDL SAS/ACCESS Interface to Sybase IQ;
*PRODNUM633 = DFTRANDRVR DataFlux Driver for Transactional Database;
*PRODNUM645 = DFFEDSAS SAS Framework Data Server;
*PRODNUM646 = DFSCRFEDSAS DataFlux Secure;
*PRODNUM678 = AMOEXCEL SAS Add-in for Microsoft Excel;
*LICENSE=SAS 000061115869;
*SITEID=564803;
*0057240018 9.3;
*XYZ 564803;
$_Stream=--------------------- END ---------------------
$_Filename=tletter.txt
$_Path=.\
$_Date=
$_Time=
$_Stream=-------------------- BEGIN --------------------
Microsoft Windows Workstation for x64
Base SAS 31DEC2013
Ecation Analytical Suite 31DEC2013
SAS Bridge for ESRI 31DEC2013
SAS Enterprise Guide 31DEC2013
SAS Enterprise Miner for Desktop 31DEC2013
SAS Integration Technologies 31DEC2013
SAS OLAP Server 31DEC2013
SAS/ACCESS Interface to Aster nCluster 31DEC2013
SAS/ACCESS Interface to DB2 31DEC2013
SAS/ACCESS Interface to Greenplum 31DEC2013
SAS/ACCESS Interface to MySQL 31DEC2013
SAS/ACCESS Interface to Netezza 31DEC2013
SAS/ACCESS Interface to ODBC 31DEC2013
SAS/ACCESS Interface to OLE DB 31DEC2013
SAS/ACCESS Interface to Oracle 31DEC2013
SAS/ACCESS Interface to PC Files 31DEC2013
SAS/ACCESS Interface to Sybase 31DEC2013
SAS/ACCESS Interface to Sybase IQ 31DEC2013
SAS/ACCESS Interface to Teradata 31DEC2013
SAS/AF 31DEC2013
SAS/ASSIST 31DEC2013
SAS/CONNECT 31DEC2013
SAS/EIS 31DEC2013
SAS/ETS 31DEC2013
SAS/FSP 31DEC2013
SAS/GRAPH 31DEC2013
SAS/IML 31DEC2013
SAS/INSIGHT 31DEC2013
SAS/IntrNet 31DEC2013
SAS/LAB 31DEC2013
SAS/OR 31DEC2013
SAS/QC 31DEC2013
SAS/SECURE Windows 31DEC2013
SAS/SHARE 31DEC2013
SAS/STAT 31DEC2013
$_Stream=--------------------- END ---------------------
[_EOF_]
最關鍵點: SID中的
Order=99CKGN
Setnumid=70082279
應調整成與SAS9.3安裝文件目錄下order_data/.../order.xml中的一致
二、正式安裝
1、啟動安裝程序setup.exe
2、語言選為中文(或英文)
3、終端用戶任務 -->安裝SAS軟體,即默認項
(select Deployment Task End User Tasks --> Install SAS software )
4、因為安裝的組件比較簡單,所以這里選擇「安裝SAS foundation和相關軟體」,而不必選擇「執行計劃的部署」 (select Deployment type --> Install SAS Foundation and Related Software)
5、選擇要安裝的產品(select Procts to Install) <Select All>我此處僅僅選擇了SAS foundation,還有office plugin插件
6、select SAS Foundation Procts <Select All>,,我其實沒有選擇DB2等不需要的資料庫介面,甚至EG都沒要。
7、指定SAS安裝數據(SID)文件(Specify SAS Installation Data File )
如: D:\SAS 9.3 64bit_CUB\SAS93Win64install\sid_files\SAS9.3 X64_2013_SID.txt
如果sid_files目錄中僅一個SID文件,SAS會自動讀取路徑
8、選擇語言支持(select Language Support )
默認支持英文,就只再添了一個簡體中文Chinese Simplified
9、 選擇區域設置(select Regional Settings )
中文(中國) Chinese (China) [zh_CN] 即默認值
此處的「配置為unicode伺服器」可以不打勾。
10、選擇JAVA運行時環境(select Java Runtime Environment )
--> 選擇現有的java運行時環境(select an existing Java Runtime Environment )
--> C:\Program Files (x86)\Java\jre7\ 即准備階段得到的
如果彈出防火牆警報,選擇 <允許訪問>
可能有:11、指定Internet瀏覽器(Specify Internet Browser) 自定義
可能有:12、 指定SAS/GRAPH Java Applet部署目錄(Specify SAS/GRAPH Java Applet Deployment Directory) 自定義部署目錄
13、 選擇SAS PC文件伺服器系統服務選項(select SAS PC Files Server System Service Option) 不需要windows啟動時自動啟動, 去掉勾
可能有:14、 指定SAS PC文件伺服器埠(Specify SAS PC Files Server Port) 9621 即默認值
可能有:15、 SAS環境URL (SAS Environments URL) 空著
16、指定SAS Text Analytics Document Conversion 主機和埠( Specify SAS Text Analytics Document Conversion Host and Port) 7111 即默認值
17、正在檢查系統( Checking System) , OK
18、Deployment in Progress 不到半小時 (I5處理器,4G內存,1T 7200rpm硬碟,顯示大約佔用4G硬碟空間)
完成安裝
三、其他問題:
1、 僅選擇需要的模塊。
網上教程選擇組件時都選擇「全選」。其實如果全選,後續需要的配置也越麻煩。很多功能都用不上,建議保持默認,甚至只安裝自己需要的模塊,一路安裝只需要填寫安裝路徑與JAVA環境路徑。
2、 如果不是一次成功安裝,有時會卡在磁碟空間檢查的某個百分比上。
原因:安裝目錄下 \Program Files\SASHome在驗證磁碟時候,會生成很多測試文件,而安裝失敗強制停止,會留下文件垃圾,並影響下次安裝驗證。
解決:每一次安裝前,都刪除SAShome目錄下所有文件,磁碟驗證就可以順利通過。
3、安裝程序階段,有幾個組件報錯,一般都不重要,忽略之。
4、安裝成功後,在windows開始菜單SAS-Utilitis -->續訂SAS軟體,可導入最新SID。
② SQL2005增加了哪些新功能
SQL Server 2005 SP3 中的新增功能
Microsoft SQL Server 2005 Service Pack 3 (SP3) 包含 SQL Server 2005 的所有累積更新,還包含通過我們的客戶反饋平台報告的問題的修補程序。其中包括在可支持性方面的增強,以及通過 Windows 錯誤報告功能報告的問題。
另外,還新增或者改善了以下組件的功能。
資料庫引擎
默認情況下,在運行 SQL Server 2005 SP3 的伺服器上使用 DBCC CHECKDB、DBCC CHECKALLOC、DBCC CHECKTABLE 或 DBCC CHECKFILEGROUP 命令時,會顯示所有的錯誤消息。無論是指定或者省略了 ALL_ERRORMSGS 選項,它都不起作用。在早期版本的 SQL Server 中,如果不指定 ALL_ERRORMSGS,則對於每個對象,只顯示前 200 條錯誤消息。
Notification Services
此 SQL Server 2005 Notification Services 組件發行版支持針對 SQL Server 2005 資料庫引擎或 SQL Server 2008 資料庫引擎實例運行 SQL Server 2005 Notification Services。
復制
更新了 sp_showpendingchanges 存儲過程,添加了新的參數 @show_rows。此參數可以幫助確定訂閱伺服器掛起的更改。有關詳細信息,請參閱 sp_showpendingchanges (Transact-SQL)。
Reporting Services
支持創建基於 Teradata 資料庫的報表模型。通過使用 Business Intelligence Development Studio 中的模型設計器和報表管理器,可以生成基於運行版本 12.00 或版本 6.20 的 Teradata 資料庫的報表模型。有關詳細信息,請參閱創建和使用基於 Teradata 的報表模型。
對 PDF 呈現擴展插件進行了更改,支持 ANSI 字元,並且可以從日語、朝鮮語、繁體中文、簡體中文、西里爾語、希伯來語和阿拉伯語轉換 Unicode 字元。如果可能,PDF 呈現擴展插件現在會將顯示報表所需的每個字體的子集嵌入到 PDF 文件中。有關詳細信息,請參閱針對 PDF 輸出進行設計。
與本機模式相比,在 SharePoint 集成模式中運行報表通常要慢一些。這一滯後時間主要是由於 SharePoint 對象模型調用導致的。在 SQL Server 2005 SP3 中,SQL Server 2005 Reporting Services (SSRS) 進行的 SharePoint 對象模型調用數得到了優化。此優化減少了與本機模式之間的某些報表性能滯後時間。
③ sql developer 支持teradata嗎
用Toad 來管理資料庫,今天小研究了一下SQL Developer工具,安裝好oracle 之後,默認就安裝了SQL Developer,安裝目錄是$ORACLE_HOME/sqldeveloper,第一次啟動時會提示需要輸入Java的目錄,注意這里要求是JavaSE,JRE不行。
④ 高分求teradata linux(centos6.4 32位) 服務端安裝包 最如果成功 高分回贈
https://downloads.teradata.com/download/tools/teradata-studio-express
相信這就是你要找的吧。
自己編譯下,下面有文檔說明。
⑤ 當用jdbc連接Teradata時出現如下錯誤信息
1、檢查資料庫是否啟動
2、檢查網路是否連通,可使用ping來測試
⑥ 目前哪些NoSQL資料庫應用廣泛,各有什麼特點
特點:
它們可以處理超大量的數據。
它們運行在便宜的PC伺服器集群上。
PC集群擴充起來非常方便並且成本很低,避免了「sharding」操作的復雜性和成本。
它們擊碎了性能瓶頸。
NoSQL的支持者稱,通過NoSQL架構可以省去將Web或Java應用和數據轉換成SQL友好格式的時間,執行速度變得更快。
「SQL並非適用於所有的程序代碼,」 對於那些繁重的重復操作的數據,SQL值得花錢。但是當資料庫結構非常簡單時,SQL可能沒有太大用處。
沒有過多的操作。
雖然NoSQL的支持者也承認關系資料庫提供了無可比擬的功能集合,而且在數據完整性上也發揮絕對穩定,他們同時也表示,企業的具體需求可能沒有那麼多。
Bootstrap支持
因為NoSQL項目都是開源的,因此它們缺乏供應商提供的正式支持。這一點它們與大多數開源項目一樣,不得不從社區中尋求支持。
優點:
易擴展
NoSQL資料庫種類繁多,但是一個共同的特點都是去掉關系資料庫的關系型特性。數據之間無關系,這樣就非常容易擴展。也無形之間,在架構的層面上帶來了可擴展的能力。
大數據量,高性能
NoSQL資料庫都具有非常高的讀寫性能,尤其在大數據量下,同樣表現優秀。這得益於它的無關系性,資料庫的結構簡單。一般MySQL使用 Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,在針對web2.0的交互頻繁的應用,Cache性能不高。而NoSQL的 Cache是記錄級的,是一種細粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了。
靈活的數據模型
NoSQL無需事先為要存儲的數據建立欄位,隨時可以存儲自定義的數據格式。而在關系資料庫里,增刪欄位是一件非常麻煩的事情。如果是非常大數據量的表,增加欄位簡直就是一個噩夢。這點在大數據量的web2.0時代尤其明顯。
高可用
NoSQL在不太影響性能的情況,就可以方便的實現高可用的架構。比如Cassandra,HBase模型,通過復制模型也能實現高可用。
主要應用:
Apache HBase
這個大數據管理平台建立在谷歌強大的BigTable管理引擎基礎上。作為具有開源、Java編碼、分布式多個優勢的資料庫,Hbase最初被設計應用於Hadoop平台,而這一強大的數據管理工具,也被Facebook採用,用於管理消息平台的龐大數據。
Apache Storm
用於處理高速、大型數據流的分布式實時計算系統。Storm為Apache Hadoop添加了可靠的實時數據處理功能,同時還增加了低延遲的儀錶板、安全警報,改進了原有的操作方式,幫助企業更有效率地捕獲商業機會、發展新業務。
Apache Spark
該技術採用內存計算,從多迭代批量處理出發,允許將數據載入內存做反復查詢,此外還融合數據倉庫、流處理和圖計算等多種計算範式,Spark用Scala語言實現,構建在HDFS上,能與Hadoop很好的結合,而且運行速度比MapRece快100倍。
Apache Hadoop
該技術迅速成為了大數據管理標准之一。當它被用來管理大型數據集時,對於復雜的分布式應用,Hadoop體現出了非常好的性能,平台的靈活性使它可以運行在商用硬體系統,它還可以輕松地集成結構化、半結構化和甚至非結構化數據集。
Apache Drill
你有多大的數據集?其實無論你有多大的數據集,Drill都能輕松應對。通過支持HBase、Cassandra和MongoDB,Drill建立了互動式分析平台,允許大規模數據吞吐,而且能很快得出結果。
Apache Sqoop
也許你的數據現在還被鎖定於舊系統中,Sqoop可以幫你解決這個問題。這一平台採用並發連接,可以將數據從關系資料庫系統方便地轉移到Hadoop中,可以自定義數據類型以及元數據傳播的映射。事實上,你還可以將數據(如新的數據)導入到HDFS、Hive和Hbase中。
Apache Giraph
這是功能強大的圖形處理平台,具有很好可擴展性和可用性。該技術已經被Facebook採用,Giraph可以運行在Hadoop環境中,可以將它直接部署到現有的Hadoop系統中。通過這種方式,你可以得到強大的分布式作圖能力,同時還能利用上現有的大數據處理引擎。
Cloudera Impala
Impala模型也可以部署在你現有的Hadoop群集上,監視所有的查詢。該技術和MapRece一樣,具有強大的批處理能力,而且Impala對於實時的SQL查詢也有很好的效果,通過高效的SQL查詢,你可以很快的了解到大數據平台上的數據。
Gephi
它可以用來對信息進行關聯和量化處理,通過為數據創建功能強大的可視化效果,你可以從數據中得到不一樣的洞察力。Gephi已經支持多個圖表類型,而且可以在具有上百萬個節點的大型網路上運行。Gephi具有活躍的用戶社區,Gephi還提供了大量的插件,可以和現有系統完美的集成到一起,它還可以對復雜的IT連接、分布式系統中各個節點、數據流等信息進行可視化分析。
MongoDB
這個堅實的平台一直被很多組織推崇,它在大數據管理上有極好的性能。MongoDB最初是由DoubleClick公司的員工創建,現在該技術已經被廣泛的應用於大數據管理。MongoDB是一個應用開源技術開發的NoSQL資料庫,可以用於在JSON這樣的平台上存儲和處理數據。目前,紐約時報、Craigslist以及眾多企業都採用了MongoDB,幫助他們管理大型數據集。(Couchbase伺服器也作為一個參考)。
十大頂尖公司:
Amazon Web Services
Forrester將AWS稱為「雲霸主」,談到雲計算領域的大數據,那就不得不提到亞馬遜。該公司的Hadoop產品被稱為EMR(Elastic Map Rece),AWS解釋這款產品採用了Hadoop技術來提供大數據管理服務,但它不是純開源Hadoop,經過修改後現在被專門用在AWS雲上。
Forrester稱EMR有很好的市場前景。很多公司基於EMR為客戶提供服務,有一些公司將EMR應用於數據查詢、建模、集成和管理。而且AWS還在創新,Forrester稱未來EMR可以基於工作量的需要自動縮放調整大小。亞馬遜計劃為其產品和服務提供更強大的EMR支持,包括它的RedShift數據倉庫、新公布的Kenesis實時處理引擎以及計劃中的NoSQL資料庫和商業智能工具。不過AWS還沒有自己的Hadoop發行版。
Cloudera
Cloudera有開源Hadoop的發行版,這個發行版採用了Apache Hadoop開源項目的很多技術,不過基於這些技術的發行版也有很大的進步。Cloudera為它的Hadoop發行版開發了很多功能,包括Cloudera管理器,用於管理和監控,以及名為Impala的SQL引擎等。Cloudera的Hadoop發行版基於開源Hadoop,但也不是純開源的產品。當Cloudera的客戶需要Hadoop不具備的某些功能時,Cloudera的工程師們就會實現這些功能,或者找一個擁有這項技術的合作夥伴。Forrester表示:「Cloudera的創新方法忠於核心Hadoop,但因為其可實現快速創新並積極滿足客戶需求,這一點使它不同於其他那些供應商。」目前,Cloudera的平台已經擁有200多個付費客戶,一些客戶在Cloudera的技術支持下已經可以跨1000多個節點實現對PB級數據的有效管理。
Hortonworks
和Cloudera一樣,Hortonworks是一個純粹的Hadoop技術公司。與Cloudera不同的是,Hortonworks堅信開源Hadoop比任何其他供應商的Hadoop發行版都要強大。Hortonworks的目標是建立Hadoop生態圈和Hadoop用戶社區,推進開源項目的發展。Hortonworks平台和開源Hadoop聯系緊密,公司管理人員表示這會給用戶帶來好處,因為它可以防止被供應商套牢(如果Hortonworks的客戶想要離開這個平台,他們可以輕松轉向其他開源平台)。這並不是說Hortonworks完全依賴開源Hadoop技術,而是因為該公司將其所有開發的成果回報給了開源社區,比如Ambari,這個工具就是由Hortonworks開發而成,用來填充集群管理項目漏洞。Hortonworks的方案已經得到了Teradata、Microsoft、Red Hat和SAP這些供應商的支持。
IBM
當企業考慮一些大的IT項目時,很多人首先會想到IBM。IBM是Hadoop項目的主要參與者之一,Forrester稱IBM已有100多個Hadoop部署,它的很多客戶都有PB級的數據。IBM在網格計算、全球數據中心和企業大數據項目實施等眾多領域有著豐富的經驗。「IBM計劃繼續整合SPSS分析、高性能計算、BI工具、數據管理和建模、應對高性能計算的工作負載管理等眾多技術。」
Intel
和AWS類似,英特爾不斷改進和優化Hadoop使其運行在自己的硬體上,具體來說,就是讓Hadoop運行在其至強晶元上,幫助用戶打破Hadoop系統的一些限制,使軟體和硬體結合的更好,英特爾的Hadoop發行版在上述方面做得比較好。Forrester指出英特爾在最近才推出這個產品,所以公司在未來還有很多改進的可能,英特爾和微軟都被認為是Hadoop市場上的潛力股。
MapR Technologies
MapR的Hadoop發行版目前為止也許是最好的了,不過很多人可能都沒有聽說過。Forrester對Hadoop用戶的調查顯示,MapR的評級最高,其發行版在架構和數據處理能力上都獲得了最高分。MapR已將一套特殊功能融入其Hadoop發行版中。例如網路文件系統(NFS)、災難恢復以及高可用性功能。Forrester說MapR在Hadoop市場上沒有Cloudera和Hortonworks那樣的知名度,MapR要成為一個真正的大企業,還需要加強夥伴關系和市場營銷。
Microsoft
微軟在開源軟體問題上一直很低調,但在大數據形勢下,它不得不考慮讓Windows也兼容Hadoop,它還積極投入到開源項目中,以更廣泛地推動Hadoop生態圈的發展。我們可以在微軟的公共雲Windows Azure HDInsight產品中看到其成果。微軟的Hadoop服務基於Hortonworks的發行版,而且是為Azure量身定製的。
微軟也有一些其他的項目,包括名為Polybase的項目,讓Hadoop查詢實現了SQLServer查詢的一些功能。Forrester說:「微軟在資料庫、數據倉庫、雲、OLAP、BI、電子表格(包括PowerPivot)、協作和開發工具市場上有很大優勢,而且微軟擁有龐大的用戶群,但要在Hadoop這個領域成為行業領導者還有很遠的路要走。」
Pivotal Software
EMC和Vmware部分大數據業務分拆組合產生了Pivotal。Pivotal一直努力構建一個性能優越的Hadoop發行版,為此,Pivotal在開源Hadoop的基礎上又添加了一些新的工具,包括一個名為HAWQ的SQL引擎以及一個專門解決大數據問題的Hadoop應用。Forrester稱Pivotal Hadoop平台的優勢在於它整合了Pivotal、EMC、Vmware的眾多技術,Pivotal的真正優勢實際上等於EMC和Vmware兩大公司為其撐腰。到目前為止,Pivotal的用戶還不到100個,而且大多是中小型客戶。
Teradata
對於Teradata來說,Hadoop既是一種威脅也是一種機遇。數據管理,特別是關於SQL和關系資料庫這一領域是Teradata的專長。所以像Hadoop這樣的NoSQL平台崛起可能會威脅到Teradata。相反,Teradata接受了Hadoop,通過與Hortonworks合作,Teradata在Hadoop平台集成了SQL技術,這使Teradata的客戶可以在Hadoop平台上方便地使用存儲在Teradata數據倉庫中的數據。
AMPLab
通過將數據轉變為信息,我們才可以理解世界,而這也正是AMPLab所做的。AMPLab致力於機器學習、數據挖掘、資料庫、信息檢索、自然語言處理和語音識別等多個領域,努力改進對信息包括不透明數據集內信息的甄別技術。除了Spark,開源分布式SQL查詢引擎Shark也源於AMPLab,Shark具有極高的查詢效率,具有良好的兼容性和可擴展性。近幾年的發展使計算機科學進入到全新的時代,而AMPLab為我們設想一個運用大數據、雲計算、通信等各種資源和技術靈活解決難題的方案,以應對越來越復雜的各種難題。
⑦ 請問用軟體做倉庫管理發展前途怎麼樣
數據倉庫技術和前景發展現狀
----計算機系統的功能從數值計算擴展到數據管理距今已有三十多年了。最初的數據管理形式主要是文件系統,少量的以數據片段之間增加一些關聯和語義而構成層次型或網狀資料庫,但數據的訪問必須依賴於特定的程序,數據的存取方式是固定的、死板的。到了1969年,E.F.Codd博士發表了他著名的關系數據模型的論文。此後,關系資料庫的出現開創了數據管理的一個新時代。
----二十多年來,大量新技術、新思路涌現出來並被用於關系資料庫系統的開發和實現:客戶/伺服器體系結構、存儲過程、多線索並發內核、非同步I/O、代價優化,等等,這一切足以使得關系資料庫系統的處理能力毫不遜色於傳統封閉的資料庫系統。而關系資料庫在訪問邏輯和應用上所帶來的好處則遠遠不止這些,SQL的使用已成為一個不可阻擋的潮流,加上近些年來計算機硬體的處理能力呈數量級的遞增,關系資料庫最終成為聯機事務處理系統的主宰。整個80年代直到90年代初,聯機事務處理一直是資料庫應用的主流。然而,應用在不斷地進步。當聯機事務處理系統應用到一定階段的時候,企業家們便發現單靠擁有聯機事務處理系統已經不足以獲得市場競爭的優勢,他們需要對其自身業務的運作以及整個市場相關行業的態勢進行分析,而做出有利的決策。這種決策需要對大量的業務數據包括歷史業務數據進行分析才能得到。在如今這樣激烈的市場競爭環境下,這種基於業務數據的決策分析,我們把它稱之為聯機分析處理,比以往任何時候都顯得更為重要。如果說傳統聯機事務處理強調的是更新資料庫--向資料庫中添加信息,那麼聯機分析處理就是從資料庫中獲取信息、利用信息。因此,著名的數據倉庫專家RalphKimball寫道:「我們花了二十多年的時間將數據放入資料庫,如今是該將它們拿出來的時候了。」
----事實上,將大量的業務數據應用於分析和統計原本是一個非常簡單和自然的想法。但在實際的操作中,人們卻發現要獲得有用的信息並非如想像的那麼容易:第一,所有聯機事務處理強調的是密集的數據更新處理性能和系統的可靠性,並不關心數據查詢的方便與快捷。聯機分析和事務處理對系統的要求不同,同一個資料庫在理論上都難以做到兩全;第二,業務數據往往被存放於分散的異構環境中,不易統一查詢訪問,而且還有大量的歷史數據處於離線狀態,形同虛設;第三,業務數據的模式針對事務處理系統而設計,數據的格式和描述方式並不適合非計算機專業人員進行業務上的分析和統計。因此有人感嘆:20年前查詢不到數據是因為數據太少了,而今天查詢不到數據是因為數據太多了。針對這一問題,人們設想專門為業務的統計分析建立一個數據中心,它的數據從聯機的事務處理系統中來、從異構的外部數據源來、從離線的歷史業務數據中來……這個數據中心是一個聯機的系統,它是專門為分析統計和決策支持應用服務的,通過它可滿足決策支持和聯機分析應用所要求的一切。這個數據中心就叫做數據倉庫。這個概念在90年代初被提出來,如果需要給數據倉庫一個定義的話,那麼數據倉庫就是一個作為決策支持系統和聯機分析應用數據源的結構化數據環境。數據倉庫所要研究和解決的問題就是從資料庫中獲取信息的問題。
----那麼數據倉庫與資料庫(主要指關系資料庫)又是什麼關系呢?回想當初,人們固守封閉式系統是出於對事務處理的偏愛,人們選擇關系資料庫是為了方便地獲得信息。我們只要翻開C.J.Date博士的經典之作《AnIntroctiontoDatabaseSystems》便會發現:今天數據倉庫所要提供的正是當年關系資料庫要所倡導的。然而,「成也蕭何、敗也蕭何」,由於關系資料庫系統在聯機事務處理應用中獲得的巨大成功,使得人們已不知不覺將它劃歸事務處理的范疇;過多地關注於事務處理能力的提高,使得關系資料庫在面對聯機分析應用時又顯得「老革命遇到新問題」--今天的數據倉庫對關系資料庫的聯機分析能力提出了更高的要求,採用普通關系型資料庫作為數據倉庫在功能和性能上都是不夠的,它們必須有專門的改進。因此,數據倉庫與資料庫的區別不僅僅表現在應用的方法和目的方面,同時也涉及到產品和配置上的不同。
----以辨證的眼光來看,數據倉庫的興起實際上是數據管理的一種回歸,是螺旋式的上升。今天的資料庫就好比當年的層次資料庫和網型資料庫,它們面向事務處理;今天的數據倉庫就好比是當年的關系資料庫,它針對聯機分析。所不同的是,今天的數據倉庫不必再為聯機事務處理的特性而無謂奔忙,由於技術的專業化,它可更專心於聯機分析領域的發展和探索。
----從廠商的角度看,經過長期發展,聯機事務處理系統的市場至90年代中期出現飽和跡象,其增長速度明顯減慢。這導致各大資料庫廠商的傳統業務增長面臨嚴峻挑戰,尋求新的業務增長點成為他們的當務之急。數據倉庫的興起無疑為資料庫產品創造了巨大的市場,它將成為本世紀末到下世紀初資料庫市場的一個新的增長點。因此,數據倉庫的概念一開始便伴隨著濃烈的市場炒作。對於廣大用戶來說,只有從自身應用需求出發,破除技術和概念的神秘性,避虛就實,密切關注技術發展的方向,方可獲得滿意的產品、解決方案和經濟效益。
----數據倉庫的概念一經出現,就首先被應用於金融、電信、保險等主要傳統數據處理密集型行業。國外許多大型的數據倉庫在1996~1997年建立。那麼,什麼樣的行業最需要和可能建立數據倉庫呢?有兩個基本條件:第一,該行業有較為成熟的聯機事務處理系統,它為數據倉庫提供客觀條件;第二,該行業面臨市場競爭的壓力,它為數據倉庫的建立提供外在的動力。
數據倉庫的關鍵技術
----那麼,數據倉庫都有哪些組成部分和關鍵技術呢?與關系資料庫不同,數據倉庫並沒有嚴格的數學理論基礎,它更偏向於工程。由於數據倉庫的這種工程性,因而在技術上可以根據它的工作過程分為:數據的抽取、存儲和管理、數據的表現以及數據倉庫設計的技術咨詢四個方面。在此,我們將分別討論每一個環節。
----1.數據的抽取
----數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面。數據倉庫的數據並不要求與聯機事務處理系統保持實時的同步,因此數據抽取可以定時進行,但多個抽取操作執行的時間、相互的順序、成敗對數據倉庫中信息的有效性則至關重要。
----在技術發展上,數據抽取所涉及的單個技術環節都已相對成熟,其中有一些是躲不開編程的,但整體的集成度還很不夠。目前市面上所提供的大多是數據抽取工具。這些工具通過用戶選定源數據和目標數據的對應關系,會自動生成數據抽取的代碼。但抽取工具支持的數據種類是有限的;同時數據抽取過程涉及數據的轉換,它是一個與實際應用密切相關的部分,其復雜性使得不可嵌入用戶編程的抽取工具往往不能滿足要求。因此,實際的數據倉庫實施過程中往往不一定使用抽取工具。整個抽取過程能否因工具的使用而納入有效的管理、調度和維護則更為重要。從市場發展來看,以數據抽取、異構互連產品為主項的數據倉庫廠商一般都很有可能被其他擁有資料庫產品的公司吞並。在數據倉庫的世界裡,它們只能成為輔助的角色。
----2.存儲和管理
----數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性,同時也決定了其對外部數據表現形式。要決定採用什麼產品和技術來建立數據倉庫核心,則需要從數據倉庫的技術特點著手分析。
----數據倉庫遇到的第一個問題是對大量數據的存儲和管理。這里所涉及的數據量比傳統事務處理大得多,且隨時間的推移而累積。從現有技術和產品來看,只有關系資料庫系統能夠擔當此任。關系資料庫經過近30年的發展,在數據存儲和管理方面已經非常成熟,非其他數據管理系統可比。目前不少關系資料庫系統已支持數據分割技術,能夠將一個大的資料庫表分散在多個物理存儲設備中,進一步增強了系統管理大數據量的擴展能力。採用關系資料庫管理數百個GB甚至到TB的數據已是一件平常的事情。一些廠商還專門考慮大數據量的系統備份問題,好在數據倉庫對聯機備份的要求並不高。
----數據倉庫要解決的第二個問題是並行處理。在傳統聯機事務處理應用中,用戶訪問系統的特點是短小而密集;對於一個多處理機系統來說,能夠將用戶的請求進行均衡分擔是關鍵,這便是並發操作。而在數據倉庫系統中,用戶訪問系統的特點是龐大而稀疏,每一個查詢和統計都很復雜,但訪問的頻率並不是很高。此時系統需要有能力將所有的處理機調動起來為這一個復雜的查詢請求服務,將該請求並行處理。因此,並行處理技術在數據倉庫中比以往更加重要。大家可以注意一下,在針對數據倉庫的TPC-D基準測試中,比以往增加了一個單用戶環境的測試,稱為「系統功力」(QppD)。系統的並行處理能力對QppD的值有重要影響。目前,關系資料庫系統在並行處理方面已能做到對查詢語句的分解並行、基於數據分割的並行、以及支持跨平台多處理機的群集環境和MPP環境,能夠支持多達上百個處理機的硬體系統並保持性能的擴展能力。
----數據倉庫的第三個問題是針對決策支持查詢的優化。這個問題主要針對關系資料庫而言,因為其他數據管理環境連基本的通用查詢能力還不完善。在技術上,針對決策支持的優化涉及資料庫系統的索引機制、查詢優化器、連接策略、數據排序和采樣等諸多部分。普通關系資料庫採用B樹類的索引,對於性別、年齡、地區等具有大量重復值的欄位幾乎沒有效果。而擴充的關系資料庫則引入了點陣圖索引的機制,以二進制位表示欄位的狀態,將查詢過程變為篩選過程,單個計算機的基本操作便可篩選多條記錄。由於數據倉庫中各數據表的數據量往往極不均勻,普通查詢優化器所得出的最佳查詢路徑可能不是最優的。因此,面向決策支持的關系資料庫在查詢優化器上也做了改進,同時根據索引的使用特性增加了多重索引掃描的能力。以關系資料庫建立的數據倉庫在應用時會遇到大量的表間連接操作,而連接操作對於關系資料庫來說是一件耗時的事兒。擴充的關系庫中對連接操作可以做預先的定義,我們稱之為連接索引,使得資料庫在執行查詢時可直接獲取數據而不必實施具體的連接操作。數據倉庫的查詢常常只需要資料庫中的部分記錄,如最大的前50家客戶,等等。普通關系資料庫沒有提供這樣的查詢能力,只好將整個表的記錄進行排序,從而耗費了大量的時間。決策支持的關系資料庫在此做了改進,提供了這一功能。此外,數據倉庫的查詢並不需要像事務處理系統那樣精確,但在大容量數據環境中需要有足夠短的系統相應時間。因此,一些資料庫系統增加了采樣數據的查詢能力,在精確度允許的范圍內,大幅度提高系統查詢效率。總之,將普通關系資料庫改造成適合擔當數據倉庫的伺服器有許多工作可以做,它已成為關系資料庫技術的一個重要研究課題和發展方向。可見,對於決策支持的擴充是傳統關系資料庫進入數據倉庫市場的重要技術措施。
----數據倉庫的第四個問題是支持多維分析的查詢模式,這也是關系資料庫在數據倉庫領域遇到的最嚴峻的挑戰之一。用戶在使用數據倉庫時的訪問方式與傳統關系資料庫有很大的不同。對於數據倉庫的訪問往往不是簡單的表和記錄的查詢,而是基於用戶業務的分析模式,即聯機分析。如附圖所示,它的特點是將數據想像成多維的立方體,用戶的查詢便相當於在其中的部分維(棱)上施加條件,對立方體進行切片、分割,得到的結果則是數值的矩陣或向量,並將其製成圖表或輸入數理統計的演算法。
----關系資料庫本身沒有提供這種多維分析的查詢功能,而且在數據倉庫發展的早期,人們發現採用關系資料庫去實現這種多維查詢模式非常低效、查詢處理的過程也難以自動化。為此,人們提出了多維資料庫的概念。多維資料庫是一種以多維數據存儲形式來組織數據的數據管理系統,它不是關系型資料庫,在使用時需要將數據從關系資料庫中轉載到多維資料庫中方可訪問。採用多維資料庫實現的聯機分析應用我們稱之為MOLAP。多維資料庫在針對小型的多維分析應用有較好的效果,但它缺少關系資料庫所擁有的並行處理及大規模數據管理擴展性,因此難以承擔大型數據倉庫應用。這樣的狀態直到「星型模式」在關系資料庫設計中得到廣泛應用才徹底改變。幾年前,數據倉庫專家們發現,關系資料庫若採用「星型模式」來組織數據就能很好地解決多維分析的問題。「星型模式」只不過是資料庫設計中數據表之間的一種關聯形式,它的巧妙之處在於能夠找到一個固定的演算法,將用戶的多維查詢請求轉換成針對該數據模式的標准SQL語句,而且該語句是最優化的。「星型模式」的應用為關系資料庫在數據倉庫領域大開綠燈。採用關系資料庫實現的聯機分析應用稱為ROLAP。目前,大多數廠商提供的數據倉庫解決方案都採用ROLAP。
----在數據倉庫的數據存儲管理領域,從當今的技術發展來看,面向決策支持擴充的並行關系資料庫將是數據倉庫的核心。在市場上,資料庫廠商將成為數據倉庫的中堅力量。
----3.數據的表現
----數據表現是數據倉庫的門面。這是一個工具廠商的天下。它們主要集中在多維分析、數理統計和數據挖掘方面。
----多維分析是數據倉庫的重要表現形式,由於MOLAP系統是專用的,因此,關於多維分析領域的工具和產品大多是ROLAP工具。這些產品近兩年來更加註重提供基於Web的前端聯機分析界面,而不僅僅是網上數據的發布。
----數理統計原本與數據倉庫沒有直接的聯系,但在實際的應用中,客戶需要通過對數據的統計來驗證他們對某些事物的假設,以進行決策。與數理統計相似,數據挖掘與數據倉庫也沒有直接聯系。而且這個概念在現實中有些含混。數據挖掘強調的不僅僅是驗證人們對數據特性的假設,而且它更要主動地尋找並發現蘊藏在數據之中的規律。這聽起來雖然很吸引人,但在實現上卻有很大的出入。市場上許多數據挖掘工具其實不過是數理統計的應用。它們並不是真正尋找出數據的規律,而是驗證盡可能多的假設,其中包括許多毫無意義的組合,最後由人來判斷其合理性。因此,在當前的數據倉庫應用中,有效地利用數理統計就已經能夠獲得可觀的效益。
----4.數據倉庫設計的技術咨詢
----在數據倉庫的實施過程中,有一些更為基本的問題需要解答。它們包括:數據倉庫提供哪些部門使用?不同的部門怎樣發揮數據倉庫的決策效益?數據倉庫需要存放哪些數據?這些數據以什麼樣的結構存放?數據從哪裡裝載?裝載的頻率多少為合適?需要購置哪些數據管理的產品和工具來建立數據倉庫?等等。這些問題依賴於特定的數據倉庫系統,屬於技術咨詢的范疇。
----事實上,數據倉庫絕不是簡單的產品堆砌,它是綜合性的解決方案和系統工程。在數據倉庫的實施過程中,技術咨詢服務至關重要,是一個不可缺少的部分,它甚至於比購買產品更為重要。目前,數據倉庫的技術咨詢主要來自數據倉庫軟體產品的供應商和獨立的針對數據倉庫技術的咨詢公司。
主流廠商及產品
----作為數據管理市場的熱點,近年來有很多公司投入數據倉庫市場的角逐。在此,我們將選擇介紹其中一部分廠商。首先,它們是為中國市場所熟悉的,其產品能夠容易買到。其次,我們主要選擇軟體廠商。第三,這些廠商分為兩大類,一類是擁有資料庫產品背景的,它們將是數據倉庫市場的中堅力量;另一類是工具產品廠商,提供數據倉庫解決方案中的外圍工具(在此不多介紹)。
----數據管理類廠商中主要有(字母排序):IBM,Informix,Microsoft,NCR,Oracle,Sybase等。
----■IBM
----作為數據倉庫領域中的一支勁旅,IBM是一家同時擁有硬體和軟體的廠商。在數據倉庫技術領域,IBM最注目的是其SP/2的MPP硬體環境。近年來,它以開放系統管理了大量超過TB容量的數據倉庫。由於封閉的主機系統一時難以成為數據倉庫中心系統的主流,SP/2等開放的MPP環境必然成為主宰。相比之下,IBM的資料庫軟體表現平常,其數據倉庫核心採用的是DB2UniversalServer(簡稱UDB)的ParallelEdition。IBM的優勢在於業界的聲譽、市場份額、硬體系統和咨詢服務。
----■Informix
----Informix是一家專業的資料庫廠商,其關系資料庫伺服器DynamicServer在傳統聯機事務處理應用中始終占據著穩定而廣泛的市場份額。近年來,數據倉庫成為該公司重要的發展領域之一。在數據倉庫技術上,Informix主要關注在這么幾個方面:第一,並行處理的資料庫伺服器。Informix的ExtendedParallelServer(XPS)專為企業級決策支持系統而設計,採用非共享技術支持群集系統和MPP環境,能夠提供近線性的性能擴展能力。第二,在並行關系資料庫的基礎上,Informix增加了針對決策支持操作的擴展。第三,Informix提供了MetaCubeOLAP中間件,以多層客戶/伺服器結構實現ROLAP解決方案,並在其中集成了基於匯總和采樣的查詢優化機制。
----1998年底,著名的數據倉庫供應商RedBrick並入了Informix,增強了它在數據抽取、數據挖掘以及在行業顧問咨詢方面的實力。目前,Informix將數據倉庫看成產品和服務的集合,將整體解決方案命名為DecisionFrontier。
----■Microsoft
----微軟是以其關系資料庫SQLServer作為它數據倉庫核心的。在數據倉庫領域,微軟的計劃是將Plato(一個OLAP伺服器)和DataTransformationServices(數據轉換服務,包括數據抽取、轉換和裝載能力)作為其SQLServer7.0資料庫的免費組成部分。微軟的OLAP走的是ROLAP的路子,與其數據轉換一樣,屬於常規的解決方案;而並行處理和決策支持擴展則不是SQLServer的強項。因此,整個解決方案仍面向中低端,價格取勝是關鍵。
----為此,微軟在數據倉庫市場中倡導了另一個概念--數據集市(DataMart)。所謂數據集市就是一個面向部門應用的、小型的數據倉庫;所採用的技術與數據倉庫相似,但存儲的內容更加專題化。對於數據集市這樣的規模,微軟的解決方案便可成為理想的選擇。
----■NCR
----NCR是數據倉庫的先驅之一,具有強大的以業務為中心的顧問咨詢力量,在傳統數據倉庫領域有很大的市場。NCR的數據倉庫產品名為TeradataScalableWarehouse,取超大規模數據之意,面向高端數據倉庫市場。NCR的Teradata並非一個開放的資料庫系統,它專為數據倉庫領域而設計的。但在有關數據倉庫性能的TPC-D測試中,Teradata的表現卻很平常,它需要更多的並行處理機。Teradata運行的平台主要是MPP環境,操作系統也是NCR自己的,直到最近才支持Unix和NT。
----NCR是專注於高端數據倉庫的廠商,其Teradata在大規模系統和數據量下表現良好。但它的解決方案也面臨著挑戰:聯機多維分析是它的弱項。
----■Oracle
----Oracle公司早先在數據倉庫上的研究集中在OLAP多維分析上。數年前,Oracle收購了名為IRI的多維資料庫廠商,推出Express多維資料庫,以MOLAP模式提供了聯機分析的解決方案。隨著近年來ROLAP的解決方案漸漸成為主流,在Oracle最新推出的數據倉庫解決方案--OracleDataMartSuite中Oracle以Oracle8EnterpriseServer為數據倉庫伺服器。
----■Sybase
----早在1994年推廣System10的時候,Sybase便在資料庫的大規模並行聯機備份、數據復制、異構資料庫互連等方面做了大量工作。在核心領域,Sybase專門為MPP環境設計了NavigationServer,與SQLServer配合構成大規模並行處理環境。1995年初,Sybase通過收購ExpressWay,推出了第一個與大型關系資料庫結合的點陣圖索引機制--SybaseIQ。目前,Sybase推出的數據倉庫解決方案名叫SybaseWarehouseStudio,其中有通過SybaseIQ加強的AdaptiveServer,以及Power系列的設計、轉換、OLAP工具。但在實際的應用解決方案中,由於市場的原因,Sybase往往需要借用第三方的工具。
數據倉庫未來發展方向
----數據倉庫是數據管理技術和市場上一個方興未艾的領域,有著良好的發展前景。在此,我們將從技術、應用、市場等幾個方面探討數據倉庫的未來發展。
----數據倉庫技術的發展自然包括數據抽取、存儲管理、數據表現和方法論等方面。在數據抽取方面,未來的技術發展將集中在系統集成化方面。它將互連、轉換、復制、調度、監控納入標准化的統一管理,以適應數據倉庫本身或數據源可能的變化,使系統更便於管理和維護。在數據管理方面,未來的發展將使資料庫廠商明確推出數據倉庫引擎,作為伺服器產品與資料庫伺服器並駕齊驅。在這一方面,帶有決策支持擴展的並行關系資料庫將最具發展潛力。在數據表現方面,數理統計的演算法和功能將普遍集成到聯機分析產品中,同時與Internet/Web技術緊密結合,推出適用於Intranet、終端免維護的數據倉庫訪問前端。在這個方面,按行業應用特徵細化的數據倉庫用戶前端軟體將成為產品作為數據倉庫解決方案的一部分。數據倉庫實現過程的方法論將更加普及,將成為資料庫設計的一個明確分支,成為管理信息系統設計的必備。
----計算機應用發展的數據倉庫傾向是數據倉庫發展的推動力。傳統的聯機事務處理系統並不單獨考慮數據倉庫,但實際應用對數據倉庫所能提供的功能卻早有需求。因此,許多事務處理系統近年來陷入一個兩難的境地:在現有系統上增加有限的聯機分析功能,包括復雜的報表和數據匯總操作;一方面嚴重影響了事務處理聯機性能,另一方面統計分析又因系統結構上的種種限制而不能充分體現。其結果是:應用技術的發展是朝著更加細化,更加專業的方向。在新一代的應用系統中,數據倉庫在一開始便被納入系統設計的考慮,聯機分析應用於普遍的事務處理系統之中。在數據管理上,聯機事務處理和數據倉庫在應用中相對獨立,使聯機事務處理系統本身更加簡潔高效,同時分析統計也更為便利。面向行業的數理統計學向更為普遍的應用發展,並集成到應用系統的數據倉庫解決方案中。它們將立足於數據倉庫提供的豐富信息,更好地為業務決策服務。
----在市場上,我們將從廠商和用戶兩個方面看數據倉庫的發展。對於提供數據倉庫產品和解決方案的廠商來說,嚴酷的市場競爭是永恆的主題。未來的發展將是不提供完整解決方案的廠商可能被其他公司收購,例如從事數據抽取、提供專用工具的軟體公司很可能並入大型資料庫廠商而去構建完整的解決方案。能夠持續發展的廠商大致有兩類:一是擁有強大的資料庫、數據管理背景的公司;二是專門提供面向具體行業的、關於數據倉庫實施的技術咨詢的公司。
----從用戶的角度看,數據管理的傳統領域,如金融、保險、電信等行業中的特定應用,如信用分析、風險分析、欺詐檢測等,是數據倉庫的主要市場之外,數據倉庫的應用隨著現代社會商業模式的變革而進一步普及和深入。近年來,一場悄悄的革命正在改變產品製造和提供服務的方式,它就是數字化定製經濟模式。在這個世界裡,用戶可以購買一台根據自己要求組裝的計算機、一條根據自己體形設計的牛仔褲、一種根據自己身體需要而生產的保健葯、一副與自己臉型相配的眼鏡……,大規模的定製不僅是一種製造過程、後勤系統、或者推銷策略,它很可能成為下一世紀企業生產的組織原則,就像成批生產是本世紀的組織原則一樣。在未來大規模定製經濟環境下,數據倉庫將成為企業獲得競爭優勢的關鍵武器。
----總之,數據倉庫是一項基於數據管理和利用的綜合性技術和解決方案,它將成為資料庫市場的新一輪增長點,同時也成為下一代應用系統的重要組成部分。數據倉庫對於廣大計算機用戶,包括中國用戶,並不遙遠;它看得見、摸得著、買得到。數據倉庫技術其實也不神秘,至少比絕大多數統計學定理來得簡單。相信大家必能在數據倉庫的實施和使用中獲得滿意的效果。
⑧ 百度雲推送服務端SDK怎麼用
使用方法如下:⑨ 急急急!!!求解NCR Teradata Data Warehouse如何與該公司的NCR MPP Worldmark 海量並行處理伺服器完美結
很簡單啊,利用數據倉庫與數據挖掘技術中的單點突擊技術,實時控制數據高端傳輸,就可以做到了。