面向電信網數據的ETL系統的設計與實現
【摘要】:電信網數據常分布在若干個獨立的信息系統中,具有數據量大、數據結構差異大等特點,數據如何從各個數據源匯聚到目的倉庫中成為數據分析的基礎,需要數據處理工具ETL(Extract-Transform-Load)。傳統的ETL工具難以滿足電信數據的分析要求,為此結合Hadoop生態圈設計一種基于Spark的分布式ETL系統,通過設計批處理層和流處理層可以對電信網中的歷史數據和流數據分別進行數據轉換。測試結果表明,該系統在處理電信網大數據時具有較好的性能,同時可以動態地監控管理ETL任務。
【相似文獻】 | ||
|
|||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|