
近日,亞馬遜云科技針對數據及數據分析等服務持續發力,推出引領大數據未來的“智能湖倉”架構,并從2021年初至今在由光環新網和西云數據運營的中國區域總共上線了近40項相關服務和特性。亞馬遜云科技“智能湖倉”架構將亞馬遜云科技全面而深入的數據服務無縫集成,打通了數據湖和數據倉庫之間的數據移動和訪問,并且進一步實現了數據在數據湖、數據倉庫,以及在數據查詢、數據分析、機器學習等各類專門構建的服務之間按需移動,從而形成統一且連續的整體,滿足客戶各種實際業務場景下的不同需求。亞馬遜云科技“智能湖倉”架構具有靈活擴展、專門構建、數據融合、深度智能和開源開放五大特點,涵蓋數據源、數據攝取層、存儲層、目錄層、數據處理層和消費層六層架構,可幫助客戶輕松應對海量業務數據,充分挖掘數據價值。
亞馬遜云科技“智能湖倉”架構以Amazon Simple Storage Service(Amazon S3)為基礎構建數據湖,作為中央存儲庫,圍繞數據湖集成專門的“數據服務環”,包括數據倉庫、機器學習、大數據處理、日志分析等數據服務,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,實現數據湖的構建、數據的移動和管理等。
- 靈活擴展,安全可靠。亞馬遜云科技“智能湖倉”架構用Amazon S3作為數據湖的存儲基礎,客戶可根據不斷變化的需求,靈活擴展或縮減存儲資源。Amazon S3可達到 99.999999999%(11 個 9)的數據持久性,且具有強大的安全性、合規性和審計功能。
- 專門構建,極致性能。為了滿足客戶不同的數據分析需求,亞馬遜云科技提供全面而深入的、專門構建的數據分析服務,包括交互式查詢服務Amazon Athena、云上大數據平臺Amazon EMR、日志分析服務Amazon Elasticsearch Service、Amazon Kinesis、云數據倉庫Amazon Redshift等。這些專門構建的數據分析服務為客戶提供了極致性能,客戶在使用過程中不必在性能、規模或成本之間做出任何妥協。其中Amazon Redshift的性價比是其他企業云數據倉庫的三倍,AQUA(分布式硬件加速緩存)使 Redshift 查詢的運行速度比其他其他云數據倉庫最高快 10 倍;Amazon EMR運行大數據處理及分析服務的成本不到傳統本地解決方案的一半,但其速度比標準 Apache Spark 快 3 倍以上。
- 數據融合,統一治理。亞馬遜云科技“智能湖倉”架構不止是打通了數據湖、數據倉庫,還進一步將數據湖、數據倉庫以及所有其它數據服務組成統一且連續的整體。在實際應用場景中,數據需要在這些服務與數據存儲方案之間,以及服務與服務之間按需來回移動,跨服務訪問。亞馬遜云科技“智能湖倉”架構降低了數據融合與數據共享時統一安全管控和數據治理的難度。其中,Amazon Glue提供數據無縫流動能力,Amazon Lake Formation提供了快速構建湖倉、簡化安全與管控的全面數據管理能力。
- 敏捷分析,深度智能。亞馬遜云科技將數據、數據分析服務與機器學習服務無縫集成,為客戶提供更智能的服務。例如Amazon Aurora ML、Amazon Redshift ML、Neptune ML等,數據庫開發者只需使用熟悉的 SQL 語句,就能進行機器學習操作;Amazon Glue、Amazon Athena ML、Amazon QuickSight Q等,可以幫助用戶使用熟悉的技術,甚至自然語言來使用機器學習,幫助企業利用數據做出更好的決策。用戶還可以通過機器學習服務Amazon SageMaker、個性化推薦服務Amazon Personalize等挖掘數據智能。
- 擁抱開源,開放共贏。亞馬遜云科技“智能湖倉”架構中的關鍵組件如Amazon EMR、Amazon Elasticserach Service、Amazon MSK的核心都基于開源代碼,接口與開源完全兼容,無需改變任何代碼就可以實現遷移,也兼容主流的管理工具。OpenSearch 基于開放的Apache2.0 授權,其代碼完全開放,用戶可以免費下載使用并獲得企業級的功能。這些服務允許用戶在轉型過程中,以非常低的改造成本向云端遷移。
(美通社,2021年7月9日北京)