《數據流和批量大數據分析技術Apache Apex提升為Apache頂級項目》要點:
本文介紹了數據流和批量大數據分析技術Apache Apex提升為Apache頂級項目,希望對您有用。如果有疑問,可以聯系我們。
歡迎參與《數據流和批量大數據分析技術Apache Apex提升為Apache頂級項目》討論,分享您的想法,維易PHP學院為您提供專業教程。
數據流和批量大數據分析技術Apache Apex近日被Apache軟件基金會提升為頂級項目.這項技術已被包括第一資本(Capital One)和通用電氣(GE)在內的企業組織使用,可以贊助開發人員更快速地創建充分利用實時數據的應用程序.
Apache Spark日益受到關注,表明了數據流在大數據生態系統中變得到底有多重要.在上個月于圣何塞召開的Strata + Hadoop World大會上,實時數據及支持它的技術也許是最耀眼的明星.
所以,Apache Apex本周被Apache軟件基金會提升為一個頂級項目(TLP)可能并非巧合.面向Hadoop的這個數據流和批量處理引擎被通用電氣Predix物聯網云平臺用于工業數據和分析,并被第一資本用于實時決策和欺詐檢測.
2012年,DataTorrent最初開發了這項技術,后來在2015年8月把它貢獻給了Apache軟件基金會,作為一個孵化器項目.
泰德·鄧寧(Ted Dunning)是Apache孵化器的副總裁,Apache Apex孵化器導師,也是MapR Technologies公司的首席應用架構師.他在一份事先準備好的聲明中說:“Apache Apex這個例子表明,最新一代的高級流處理軟件比之前的方案大大增添了技術和功能.”
Apache Apex能夠在Apache Hadoop上實現數據流分析.其目的在于充分利用Hadoop的兩大組件YARN和Hadoop分布式文件系統(HDFS)提供的基礎設施.Apache軟件基金會在宣布這項技術提升為頂級項目的聲明中表示,Apache Apex是一種大規模、高吞吐量、低延遲、容錯、統一的大數據流和批量處理平臺,面向Hadoop生態系統.
由于企業組織和開發人員將實時分析功能嵌入到流程和應用程序中,面向大數據及分析的數據流技術繼續變得越來越重要.知名調研機構弗雷斯特研究公司在今年3月發布了Wave大數據流分析報告,關注了這個趨勢,還介紹了提供這項技術的一些廠商.
弗雷斯特研究公司的分析師邁克·瓜爾蒂耶里(Mike Gualtieri)和羅恩·柯倫(Rowan Curran)也是這份報告的撰寫者,他們寫道:“弗雷斯特將轉眼即逝的洞察力(perishable insights)定義為緊急的業務情況(風險和機遇),公司只能在短短的時間內檢測這些情況,并采取相應行動.數據流分析辦理方案可以幫助公司檢測高速數據流當中的這類洞察力,并實時采取相應行動.應用程序開發和交付專業人員不應該僅僅認為數據流分析只是一種用于事后分析的‘傳統分析’技術.遠非如此――數據流分析可立即分析數據,分析后善加利用,可以讓各種各樣的應用程序能夠感知場景,并變得更智能化.”
弗雷斯特研究公司將Apache Apex的開發者DataTorrent列入其Wave大數據流分析報告的“領導者”部分,與科技界的一些大牌公司為伍,比如IBM、Software AG、SAP、TIBCO Software、Oracle和SQLstream.
弗雷斯特公司的兩位分析師在報告中寫道:“DataTorrent是硅谷數一數二的數據流初創公司.在雅虎受過培訓的幾位創始人構建了一個數據流平臺,處理世界上最龐大、最快速的數據.”
弗雷斯特公司特別指出,DataTorrent還在竭力實現其他企業級要求,比如可視化開發工具以及包含400多種運算符的庫.
兩位撰寫者得出結論:“DataTorrent的核心現在已開源(作為Apache Apex),不過它想在其他開源數據流方案中脫穎而出將是個艱巨的挑戰.”
Apache軟件基金會在宣布新的頂級項目狀態時表示,Apex讓開發人員可以編寫或重復使用一般的Java代碼,從而簡化開發Hadoop應用程序的工作.這有助于盡量降低編寫應用程序所需的專業技能,因而縮短產品上市時間.
它包括與外部系統集成的連接件,外部系統包括消息總線、數據庫、文件系統和社交媒體源,比如Apache Cassandra、Apache HBase、JDBC和Apache Kafka.