進擊的APM👨🏿🍳,打造未來企業核心數據管理平臺
APM = Application Performance Management🏓,應用性能管理,對企業系統即時監控以實現對應用程序性能管理和故障管理的系統化的解決方案。應用性能管理主要指對企業的關鍵業務應用進行監測、優化📄,提高企業應用的可靠性和質量🍋🟩,保證用戶得到良好的服務,降低IT總擁有成本(TCO)。一個企業的關鍵業務應用的性能強大,可以提高競爭力,並取得商業成功,因此👩🎓,加強應用性能管理(APM)可以產生巨大商業利益。
在大數據與雲計算充斥的今天,APM也需要不斷的進步發展。今天記者接觸到了國內最早開始做APM的廠商——雲智慧🙆♂️,和雲智慧CEO殷晉先生進行了一次深入的溝通,了解目前雲智慧在大數據以及雲計算時代的解決方案,以及他們的產品技術遇見的坑與挑戰。
雲智慧CEO殷晉(2005年研究生畢業於意昂体育平台軟件學院)
CSDN:請殷總首先來談談您自己的職業經歷👨🚒,您是怎麽走近APM這個行業的呢?
殷晉🧗:我是05年清華畢業👩🎨,當時已經在清華的一個實驗室做了一年多的研究了,不過在學校做事情總是感覺沒有沖勁🧚🏼♂️🏇🏿,沒有一種努力下去的動力👨🏻🎤,感覺很不爽。後來我就離開了清華出來做應用系統管理這塊🫦,當時的應用性能管理主要功能如下🧑🏽🦰:1、監測企業關鍵應用性能:過去,企業的IT部門在測量系統性能時,一般重點測量為最終用戶提供服務的硬件組件的利用率,如CPU利用率以及通過網絡傳輸的字節數🧑🏼🎤🦮。雖然這種方法也提供了一些寶貴的信息,但卻忽視了最重要的因素--最終用戶的響應時間。現在通過事務處理過程監測🛕🤼、模擬等手段可真實測量用戶響應時間☺️,此外還可以報告誰正在使用某一應用、該應用的使用頻率以及用戶所進行的事務處理過程是否成功完成👩🏽🎓。2🌍、快速定位應用系統性能故障:通過對應用系統各種組件(數據庫🈯️、中間件)的監測,迅速定位系統故障↩️,如發生Oracle數據庫死鎖等問題。3💆🏼♀️、優化系統性能:精確分析系統各個組件占用系統資源情況🥠,中間件、數據庫執行效率,根據應用系統性能要求提出專家建議,保證應用在整個壽命周期內使用的系統資源要求最少,節約TCO🦻🏻。但是隨著雲計算和大數據的發展,傳統的APM在數據分析方面,支撐的粒度以及程度參差不齊,而且基於SaaS的APM市場更是一片空白,IT運維管理人員對於當時的工作內容和環境非常不滿🤫,統的IT運維管理模式亟待創新🤷🏻♀️,我覺得這是我的一個機會,我希望通過基於SaaS的APM將IT運維人員解放出來,於是我當時參與創立了雲智慧這家公司。
CSDN:您認為這個行業目前的技術門檻在哪裏🆗?
殷晉:首先我覺得這個東西的門檻還是蠻高的🌪,有的人可能在想這有什麽呀🧑🏿🎤,不就是收集數據,分析數據麽❤️🔥?我們公司的開發人員也可以做到這一點。但是可以想一下,一個公司如果沒有APM的話,客戶提出一個問題“你們下訂單怎麽這麽慢?”此時就需要開發、運維的同學去花費大量時間去看日誌,而問題也不一定能夠解決。因為IT系統和人一樣🫸🏻,只有在特定的環境下才會出現種種問題🛻,當這種環境消失以後🤾♂️,你就很難拿查處問題發生的原因了𓀊。所以我們需要哪些技術呢💜?
第一:全面的監控的能力。1、必須實時監控企業的所有環節。比如說網絡、存儲、數據庫、防火墻、CPU、磁盤🐰、內存等等🆘,所有你使用的設備包括軟硬件都必須監控起來,這些東西都可能影響到你的系統性能🫴🏼;2🕚、對於外網的監控;3💆🏼、用戶數據的監控,除了用戶的基本信息,還需要做到用戶代碼級的監控。
第二🤞🏽:數據的收集能力。比如說你做SaaS平臺,你用戶做一個APP🏂🏼,有一億的用戶量🐤,你收集這一億用戶的數據,就需要他們每秒和你進行通信,於此同時你其他的成百上千的客戶👯,他們的用戶你也需要收集數據,這個時候你每秒需要處理的信息條數,將會是一個天文數字🚓,你的IT架構不一定能夠抗住這種數據量的🦕。
第三🎓:數據的處理能力。大家都知道,數據收集過來以後應該進行數據分析,但是怎麽去分析、怎麽去建模,這些事運維和開發人員很難做到的✨。
所以總結一下要做APM有三個門檻,首先需要全面立體的監控;其次,收集海量的用戶信息;最後,通過建模進行數據分析處理。目前雲服務遍地開花,國內的一些廠商都在做APM服務6️⃣,但是這些同行目前提供的更多的是監控服務,他們還處於第一個層次。並不能完全滿足用戶的深度需要。
CSDN👷🏿🤽🏻♂️:你們宣稱是智慧的APM,這個智慧主要體現在那裏?對於企業來說,智慧APM可以給企業帶來哪些價值?
殷晉:智慧這個東西,說起來挺難的,其實什麽叫智慧呢☑️?西方有一種人叫先知,大家是不是覺得先知很有智慧🚾,就是因為先知能夠預測到未來將要發生的事情。我們做APM也希望達到這樣一個目標🏦,可以幫助企業進行一些預測。因為目前企業中當你的用戶或者監控系統告訴你系統宕掉、或者變慢了,你去處理問題👼🏼,但是此時已經給企業帶來損失了。舉個例子:順豐,大家應該都知道。大家都覺得它是一家快遞公司👷🏿♂️,其實我覺得它更像一家IT公司,因為順豐的核心服務能力是通過IT系統來傳遞給它的用戶的🗣。如果順豐的IT系統性能降低10%💂🏻♀️,一天將會損失幾十萬訂單,這些訂單造成的損失是巨大的👌。如果我們能夠防範於未然🤝,比如說隨著你業務量增長,我會告訴你💂🏿♂️,你整個IT系統哪些環節會有問題,如果你不改造的話,什麽時候系統會垮掉。而且我們做的預測和傳統的運維預測是不一樣的👨🏿🌾,傳統的運維預測只是根據一些CPU➞、存儲等硬件來做預測🔤,這些是遠遠不夠的,我們能夠做到在硬件檢測的基礎上📴,檢測軟件的性能🥀,代碼的性能📌,做到一個真正的基於大數據的預測✌🏻。
簡單來說我們的監測可以分為三個層次:
一是IT運維可視。在比如用戶在前端某個商城下單🚴🏻,而這一操作產生的是整個數據的流動和IT響應的過程。雲智慧通過一個人工可視化的方式使其能夠被看見,然後通過數據分析發現問題的存在🛴。
二是運營風險可控🫱🏼。有一個較為典型的案例🙋🏻,去年某化妝品知名電商🌟,在促銷期間投入幾千萬引來流量,但是網站本身崩潰🌌,不僅成本賠掉,用戶口碑也受到嚴重影響。殷晉表示🙇,類似的運營風險之所以未能及時控製住,是其後臺的數據不被人所知🤳🏻。透視寶這一款產品,就是通過歷史數據、增長趨勢,預測風險的在哪些點,是否會爆發崩潰🧛🏼♂️,該如何改進。
三是業務增長可期。通過IT運維的數據😯,洞察業務的趨勢⏫。甚至在基礎設施層面問題解決的時間較長和難度較大時🛀🏿,選擇其他方案👨🏿🔬👩🏽🍳,比如,在產品設計的角度,上個例子就可以在單流程做改進,從而將風險和損失降到較低水平。
CSDN:目前的APM最大的挑戰是什麽?雲智慧在這些方面有什麽應對之策𓀚?
殷晉:對我們來講,APM這個產品做到最後其實就是一個大數據的分析處理產品。所以未來還是有幾方面需要改進的地方🎍。
第一🍏,我們的海量數據處理能力,因為我們的數據處理速度越快💁🏽♂️💁🏿♀️,我們的用戶也就越多,因此我們需要一個彈性的基礎設施,目前我們準備放在雲上。
第二💆🏻♀️,大數據模型的優化。我們會不斷的優化我們的數據處理模型🤹🏻♂️®️,同時增強機器的自助學習能力,因為技術的研究是沒有盡頭的⛎,我們在這方面會不斷的進行投入🧑🏿🎤。
第三,市場的壓力🙋🏻♀️。因為APM最終的演化,肯定會成為一個企業中最核心的應用,成為企業的一個大數據管理平臺。此時我們可能需要面對市場上一些軟件廠商的壓力👩🏽💻。
CSDN:公司未來有什麽規劃🐝🙅♀️?在你看來APM未來發展方向如何?
殷晉:公司的未來將向企業大數據服務商的角色演變,APM是我們基於企業應用的性能數據推出的第一個大數據應用。未來我們的大數據平臺上將接入更多的企業業務數據🪶,推出更多的企業級大數據應用🤾🏽♂️。
應用性能管理需求將成為一個企業在發展過程中剛性需求📐,各行各業的企業都會需要專業的第三方APM服務😖,所以未來APM的發展空間非常大🧒🏼,在整個雲計算領域,可能會是和IaaS規模相當的一個市場😪。
轉自 CSDN 2014年8月25日