下一代BI有何不同,從數(shù)睿數(shù)據nextionBI數(shù)據解讀能力

下一代BI有何不同,從數(shù)睿數(shù)據nextionBI數(shù)據解讀能力

2022年2月25日,nextionBI舉辦線上發(fā)布會,這是下一代BI首次正式與大眾見面。nextionBI的定位是數(shù)據融合的增強分析型敏捷BI平臺,面向知識設計,關注知識的積累、發(fā)現(xiàn)與應用。這一定位里的核心是增強分析,但是這一概念與BI怎么結合,在具體場景中如何應用,這是發(fā)布會上很多觀眾關心的問題。因此,數(shù)睿數(shù)據AI科學家車文彬博士,借此機會從發(fā)布會上介紹一個特性“數(shù)據解讀”切入,為大家詳細介紹nextionBI的增強分析的實現(xiàn)過程與最終效果。

01.為什么要做數(shù)據解讀?

數(shù)字化、大數(shù)據、數(shù)據分析這些概念大家已不再陌生,不管是大企業(yè)還是小公司,都明白基于量化的業(yè)務數(shù)據進行分析,得到的結果有助于快速厘清業(yè)務現(xiàn)狀,發(fā)現(xiàn)異常數(shù)據及時識別經營風險。懂這個道理的人很多,但是真正完成這個目標并不是那么簡單。

對于一些對數(shù)據不敏感的人來說,看數(shù)據是個頭疼的事情。自己看不懂,交給數(shù)據分析師看,分析師給出的分析報告,又有很多專業(yè)名詞,雖然是中國話,但還是聽不懂。同時對于專業(yè)數(shù)據分析師來說,從零開始看一張“大寬表”也是一件頭疼的事情,幾百個維度,千萬條數(shù)據,老板要求數(shù)據拿到之后立刻馬上就要看結果,分析師也只能簡單拉個折線圖、餅圖,就開始大談特談。這樣也許一次兩次能忽悠得了老板,但是專業(yè)的數(shù)據分析師都知道這種方式其實很難產出對于業(yè)務真正有價值的信息。嚴謹?shù)臄?shù)據分析需要搜集大量數(shù)據,嘗試多種統(tǒng)計方法和算法模型,才僅僅有可能發(fā)現(xiàn)一些隱性聯(lián)系。這種情況下如果能夠有人提前看一下數(shù)據給出一個基礎判斷,對于分析師開展深度分析會有很大幫助。但在絕大多數(shù)情況下,這個基礎分析也只能分析師自己來做,屬于低效率的重復勞動。

如果能讓數(shù)據能夠主動說“人話”,像為鋼鐵俠服務的“賈維斯”那樣,讓管理人員能夠快速聽到數(shù)據反映的基本趨勢和潛在風險,讓專業(yè)人員能夠對數(shù)據全貌快速做到心中有數(shù),就可以很大程度上提高數(shù)據分析工作的效率。數(shù)據解讀功能的初衷就是幫助用戶快速地了解數(shù)據,發(fā)現(xiàn)數(shù)據表層以及潛在的信息,從而可以更快地進行分析以及利用數(shù)據價值。

02.如何讓數(shù)據說“人話”?

nextionBI利用統(tǒng)計學、機器學習對數(shù)據特征進行分析建模以及自然語言處理,從而生成通俗易懂的數(shù)據解讀。本次發(fā)布的數(shù)據解讀能力包括三個功能模塊:表格描述、圖表描述以及單點解釋。接下來分別詳細介紹每個模塊的技術特點。

表格描述功能會對用戶導入的數(shù)據表格進行內容提取,對表格的標題以及字段進行關鍵詞提取,關鍵詞提取可以在一定程度上精簡文本內容讓人們便捷地瀏覽和獲取信息。利用深度學習算法對提取的關鍵詞進行分類,可以判定表格數(shù)據所屬的行業(yè)領域,分類準確率達到95%以上。目前我們收集的領域包括(醫(yī)藥、汽車、財經、食物、法律)等,后續(xù)也會根據具體業(yè)務場景不斷地豐富語料,支持更多領域的識別,針對不同領域生成不同的數(shù)據解讀。對數(shù)據進行字段類型的判別,在數(shù)據顯性層面:對數(shù)據進行值的統(tǒng)計,分類類別統(tǒng)計,空值以及異常值檢測,時間趨勢、變化趨勢以及同比環(huán)比的計算;在數(shù)據隱性層面挖掘數(shù)據潛在的聯(lián)系:1)利用皮爾遜系數(shù)發(fā)現(xiàn)數(shù)據之間的相關性,發(fā)現(xiàn)兩個變量之間的線性相關程度,雖然不能反映因果關系,但用戶可以根據自己的行業(yè)知識進行判斷。例如銷量與利潤。2)利用FP-Growth算法進行關聯(lián)分析,在數(shù)據復雜度以及計算效率上相較于Apriori算法都有不錯的提升。關聯(lián)分析描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。如“67%的顧客在購買啤酒的同時也會購買尿布”,因此通過合理的啤酒和尿布的貨架擺放或捆綁銷售可提高超市的服務質量和效益。結合上述分析的特征,利用深度學習主題生成模型生成連貫性解釋性強的數(shù)據解讀,幫助用戶做出決策,更好的利用數(shù)據價值。

下一代BI有何不同,從數(shù)睿數(shù)據nextionBI數(shù)據解讀能力

圖的形式是為了更直觀地看清楚數(shù)據整體情況,但很難看到背后的數(shù)據。所以圖表描述功能需要對可視化視圖背后的數(shù)據進行解讀,幫助用戶更好的了解數(shù)據,結合自己的行業(yè)理解寫出完美的分析報告。在表格描述的基礎上融入了圖表的特性,針對不同類型的圖表可以生成不同的解讀。例如:柱狀圖側重量的對比,折線圖側重趨勢變化,餅圖側重占比等。在文本生成過程中,我們融合了規(guī)則模板和文本生成模型,其中為保證文本的可讀性,文本生成模型采用了一種自監(jiān)督的可控文本生成方法??煽匚谋旧傻哪繕?,是控制給定模型基于源文本產生特定屬性的文本。在數(shù)據解讀中使用的特定屬性包括影響文本的領域、主題、實體和風格等。

下一代BI有何不同,從數(shù)睿數(shù)據nextionBI數(shù)據解讀能力

單點解釋是對數(shù)據表格以及可視化圖表中的單個數(shù)據點進行解讀,該數(shù)據點須為聚合計算后的數(shù)據,通過算法結合原始數(shù)據可以分析出這條數(shù)據的組成、分布以及與其他數(shù)據的不同之處。通過對數(shù)據點進行分析,對應原始數(shù)據通過機器學習算法自動選擇特征、數(shù)據建模、模型評估選取得分比較高的特征,通過自然語言處理(NLP)對語義進行理解結合槽位填充生成數(shù)據解釋。

下一代BI有何不同,從數(shù)睿數(shù)據nextionBI數(shù)據解讀能力

單點解釋主要針對可視化圖表底層的數(shù)據進行度量值以及獨特性兩方面解釋:度量值指的是組成聚合特征的數(shù)據,包括(平均值、極端值、記錄數(shù)、空值)并且分析這些維度對聚合特征預期值的影響。預期是我們將原始數(shù)據的其他數(shù)據作為先驗訓練數(shù)據,通過貝葉斯建模,標記數(shù)據作為預測數(shù)據進行運算得出的結果。通過分析每個維度對預期值的影響,生成相應的數(shù)據解讀。獨特性分析主要是為了所選標記與其他數(shù)據之間的區(qū)別,用戶可以根據該維度特性進行專業(yè)分析,挖掘背后的原因,引導激發(fā)用戶分析靈感。

下一代BI有何不同,從數(shù)睿數(shù)據nextionBI數(shù)據解讀能力

03.nextionBI數(shù)據解讀效果如何?

我們選擇目前市場上主流的BI平臺進行對比,國內包含此功能的平臺較少,故我們選擇國外同樣具備該數(shù)據解讀能力的產品進行功能對比。

下一代BI有何不同,從數(shù)睿數(shù)據nextionBI數(shù)據解讀能力

首先我們選擇目前數(shù)據分析師使用較多的TBI產品進行對比,如上圖所示,針對同一組數(shù)據進行數(shù)據解讀,左圖為nextionBI解讀結果,右圖為T BI產品的解讀結果。

在描述維度方面,nextionBI針對于整個表格,涵蓋了多維度描述信息,T BI產品只針對于單個數(shù)據,利用單一貝葉斯模型分析預測。

在使用范圍方面,nextionBI可適用于多列、多種數(shù)據類型組合,而T BI產品對維度和數(shù)據類型均有一定限制。

下一代BI有何不同,從數(shù)睿數(shù)據nextionBI數(shù)據解讀能力

我們也對比了某老牌廠商的PBI產品,針對同一數(shù)據的完成情況如上圖所示。nextionBI的結果涵蓋了分類、同比、環(huán)比、相關性分析、覆蓋縱向橫向等各個維度的描述信息,融合多個模型及規(guī)則信息較為豐富,P BI更多關注統(tǒng)計特性。同時nextionBI結果的可讀性更強,更符合中文數(shù)據匯報的表達習慣,整體上更加通順也更易理解。

總體來說,nextionBI作為后起之秀,在數(shù)據解讀能力的設計和開發(fā)方面,全面分析市場上目前的能力水平和核心需求,針對性地進行研發(fā)和技術攻堅,在描述維度、中文可讀性、適用范圍都積累了自己的優(yōu)勢。在本次發(fā)布會之后,我們將充分收集用戶體驗之后的反饋,不斷優(yōu)化算法設計和功能體驗,希望最終能讓人人盡享數(shù)據價值。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )