[數據解析實驗室]案例分享:「非結構化資料」轉換為「結構化數據」的方法

「URCOSME網站上的產品口碑解析」案例分析

一般來說,社群網站中經常出現的文字式「非結構化資料」,如何進一步分析/解讀/匯總,以萃取出群眾智慧….在非結構化資料在以往的數據中,特別是使用者瀏覽後的心得、留言等,此一形態的UGC(User Generated Content)往往大多數只能提供「閱讀」的功能,而在使用大數據的下一步中,我們將透過一個簡單例子,解釋如何將「非結構的數據」轉換成大數據的一部份。

這是一個化妝品的例子,總共有38篇心得。這些心得中往往都是高度支持的使用者貢獻且極具指標的內容數據,如何在這38篇使用心得中,找到「數據」,首先面臨的是「非結構數據」的困擾,也就是「心得」是以文字組成表達某一種想法,這是一種「給人閱讀」資料,要能讓「機器閱讀」進行分析處理前,需要預備「資料清洗」的工作。

「育成大數據模型-瞭解使用者之於特定產品心得中抽取關心議題」的說明

對非結構化的數據,進行主題歸建,這一部份必須仰賴一個初步的專家系統,一般的做法是透過一套良好的切詞系統,將特定的數據聚集後,透過例如「LDA主題模型」分析文件,計算出基於某些特定主題下,詞組出現的機率。
最常看到的例子是在LDA原始論文中,事先給定了這幾個主題:Arts、Budgets、Children、Education,然後通過機器學習的方式,獲取每個主題Topic對應的詞語。如下圖所示:

在母體計算下找出某個主題機率,並透過一個選定優化的的機率,預測主題下的某個單詞,不斷的重復這兩步驟,最終生成如下圖所示的一篇文章(其中不同顏色的詞語分別對應上圖中不同主題下的詞):

透過一個基於特定議題的專家分析系統,抽取具有特徵的「標籤」,形成課題

實務上,我們將化妝品,先假設具有 Potency 、Effect 、Package 、Price 、Time 這些主題,將所有的心得文章透過LDA的模型計算,產生下列的結果。

如此機器可以輕易將「分詞後的詞組」,進行預測歸屬於哪一個主題。

透過「大數據聚合本體」計算 標籤彼此間的關係。

完成上述LDA模型實現後,我們亦可透過文本分析找出基於主題下詞組間的關聯性,以下的例子即是透過分析特定商品心得所包括的詞組,找出其中詞組的關聯性。

在實驗中,我們可以觀察到當一篇文章中有一個「不悶」的詞出現,簡言之「0.989346」的相似(關)性之於「不膩」。

如此一來,我們便可以將「心得」變成一個「基於某種主題機率」的結構性資料,同時將「詞組」的關聯性「結構化」,轉換成向量結構性型態。

透過這樣的建模方法,「心得」歸建成具有「主題」的結構性資料,同時又透過文本分析,找出「詞組」間的關聯,

這便是一種簡單將「非結構化資料」轉換成「結構化數據」的方法。

綜合上述算法,我們可以把這38篇心得,簡單用一個「圓餅圖」展示「使用者在心得中在意的主題」如下圖,而不再是一堆密密麻麻的文字。

Published by

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s