[數據解析實驗室]基於 產品_使用者評價效果找出相似產品

使用者在發表心得後,同時也會對產品留下評價,來簡述使用後的感覺,這些評價(tags)搜集,對於平台產品後續的應用有極大的助益。如何利用這些tags推薦「相似評價的產品」,協助使用者能更有效率地看到相似評價的產品,我們利用一個簡單的例子來說明UrCosme在推薦上的應用。

例如當某一隻產品的消費者使用心得如下所列示:

此時,如下圖,可利用類似DNA上有ACGT鹼基配對,透過基因排序的相似性,可以確認物種相似的方法..

假設化妝品有26種重要因子,在每個不同產品屬性中,找出將具有代表性的tags,並轉換成有序tokens(A to Z 即字母「A」表示 「不悶」,字母「B」表示保濕…)。特定屬性的產品中,可以利用主成份分析,因子分析等方法,找到具有特徵的tags。將所有心得的tags搜集後,進行分析特定產品使用者評價的「Token Serials」。

依上列此方法,我們將各產品進行「評價DNA序列」:

超智慧DNA特潤修護露 BNJRVFMIGEHOSQDTYKPWLAUC

Q10角鯊修復精華液 NBRJFMSVIQDYGHTPXOKECAWLZU

玻尿酸保濕精華液 BNJMRIGSEFQHXODKTLAPZC

肌因賦活露 NJIGRQMOTVPSDHAKYUFCL

保濕美容液 BNJIERGMFQDSHKOPTUAWCXZL

青春露 RBEINMHDGPVFKLSTCAWYX

極透瞬白淡斑精華 JREOIGHQSMBLCAFDKPU

彈力按摩精華液 BJNIQGFEMTHPODLKCWYUV

重生秘帖 JBRFGSNDVMIHQOUCTPKLYEAWZ

VC微導美白精華液 NOJERBGIMQHLXKSCADF

找出排序相似的關聯性

實驗中先找出主要因子定義了tags,並且透過心得數據分析找出產品的DNA序列(ex. 超智慧DNA特潤修護露 DNA序列 被定義為BNJRVFMIGEHOSQDTYKPWLAUC)

利用Jaro–Winkler_distance字串相似度算法,可以輕易地找出「Tags 排序相似」的關聯。因此可以實現透過「使用者評價Tags」找到相似的產品。

其中The Jaro–Winkler distance (Winkler, 1990)是計算2個字符串之間相似度的一種算法。它是Jaro distance算法的變種。主要用於record linkage/數據連接(duplicate detection/重復記錄)方面的領域,Jaro–Winkler distance最後得分越高說明相似度越大。Jaro–Winkler distance 是適合於串比如名字這樣較短的字符之間計算相似度。0分表示沒有任何相似度,1分則代表完全匹配。

以上即為基於消費者使用心得,計算「產品」與「產品」間相似度的一種實驗方式,提供給大家參考。

Published by

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s