May 27, 2005

視覺化資料探勘技術在企業經營管理與製造業生產管理之應用

視覺化資料探勘技術在企業經營管理與製造業生產管理之應用 

 

http://www.datamining.org.tw/information/infocontent1.asp?no=424

 

        容:

 

  由於資訊的發達以及資料流通的迅速,今日無論是製造業或服務業所面臨的一個大問題是:大量而複雜的資料,資料間多重複雜的關係,以及互相牽制的限制條件。如何解讀和了解這些資料,並使其成為有用的資訊,已成為企業保留競爭能力以及對市場變化保持敏捷回應的利器。

 

 

  資料探勘(Data Mining係指從大量資料中抽取出有意義的資訊或特徵,以建立有效的模型及規則。資料探勘的技術可以大概分為自動化或半自動化的方法,自動化法係以事先定義妥善的數學或統計模型或是電腦演算法,來求得預先定義的特徵(pattern)、趨勢(trend)、分類(Classification)、叢集(Clustering)、相關性(relationship)等資訊,此法最大的優點就是在挖掘資訊的過程中可做到完全的自動化,但其最大的缺點也正是因自動化而導致的彈性(flexibility)問題,因所有欲挖掘的資訊都必須要有一已事先定義的模式(model)或特徵(pattern)存在,若是碰到了未定義的特殊模式或特徵時,則可能就會失去了挖掘到有用資訊的機會。

 

 

  半自動化的資料探勘方法主要指視覺化資料探勘(visual data mining,此法利用人類特有的思考創造力、彈性特徵辨識能力、以及對複雜圖形的快速認知能力,來彌補電腦演算法的不具彈性,將大量、多維的資料以圖形化方式呈現,將資料中隱含之資訊以視覺特徵(visual pattern)呈現,利用人類與生俱來的快速視覺特徵辨識能力,快速萃取資料中有用的資訊。視覺化資料探勘結合了人的視覺、認知、創造性思考解決問題的能力,與電腦強大的資料儲存與數值運算能力,形成一個強而有力的資訊吸收環境。

 

 

發展有效的視覺化資料探勘技術時,必須考慮下列問題:

 

 

一、視覺化設計:如何將大量多維的資料顯示在電腦螢光幕上是一項挑戰,困難點之一是:資料是N-維(N ? 3),而目前電腦只能顯示2維或3維資料,如何將N-維資料對映(map)到2D3D空間乃是資料視覺必須先解決之問題。而由於工商管理的資料大多數是抽象之資料,並非像工程資料本身帶有2D3D的意義,目前對於如何將N-維、抽象的資料對映到2D3D空間之問題並沒有一公認的解答,雖然許多學者提出了不同之對映方法,但皆為經驗準則(heuristics-based。視覺化設計之另一項困難點是在於我們並不十分了解人類是如何從圖片或影像中〝萃取〞資訊的,雖然在某些特定的領域有一些視覺認知學的理論可用,但這些理論在視覺設計上發揮之功效其實不大。另外,視覺設計似乎與探討問題的領域有關(domain-specific),而且往往因問題本身定義、目的,人員之背景、經驗以及呈現方式(visual metaphor)不同而影響最後視覺呈現的結果,故資料視覺化很難發展一正式(formal)且具一般性(general)的準則。目前學者提出之視覺化技術大多為依據經驗法則以及嘗試錯誤(trial and error)發展出來的,我們要指出的是:有效的視覺設計除了要符合一些基本的設計法則外,最重要的是要考量問題本身之定義及目的,以及資料本身的涵義(semantic meaning),同樣一組資料可以為了不同的目的而轉換成不同的視覺表達方式,同樣的,依據不同的涵義(semantic meaning),不同的人對同樣一張視覺影像會有不的解讀

 

 

二、資料複雜度簡化:由於電腦螢幕大小的限制以及解析度的關係,若資料影像(visual image)欲呈現大量的資料時,常會造成資料影像太過壅塞而無法呈現該有的資訊,故如何將資料加以適度簡化而仍保留原資料的特性,就成為視覺化很重要的一項前置準備工作。一般而言,資料複雜度之簡化技術可朝三方面進行:簡化資料數量,簡化資料維度,以及直接縮減資料影像。簡化資料數量可利用如群聚(clustering或類神經網路技術M1筆資料減少到M2筆(M2<< M1)。簡化資料維度技術係利用如主元件分析(principal component analysis)或類神經網路技術將每筆資料之維度由N1減少到N2N2 = 2, 3, 4, 5)以方便資料畫圖,而縮減資料影像係利用如反假象(anti-aliasing之技術將影像縮小但仍保留影像上之重要視覺特徵(visual patterns)。

 

 

三、視覺化技術比較與驗證(benchmarking and verification):視覺化系統除了缺乏一正式且具一般性之設計準則外,也缺乏一驗證與比較之準則。主要原因也是視覺化係依賴使用者主觀之視覺認知,很難去客觀定義使用者從一視覺影像上吸收的資訊之「質」與「量」。以往的學者雖然發展出不少視覺化技術,但往往僅應用於某一特定領域的資料,做某一特定之用途,缺乏正式的討論,無法知道方法之一般性。如何定出用作客觀評估資料視覺技術之標竿資料(benchmarking set of data),以及要用哪些標準來衡量,都是值得探討的問題

 

 

四、整合式的資料探勘環境:結合電腦演算法為基礎(algorithm-based)與視覺化(visual mining)之整合式資料探勘技術,可利用電腦自動快速處理大量資料運算的能力,以及人類特有的思考創造能力,彈性特徵辨認能力,共同找出資料中有用的資訊。整合式之資料探勘技術可發揮兩種方法之優點而避開個別方法之缺點。針對此一此整合式之資料探勘環境,有許多有趣值得深思的問題:電腦演算法與視覺技術分別該扮演什麼樣的角色,又如何能整合在一起,相輔相成,都會是有趣的研究課題。

 

 

圖:請參考http://www.iem.yzu.edu.tw/course/datavisual.htm

 

(原本網站的參考連結似乎失效,敬請包含)

 

 

閱讀心得:

 

學了一學期的小世界理論,到後半段所學的Key Graph理論,我們發現這兩個理論之間有許多共通之處,小世界理論提供我們一個跨維度的思維,用跨維度的角度來衡量網路中兩個節點的距離,可以發現比表面所認知更短的距離,這就是小世界理論的現象(二分/多維網路模型),藉由這些經過分類仔細計算的距離判斷其關連,就可以找出串連多個群落的捷徑,發現所謂的滲透性群落,對於致力要擴散整體網路資訊串連的研究(行銷領域)或是及早發現並避免有害訊息擴散的研究(疾病擴散、電力網路鞏固、網路病毒擴散)將會有很大的幫助。

 

小世界理論和Key Graph理論皆有定義所謂強連結和弱連結的關係,並致力於發現那些具有弱連結特性的節點,其中Key Graph認為那些擁有最多弱連結的key point就是chance,而找出chance的方法正是運用了視覺化的網路圖形逐步分析出來的,正好和上文有所呼應,這一連串反覆從資料關聯圖中萃取規則和機會的流程就是「視覺化資料探勘技術」。

 

回歸到這一連串機制的本質和目的,圖形化的呈現是為了提供決策者一個直觀且容易了解的視覺化關聯,雙螺旋理論也提到經過每一次探勘後的結果需要靠人的介入引導更進一步的搜尋方向,所以「圖形化的呈現」和「決策者的主觀意識」這兩大主要的要點需要更進一步的釐清以彌補萃取結果所隱含的風險。

 

上文提到了四點值得後續研究加強的方向:一、視覺化設計、二、資料複雜度簡化、三、視覺化技術比較與驗證(benchmarking and verification)、四、整合式的資料探勘環境。若將這些問題連想自我們所練習的Key Graph流程,我們不難會有所同感,如第一階段的Nhk要取前幾個?associationlink要取到多少門檻值以上?Khk要取到前幾個?Chance要的是既是強關聯也是弱關聯連結最多的節點,還是只要具有後者的特性?

 

這些問題的目的,如其中的Nhk是為了要簡化欲研究的item數量,就是整體網路圖的複雜度;associationlink取到多少門檻值是為了要分出幾群來分析出這些群落之間的關聯;Khk則是要取多少跨越群落連結的節點當做key point的候選者。在這些問題在畢業考時還可以有統一的算法,但是到了企業中,若完全靠決策者的經驗法則似乎還是過於冒險,所以如上文提到的第四點:有效的釐清電腦演算法與視覺技術分別該扮演什麼樣的角色,又如何能整合在一起,相輔相成就很重要了,有了電腦的模擬技術,我們將可在極短的時間內將決策者所假設的分析方向做完整的風險評估與預測,這些評估結果可以提供圖形化萃取結果一個公正且有效的評估機制。

 

        開發出一個半自動化的分析工具是必要的,我相信這塊領域具有極高的潛力,因為它能改善原本Data Mining領域所缺乏的彈性,我們也要學會如何從分析出來的結果中洞悉出哪些key point才是真正重要的,不是所謂的障眼法,一步步的剝開這些薄紗或是加入一些新的催化節點,我們將會發現許多意想不到的結果。

0推薦此文章
Today's Visitors: 0 Total Visitors: 6
Personal Category: Small World Topic: 未分類
Previous in This Category: 一個以產品關聯圖為基礎之資料探勘新方法   Next in This Category: 物理:模擬小世界網路的臨界指標
[Trackback URL]

Post A Comment









Yes No



Please input the magic number:

( Prevent the annoy garbage messages )
( What if you cannot see the numbers? )
Please input the magic number

誰來收藏
Loading ...
unlog_NVPO 0