Pagkakaiba sa Pagitan ng Hierarchical at Partitional Clustering

Pagkakaiba sa Pagitan ng Hierarchical at Partitional Clustering
Pagkakaiba sa Pagitan ng Hierarchical at Partitional Clustering

Video: Pagkakaiba sa Pagitan ng Hierarchical at Partitional Clustering

Video: Pagkakaiba sa Pagitan ng Hierarchical at Partitional Clustering
Video: Pagkakaiba ng 2-Dimentional at 3-Dimentional || Tagalog Lesson 2024, Nobyembre
Anonim

Hierarchical vs Partitional Clustering

Ang Clustering ay isang machine learning technique para sa pagsusuri ng data at paghahati sa mga pangkat ng magkatulad na data. Ang mga pangkat na ito o hanay ng magkatulad na data ay kilala bilang mga kumpol. Tinitingnan ng pagsusuri ng cluster ang mga algorithm ng clustering na maaaring awtomatikong makilala ang mga cluster. Ang Hierarchical at Partitional ay dalawang klase ng clustering algorithm. Pinaghihiwa-hiwalay ng mga hierarchical clustering algorithm ang data sa isang hierarchy ng mga cluster. Hinahati ng mga paritional algorithm ang set ng data sa magkahiwalay na mga partisyon.

Ano ang Hierarchical Clustering?

Inuulit ng mga algorithm ng hierarchical clustering ang cycle ng alinman sa pagsasama-sama ng mas maliliit na cluster tungo sa mas malaki o paghahati ng mas malalaking cluster sa mas maliliit. Sa alinmang paraan, gumagawa ito ng hierarchy ng mga kumpol na tinatawag na dendogram. Ginagamit ng diskarte sa agglomerative clustering ang bottom-up na diskarte ng pagsasama-sama ng mga cluster sa mas malaki, habang ang divisive clustering na diskarte ay gumagamit ng top-down na diskarte ng paghahati sa mga mas maliit. Karaniwan, ang matakaw na diskarte ay ginagamit sa pagpapasya kung aling mas malaki/maliit na kumpol ang ginagamit para sa pagsasama/paghahati. Ang Euclidean distance, Manhattan distance at cosine similarity ay ilan sa mga karaniwang ginagamit na sukatan ng pagkakapareho para sa numeric na data. Para sa hindi numeric na data, ginagamit ang mga sukatan gaya ng Hamming distance. Mahalagang tandaan na ang aktwal na mga obserbasyon (mga pagkakataon) ay hindi kailangan para sa hierarchical clustering, dahil ang matrix lamang ng mga distansya ay sapat. Ang Dendogram ay isang visual na representasyon ng mga kumpol, na nagpapakita ng hierarchy nang napakalinaw. Maaaring makakuha ng iba't ibang clustering ang user depende sa antas kung saan pinuputol ang dendogram.

Ano ang Partitional Clustering?

Ang mga algorithm ng partitional clustering ay bumubuo ng iba't ibang partition at pagkatapos ay sinusuri ang mga ito ayon sa ilang pamantayan. Tinukoy din ang mga ito bilang nonhierarchical dahil ang bawat instance ay inilalagay sa eksaktong isa sa k mutually exclusive clusters. Dahil isang set lang ng mga cluster ang output ng isang tipikal na partitional clustering algorithm, ang user ay kinakailangang ipasok ang gustong bilang ng mga cluster (karaniwang tinatawag na k). Isa sa mga pinakakaraniwang ginagamit na partitional clustering algorithm ay ang k-means clustering algorithm. Kinakailangan ng user na ibigay ang bilang ng mga cluster (k) bago magsimula at ang algorithm ang unang magsisimula ng mga center (o centroids) ng mga k partition. Sa madaling sabi, ang k-means clustering algorithm pagkatapos ay nagtatalaga ng mga miyembro batay sa kasalukuyang mga sentro at muling tinatantya ang mga sentro batay sa mga kasalukuyang miyembro. Ang dalawang hakbang na ito ay paulit-ulit hanggang sa ma-optimize ang isang partikular na intra-cluster na pagkakatulad na layunin ng layunin at inter-cluster na dissimilarity na layunin. Samakatuwid, ang makabuluhang pagsisimula ng mga center ay isang napakahalagang salik sa pagkuha ng mga resulta ng kalidad mula sa mga partitional clustering algorithm.

Ano ang pagkakaiba ng Hierarchical at Partitional Clustering?

Ang Hierarchical at Partitional Clustering ay may mga pangunahing pagkakaiba sa oras ng pagtakbo, mga pagpapalagay, mga parameter ng input at mga resultang cluster. Karaniwan, ang partitional clustering ay mas mabilis kaysa sa hierarchical clustering. Ang hierarchical clustering ay nangangailangan lamang ng isang sukat ng pagkakatulad, habang ang partitional clustering ay nangangailangan ng mas malakas na mga pagpapalagay tulad ng bilang ng mga cluster at ang mga paunang sentro. Ang hierarchical clustering ay hindi nangangailangan ng anumang mga parameter ng input, habang ang partitional clustering algorithm ay nangangailangan ng bilang ng mga cluster upang magsimulang tumakbo. Ang hierarchical clustering ay nagbabalik ng mas makabuluhan at subjective na dibisyon ng mga cluster ngunit ang partitional clustering ay nagreresulta sa eksaktong k cluster. Ang mga hierarchical clustering algorithm ay mas angkop para sa pangkategoryang data hangga't ang isang sukatan ng pagkakatulad ay maaaring tukuyin nang naaayon.

Inirerekumendang: