lierre

k-means 클러스터링 예제

다음은 Python의 전체 K-평균 클러스터링 알고리즘 코드입니다: 모든...

02 Août

다음은 Python의 전체 K-평균 클러스터링 알고리즘 코드입니다: 모든 유형의 그룹에 사용할 수 있는 다목적 알고리즘입니다. 사용 사례의 몇 가지 예는 다음과 같습니다 kmeans 알고리즘은 매우 인기가 있으며 시장 세분화, 문서 클러스터링, 이미지 세분화 및 이미지 압축 등과 같은 다양한 응용 프로그램에서 사용됩니다. 일반적으로 클러스터 분석을 수행할 때의 목표는 다음과 같습니다: 데이터 요소가 이제 4개의 다른 클러스터로 그룹화됩니다. k-means 클러스터링 알고리즘은 데이터 점 간의 거리를 최소화하여 함께 그룹화하는 간단한 아이디어를 사용하여 데이터의 구조, 관측값 분류 방법 및 비하인드 스토리를 해석하는 데 매우 유용합니다. K-means 클러스터링은 단일 세포 RNA-seq 및 대량 RNA-seq 실험에서 수천에서 수백만 개의 데이터 포인트를 분석하는 데 데이터 분석, 특히 생명 과학에서 널리 사용되어 왔습니다. 이제 더 이상 재배치가 발생하지 않을 때까지 이 새 파티션에서 반복 재배치가 계속됩니다. 그러나 이 예제에서는 각 개인이 다른 클러스터의 클러스터 평균보다 더 가깝고 반복이 중지되어 최신 분할을 최종 클러스터 솔루션으로 선택합니다. 학습 데이터를 처리하기 위해 데이터 마이닝의 K-means 알고리즘은 모든 클러스터의 시작점으로 사용되는 임의로 선택된 중심의 첫 번째 그룹으로 시작한 다음 반복(반복적) 계산을 수행하여 위치를 최적화합니다. 중심 클러스터링은 거의 모든 필드에서 사용됩니다. 예제 1의 몇 가지 아이디어를 추론하여 많은 클러스터링 응용 프로그램을 만들 수 있습니다. 위의 그래프는 속한 클러스터로 인해 색상이 지정된 데이터의 분산형 플롯을 보여 주며, 이 그래프는 이러한 그래프에 속하는 데이터의 분산형 플롯을 보여 주며, 이 그래프는 이러한 그래프에 속한 클러스터로 인해 색상이 지정되어 있습니다. 이 예제에서는 K=2를 선택했습니다. 기호 `*`는 각 클러스터의 중심입니다.

간헐천은 서로 다른 시나리오에서 서로 다른 종류의 동작을 가지고 있었기 때문에 이러한 2 개의 클러스터를 생각할 수 있습니다. 클러스터링 문제에서 교육 세트 ${x^{(1)}, … … x^{(m)}}를 부여하고 데이터를 몇 가지 응집력 있는 « 클러스터 »로 그룹화하려고 합니다. 여기서는 각 데이터 $x^{(i)} 에서 mathbb{R}^n$에 대해 평소와 같이 피처 벡터가 제공됩니다. 그러나 ^{(i)}$$y 레이블이 없습니다(이 것을 자율 학습 문제로 만들기). 우리의 목표는 각 데이터 포인트에 대해 $k 달러 중심과 레이블 $c^{(i)}를 예측하는 것입니다. K-means 클러스터링 알고리즘은 다음과 같습니다: 5년 이상의 머신 러닝 경험을 가지고 있으며 현재 사람들에게 자신의 기술을 가르치고 있는 AndreyBu는 « K-means의 목적은 간단합니다: 유사한 데이터 포인트를 함께 그룹화하고 기본을 발견합니다. 패턴.

이 목표를 달성하기 위해 K-means는 데이터 집합에서 클러스터의 고정 번호(k)를 찾습니다. » K-means 알고리즘은 사용 가능한 데이터를 분석하여 위의 시나리오 중 어느 것을 결정하는 데 사용될 수 있다. 아래 차트는 결과를 보여줍니다. 시각적으로 K-means 알고리즘이 거리 피처에 따라 두 그룹을 분할하는 것을 볼 수 있습니다. 각 클러스터 중심은 별표로 표시됩니다. k-means 클러스터링을 쉽게 수행하려면 최신 데이터 시각화 및 기계 학습을 위한 끌어서 놓기 패키지인 BioVinci를 사용해 볼 수 있습니다.