forsetsystem/backend/core/clustering.py

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
import joblib
import os

import config
from core.preprocessing import get_clean_data


class KMeansAnalyzer:
    def __init__(self, n_clusters=3):
        self.n_clusters = n_clusters
        self.model = None
        self.scaler = MinMaxScaler()
        self.data = None
        self.data_scaled = None
        self.labels = None

    def _get_feature_columns(self, df):
        df.columns = [col.strip() for col in df.columns]

        feature_map = {
            'Age': None,
            'Service time': None,
            'Work load Average/day': None,
            'Body mass index': None,
            'Absenteeism time in hours': None
        }

        for key in feature_map:
            if key in df.columns:
                feature_map[key] = key
            else:
                for col in df.columns:
                    if key.replace(' ', '').lower() == col.replace(' ', '').lower():
                        feature_map[key] = col
                        break

        actual_features = [v for v in feature_map.values() if v is not None]
        return actual_features

    def fit(self, n_clusters=None):
        if n_clusters:
            self.n_clusters = n_clusters

        df = get_clean_data()
        df = df.reset_index(drop=True)

        feature_cols = self._get_feature_columns(df)

        if not feature_cols:
            feature_cols = ['Age', 'Service time', 'Body mass index', 'Absenteeism time in hours']
            feature_cols = [c for c in feature_cols if c in df.columns]

        self.data = df[feature_cols].values

        self.scaler = MinMaxScaler()
        self.data_scaled = self.scaler.fit_transform(self.data)

        self.model = KMeans(
            n_clusters=self.n_clusters,
            random_state=config.RANDOM_STATE,
            n_init=10
        )

        self.labels = self.model.fit_predict(self.data_scaled)

        return self.model

    def get_cluster_results(self, n_clusters=3):
        if self.model is None or self.n_clusters != n_clusters:
            self.fit(n_clusters)

        centers = self.scaler.inverse_transform(self.model.cluster_centers_)

        unique, counts = np.unique(self.labels, return_counts=True)
        total = len(self.labels)

        cluster_names = self._generate_cluster_names(centers)

        feature_cols = self._get_feature_columns(get_clean_data())

        clusters = []
        for i, (cluster_id, count) in enumerate(zip(unique, counts)):
            center_dict = {}
            for j, fname in enumerate(feature_cols):
                if j < len(centers[i]):
                    center_dict[fname] = round(centers[i][j], 2)

            clusters.append({
                'id': int(cluster_id),
                'name': cluster_names.get(cluster_id, f'群体{cluster_id+1}'),
                'member_count': int(count),
                'percentage': round(count / total * 100, 1),
                'center': center_dict,
                'description': self._generate_description(cluster_names.get(cluster_id, ''))
            })

        return {
            'n_clusters': self.n_clusters,
            'clusters': clusters
        }

    def get_cluster_profile(self, n_clusters=3):
        if self.model is None or self.n_clusters != n_clusters:
            self.fit(n_clusters)

        centers_scaled = self.model.cluster_centers_

        df = get_clean_data()
        df.columns = [col.strip() for col in df.columns]
        feature_cols = self._get_feature_columns(df)

        dimensions = ['年龄', '工龄', '工作负荷', 'BMI', '缺勤倾向'][:len(feature_cols)]

        cluster_names = self._generate_cluster_names(
            self.scaler.inverse_transform(centers_scaled)
        )

        clusters = []
        for i in range(self.n_clusters):
            clusters.append({
                'id': i,
                'name': cluster_names.get(i, f'群体{i+1}'),
                'values': [round(v, 2) for v in centers_scaled[i]]
            })

        return {
            'dimensions': dimensions,
            'dimension_keys': feature_cols,
            'clusters': clusters
        }

    def get_scatter_data(self, n_clusters=3, x_axis='Age', y_axis='Absenteeism time in hours'):
        if self.model is None or self.n_clusters != n_clusters:
            self.fit(n_clusters)

        df = get_clean_data()
        df = df.reset_index(drop=True)
        df.columns = [col.strip() for col in df.columns]

        x_col = None
        y_col = None

        for col in df.columns:
            if x_axis.replace(' ', '').lower() in col.replace(' ', '').lower():
                x_col = col
            if y_axis.replace(' ', '').lower() in col.replace(' ', '').lower():
                y_col = col

        if x_col is None:
            x_col = df.columns[0]
        if y_col is None:
            y_col = df.columns[-1]

        points = []
        for idx in range(min(len(df), len(self.labels))):
            row = df.iloc[idx]
            points.append({
                'employee_id': int(row['ID']),
                'x': float(row[x_col]),
                'y': float(row[y_col]),
                'cluster_id': int(self.labels[idx])
            })

        cluster_colors = {
            '0': '#67C23A',
            '1': '#E6A23C',
            '2': '#F56C6C',
            '3': '#909399',
            '4': '#409EFF'
        }

        return {
            'x_axis': x_col,
            'x_axis_name': config.FEATURE_NAME_CN.get(x_col, x_col),
            'y_axis': y_col,
            'y_axis_name': config.FEATURE_NAME_CN.get(y_col, y_col),
            'points': points[:500],
            'cluster_colors': cluster_colors
        }

    def _generate_cluster_names(self, centers):
        names = {}

        for i, center in enumerate(centers):
            if len(center) >= 5:
                service_time = center[1]
                work_load = center[2]
                bmi = center[3]
                absent = center[4]
            else:
                service_time = center[1] if len(center) > 1 else 0
                work_load = 0
                bmi = center[2] if len(center) > 2 else 0
                absent = center[3] if len(center) > 3 else 0

            if service_time > 15 and absent < 3:
                names[i] = '模范型员工'
            elif work_load > 260 and absent > 5:
                names[i] = '压力型员工'
            elif bmi > 28:
                names[i] = '生活习惯型员工'
            else:
                names[i] = f'群体{i+1}'

        return names

    def _generate_description(self, name):
        descriptions = {
            '模范型员工': '工龄长、工作稳定、缺勤率低',
            '压力型员工': '工作负荷大、缺勤较多',
            '生活习惯型员工': 'BMI偏高、需关注健康'
        }
        return descriptions.get(name, '常规员工群体')

    def save_model(self):
        os.makedirs(config.MODELS_DIR, exist_ok=True)
        joblib.dump(self.model, config.KMEANS_MODEL_PATH)

    def load_model(self):
        if os.path.exists(config.KMEANS_MODEL_PATH):
            self.model = joblib.load(config.KMEANS_MODEL_PATH)
            self.n_clusters = self.model.n_clusters


kmeans_analyzer = KMeansAnalyzer()