X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .
[{{mminutes}}:{{sseconds}}] Ожидаем начала...    
scikit-learn
(0)       Использует 1 человек
Описание:
scikit-learn
Автор:
alex2019
Создан:
23 января 2026 в 11:09 (текущая версия от 24 января 2026 в 12:06)
Публичный:
Нет
Тип словаря:
Тексты
Цельные тексты, разделяемые пустой строкой (единственный текст на словарь также допускается).
Информация:
Содержание:
1 Ключевые библиотеки, такие как NumPy, Pandas, Matplotlib, Seaborn и scikit-learn, составляют основу рабочих процессов науки о данных. # Essential imports for data science import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import accuracy_score, classification_report
2 NumPy: import numpy as np Основной пакет для численных вычислений с использованием Python. # Create arrays arr = np.array([1, 2, 3, 4, 5]) matrix = np.array([[1, 2], [3, 4]])
3 # Basic operations np.mean(arr) # Среднее np.std(arr) # Стандартное отклонение np.reshape(arr, (5, 1)) # Изменение формы массива
4 # Generate data np.random.normal(0, 1, 100) # Случайное нормальное распределение
5 Pandas: import pandas as pd Библиотека для манипулирования данными и анализа. # Create DataFrame df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # Read data df = pd.read_csv('data.csv') # Basic exploration df.head() # Первые 5 строк df.info() # Типы данных и пропущенные значения df.describe() # Сводная статистика # Data manipulation df.groupby('column').mean() df.fillna(df.mean()) # Обработка пропущенных значений
6 Matplotlib & Seaborn: Визуализация Создание статистических визуализаций и графиков. # Matplotlib basics plt.plot(x, y) plt.hist(data, bins=20) plt.scatter(x, y) plt.show() # Seaborn for statistical plots sns.boxplot(data=df, x='category', y='value') sns.heatmap(df.corr(), annot=True) sns.pairplot(df)
7 3. Исследовательский анализ данных (EDA) Понимание структуры данных, закономерностей и качества. # Exploratory Data Analysis df.shape # Размеры df.dtypes # Типы данных df.isnull().sum() # Пропущенные значения df['column'].value_counts() # Частотные подсчеты df.corr() # Матрица корреляции # Visualizations for EDA sns.histplot(df['numeric_column']) sns.boxplot(data=df, y='numeric_column') plt.figure(figsize=(10, 8)) sns.heatmap(df.corr(), annot=True)
8 Обнаружение и обработка выбросов Выявление и обработка экстремальных значений, которые могут исказить анализ. # Statistical outlier detection Q1 = df['column'].quantile(0.25) Q3 = df['column'].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Remove outliers df_clean = df[(df['column'] >= lower_bound) & (df['column'] <= upper_bound)] # Z-score method from scipy import stats z_scores = np.abs(stats.zscore(df['column'])) df_no_outliers = df[z_scores < 3]
9 Проверка гипотез Проверка статистических гипотез и подтверждение предположений. # T-test for comparing means from scipy.stats import ttest_ind, ttest_1samp # One-sample t-test t_stat, p_value = ttest_1samp(data, population_mean) # Two-sample t-test group1 = df[df['group'] == 'A']['value'] group2 = df[df['group'] == 'B']['value'] t_stat, p_value = ttest_ind(group1, group2) # Chi-square test for independence from scipy.stats import chi2_contingency chi2, p_value, dof, expected = chi2_contingency(contingency_table)
10 ANOVA и регрессия Анализ дисперсии и взаимосвязей между переменными. # One-way ANOVA from scipy.stats import f_oneway group_data = [df[df['group'] == g]['value'] for g in df['group'].unique()] f_stat, p_value = f_oneway(*group_data) # Linear regression analysis from sklearn.linear_model import LinearRegression from sklearn.metrics import r2_score X = df[['feature1', 'feature2']] y = df['target'] model = LinearRegression().fit(X, y) y_pred = model.predict(X) r2 = r2_score(y, y_pred)
11 Исследовательские визуализации Понимание распределений и взаимосвязей данных. # Distribution plots plt.figure(figsize=(12, 4)) plt.subplot(1, 3, 1) plt.hist(df['numeric_col'], bins=20, edgecolor='black') plt.subplot(1, 3, 2) sns.boxplot(y=df['numeric_col']) plt.subplot(1, 3, 3) sns.violinplot(y=df['numeric_col']) # Relationship plots plt.figure(figsize=(10, 6)) sns.scatterplot(data=df, x='feature1', y='feature2', hue='category') sns.regplot(data=df, x='feature1', y='target') # Categorical data sns.countplot(data=df, x='category') sns.barplot(data=df, x='category', y='value')
12 Статистические графики Визуализация статистических взаимосвязей и результатов модели. # Pair plots for correlation sns.pairplot(df, hue='target_category') # Residual plots for regression plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1) plt.scatter(y_pred, y_test - y_pred) plt.xlabel('Предсказанное') plt.ylabel('Остатки') plt.subplot(1, 2, 2) plt.scatter(y_test, y_pred) plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--') # ROC Curve for classification from sklearn.metrics import roc_curve, auc fpr, tpr, _ = roc_curve(y_test, y_prob) roc_auc = auc(fpr, tpr) plt.plot(fpr, tpr, label=f'ROC-кривая (AUC = {roc_auc:.2f})')

Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена