scikit-learn - Словари - Клавогонки - онлайновый клавиатурный тренажер-игра

Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .

[{{mminutes}}:{{sseconds}}] Ожидаем начала...

Загрузка...

scikit-learn

(0) Используют 2 человека

Комментарии

alex2019 23 января 2026

https://www.pythontutorials.net/blog/sklearn-cheat-sheet/

https://labex.io/cheatsheets/ru/sklearn

Написать тут

Описание:: scikit-learn

Автор:: alex2019

Создан:: 23 января 2026 в 11:09 (текущая версия от 24 января 2026 в 12:06)

Публичный:: Нет

Тип словаря:: Тексты
Цельные тексты, разделяемые пустой строкой (единственный текст на словарь также допускается).

Информация:: https://labex.io/cheatsheets/ru/datascience

https://labex.io/cheatsheets/ru/matplotlib

https://labex.io/cheatsheets/ru/sklearn

https://labex.io/cheatsheets/ru/numpy

https://labex.io/cheatsheets/ru/pandas

https://labex.io/pythoncheatsheet/cheatsheet/basics

Содержание:

1	Ключевые библиотеки, такие как NumPy, Pandas, Matplotlib, Seaborn и scikit-learn, составляют основу рабочих процессов науки о данных. # Essential imports for data science import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import accuracy_score, classification_report
2	NumPy: import numpy as np Основной пакет для численных вычислений с использованием Python. # Create arrays arr = np.array([1, 2, 3, 4, 5]) matrix = np.array([[1, 2], [3, 4]])
3	# Basic operations np.mean(arr) # Среднее np.std(arr) # Стандартное отклонение np.reshape(arr, (5, 1)) # Изменение формы массива
4	# Generate data np.random.normal(0, 1, 100) # Случайное нормальное распределение
5	Pandas: import pandas as pd Библиотека для манипулирования данными и анализа. # Create DataFrame df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # Read data df = pd.read_csv('data.csv') # Basic exploration df.head() # Первые 5 строк df.info() # Типы данных и пропущенные значения df.describe() # Сводная статистика # Data manipulation df.groupby('column').mean() df.fillna(df.mean()) # Обработка пропущенных значений
6	Matplotlib & Seaborn: Визуализация Создание статистических визуализаций и графиков. # Matplotlib basics plt.plot(x, y) plt.hist(data, bins=20) plt.scatter(x, y) plt.show() # Seaborn for statistical plots sns.boxplot(data=df, x='category', y='value') sns.heatmap(df.corr(), annot=True) sns.pairplot(df)
7	3. Исследовательский анализ данных (EDA) Понимание структуры данных, закономерностей и качества. # Exploratory Data Analysis df.shape # Размеры df.dtypes # Типы данных df.isnull().sum() # Пропущенные значения df['column'].value_counts() # Частотные подсчеты df.corr() # Матрица корреляции # Visualizations for EDA sns.histplot(df['numeric_column']) sns.boxplot(data=df, y='numeric_column') plt.figure(figsize=(10, 8)) sns.heatmap(df.corr(), annot=True)
8	Обнаружение и обработка выбросов Выявление и обработка экстремальных значений, которые могут исказить анализ. # Statistical outlier detection Q1 = df['column'].quantile(0.25) Q3 = df['column'].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Remove outliers df_clean = df[(df['column'] >= lower_bound) & (df['column'] <= upper_bound)] # Z-score method from scipy import stats z_scores = np.abs(stats.zscore(df['column'])) df_no_outliers = df[z_scores < 3]
9	Проверка гипотез Проверка статистических гипотез и подтверждение предположений. # T-test for comparing means from scipy.stats import ttest_ind, ttest_1samp # One-sample t-test t_stat, p_value = ttest_1samp(data, population_mean) # Two-sample t-test group1 = df[df['group'] == 'A']['value'] group2 = df[df['group'] == 'B']['value'] t_stat, p_value = ttest_ind(group1, group2) # Chi-square test for independence from scipy.stats import chi2_contingency chi2, p_value, dof, expected = chi2_contingency(contingency_table)
10	ANOVA и регрессия Анализ дисперсии и взаимосвязей между переменными. # One-way ANOVA from scipy.stats import f_oneway group_data = [df[df['group'] == g]['value'] for g in df['group'].unique()] f_stat, p_value = f_oneway(*group_data) # Linear regression analysis from sklearn.linear_model import LinearRegression from sklearn.metrics import r2_score X = df[['feature1', 'feature2']] y = df['target'] model = LinearRegression().fit(X, y) y_pred = model.predict(X) r2 = r2_score(y, y_pred)
11	Исследовательские визуализации Понимание распределений и взаимосвязей данных. # Distribution plots plt.figure(figsize=(12, 4)) plt.subplot(1, 3, 1) plt.hist(df['numeric_col'], bins=20, edgecolor='black') plt.subplot(1, 3, 2) sns.boxplot(y=df['numeric_col']) plt.subplot(1, 3, 3) sns.violinplot(y=df['numeric_col']) # Relationship plots plt.figure(figsize=(10, 6)) sns.scatterplot(data=df, x='feature1', y='feature2', hue='category') sns.regplot(data=df, x='feature1', y='target') # Categorical data sns.countplot(data=df, x='category') sns.barplot(data=df, x='category', y='value')
12	Статистические графики Визуализация статистических взаимосвязей и результатов модели. # Pair plots for correlation sns.pairplot(df, hue='target_category') # Residual plots for regression plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1) plt.scatter(y_pred, y_test - y_pred) plt.xlabel('Предсказанное') plt.ylabel('Остатки') plt.subplot(1, 2, 2) plt.scatter(y_test, y_pred) plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--') # ROC Curve for classification from sklearn.metrics import roc_curve, auc fpr, tpr, _ = roc_curve(y_test, y_prob) roc_auc = auc(fpr, tpr) plt.plot(fpr, tpr, label=f'ROC-кривая (AUC = {roc_auc:.2f})')

Связаться

Автор:

Обратный адрес:

Тема:

Сообщение:

Удалить

Сделать снимок экрана

Выделить

Выделите фрагменты страницы, относящиеся к вашему сообщению

Скрыть сведения

Скрыть всю личную информацию

Отмена