| 1 |
Ключевые библиотеки, такие как NumPy, Pandas, Matplotlib, Seaborn и scikit-learn, составляют основу рабочих процессов науки о данных. # Essential imports for data science import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import accuracy_score, classification_report |
| 2 |
NumPy: import numpy as np Основной пакет для численных вычислений с использованием Python. # Create arrays arr = np.array([1, 2, 3, 4, 5]) matrix = np.array([[1, 2], [3, 4]]) |
| 3 |
# Basic operations np.mean(arr) # Среднее np.std(arr) # Стандартное отклонение np.reshape(arr, (5, 1)) # Изменение формы массива |
| 4 |
# Generate data np.random.normal(0, 1, 100) # Случайное нормальное распределение |
| 5 |
Pandas: import pandas as pd Библиотека для манипулирования данными и анализа. # Create DataFrame df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # Read data df = pd.read_csv('data.csv') # Basic exploration df.head() # Первые 5 строк df.info() # Типы данных и пропущенные значения df.describe() # Сводная статистика # Data manipulation df.groupby('column').mean() df.fillna(df.mean()) # Обработка пропущенных значений |
| 6 |
Matplotlib & Seaborn: Визуализация Создание статистических визуализаций и графиков. # Matplotlib basics plt.plot(x, y) plt.hist(data, bins=20) plt.scatter(x, y) plt.show() # Seaborn for statistical plots sns.boxplot(data=df, x='category', y='value') sns.heatmap(df.corr(), annot=True) sns.pairplot(df) |
| 7 |
3. Исследовательский анализ данных (EDA) Понимание структуры данных, закономерностей и качества. # Exploratory Data Analysis df.shape # Размеры df.dtypes # Типы данных df.isnull().sum() # Пропущенные значения df['column'].value_counts() # Частотные подсчеты df.corr() # Матрица корреляции # Visualizations for EDA sns.histplot(df['numeric_column']) sns.boxplot(data=df, y='numeric_column') plt.figure(figsize=(10, 8)) sns.heatmap(df.corr(), annot=True) |
| 8 |
Обнаружение и обработка выбросов Выявление и обработка экстремальных значений, которые могут исказить анализ. # Statistical outlier detection Q1 = df['column'].quantile(0.25) Q3 = df['column'].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Remove outliers df_clean = df[(df['column'] >= lower_bound) & (df['column'] <= upper_bound)] # Z-score method from scipy import stats z_scores = np.abs(stats.zscore(df['column'])) df_no_outliers = df[z_scores < 3] |
| 9 |
Проверка гипотез Проверка статистических гипотез и подтверждение предположений. # T-test for comparing means from scipy.stats import ttest_ind, ttest_1samp # One-sample t-test t_stat, p_value = ttest_1samp(data, population_mean) # Two-sample t-test group1 = df[df['group'] == 'A']['value'] group2 = df[df['group'] == 'B']['value'] t_stat, p_value = ttest_ind(group1, group2) # Chi-square test for independence from scipy.stats import chi2_contingency chi2, p_value, dof, expected = chi2_contingency(contingency_table) |
| 10 |
ANOVA и регрессия Анализ дисперсии и взаимосвязей между переменными. # One-way ANOVA from scipy.stats import f_oneway group_data = [df[df['group'] == g]['value'] for g in df['group'].unique()] f_stat, p_value = f_oneway(*group_data) # Linear regression analysis from sklearn.linear_model import LinearRegression from sklearn.metrics import r2_score X = df[['feature1', 'feature2']] y = df['target'] model = LinearRegression().fit(X, y) y_pred = model.predict(X) r2 = r2_score(y, y_pred) |
| 11 |
Исследовательские визуализации Понимание распределений и взаимосвязей данных. # Distribution plots plt.figure(figsize=(12, 4)) plt.subplot(1, 3, 1) plt.hist(df['numeric_col'], bins=20, edgecolor='black') plt.subplot(1, 3, 2) sns.boxplot(y=df['numeric_col']) plt.subplot(1, 3, 3) sns.violinplot(y=df['numeric_col']) # Relationship plots plt.figure(figsize=(10, 6)) sns.scatterplot(data=df, x='feature1', y='feature2', hue='category') sns.regplot(data=df, x='feature1', y='target') # Categorical data sns.countplot(data=df, x='category') sns.barplot(data=df, x='category', y='value') |
| 12 |
Статистические графики Визуализация статистических взаимосвязей и результатов модели. # Pair plots for correlation sns.pairplot(df, hue='target_category') # Residual plots for regression plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1) plt.scatter(y_pred, y_test - y_pred) plt.xlabel('Предсказанное') plt.ylabel('Остатки') plt.subplot(1, 2, 2) plt.scatter(y_test, y_pred) plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--') # ROC Curve for classification from sklearn.metrics import roc_curve, auc fpr, tpr, _ = roc_curve(y_test, y_prob) roc_auc = auc(fpr, tpr) plt.plot(fpr, tpr, label=f'ROC-кривая (AUC = {roc_auc:.2f})') |
Комментарии
https://labex.io/cheatsheets/ru/sklearn