[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .
Data Science. Интервью
(0)       Используют 2 человека

Комментарии

Ни одного комментария.
Написать тут
Описание:
10 типичных вопросов к интервью на позицию Data Scientist
Автор:
vaigim
Создан:
4 октября 2024 в 15:37
Публичный:
Да
Тип словаря:
Тексты
Цельные тексты, разделяемые пустой строкой (единственный текст на словарь также допускается).
Содержание:
1 1. Что такое проблемы взрывающегося и затухающего градиента? Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов. В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом. Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом. Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.
2 2. Как рассчитать точность прогноза, используя матрицу ошибок? В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений. Формула точности: Точность = (истинно положительные + истинно отрицательные) деленные общее количество наблюдений. Предположим, что истинно положительных значений у нас 2981, истинно отрицательных — 110, а всего — 3311. Используя формулу, находим, что точность прогноза составляет 93,36 %.
3 3. Как работает ROC-кривая? ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях. ... Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR
4 4. Объясните алгоритм машинного обучения SVM. SVM, или метод опорных векторов, — это набор алгоритмов обучения с учителем, который используется для классификации и регрессионного анализа. Его основная идея — построение гиперплоскости, которая разделяет объекты выборки максимально эффективным способом. Сделать это можно с помощью алгоритма линейной классификации.
5 5. Что такое Random Forest? Random Forest, или случайный лес, — это один из немногих универсальных алгоритмов обучения, который способен выполнять задачи классификации, регрессии и кластеризации. Случайный лес состоит из большого количества отдельных деревьев решений, которые по сути являются ансамблем методов. Каждое дерево в случайном лесу возвращает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом леса.
6 6. Что такое логистическая регрессия? Логистическая регрессия — это статистическая модель, которую используют для прогнозирования вероятности какого-либо события. Например, нужно предсказать, победит конкретный политический лидер на выборах или нет. В этом случае результат прогноза будет двоичным, то есть 0 или 1 (выигрыш или проигрыш). В качестве переменных-предикторов здесь будут: сумма денег, потраченных на предвыборную агитацию конкретного кандидата, количество времени, затраченного на агитацию, и так далее.
7 7. Что такое рекуррентные нейронные сети (RNN)? Рекуррентные нейронные сети — это вид нейросетей, в которых связи между элементами образуют направленную последовательность. Это позволяет обрабатывать серии событий во времени или последовательные пространственные цепочки. Они используются преимущественно для задач, где нечто цельное состоит из ряда объектов, например при распознавании рукописного текста или речи.
8 8. Что такое обучение с подкреплением? Обучение с подкреплением очень схоже по смыслу с обучением с учителем, но в роли учителя выступает среда, в которой система может выполнять какие-либо действия. Обучение с подкреплением активно используется в задачах, где нужно выбрать лучший вариант среди многих или достичь сложной цели за множество ходов. К примеру, это могут быть шахматы или го, где нейросети дают только правила, а она совершенствует свои навыки с помощью игр с самой собой. Машина пытается решить задачу, ошибается, учится на своих ошибках, совершенствуется, и так множество раз.
9 9. Объясните, что такое регуляризация и почему она полезна Регуляризация в машинном обучении — метод добавления дополнительных ограничений к условию для того, чтобы предотвратить переобучение системы или решить некорректно поставленную задачу. Часто это ограничение представляет собой штраф за излишнюю сложность модели. Прогнозы модели должны затем минимизировать функцию потерь, вычисленную на регуляризованном обучающем наборе.
10 10. Какова цель AB-тестирования? AB-тестирование — это статистическая проверка гипотез для рандомизированных экспериментов с двумя переменными, A и B. Его цель — обнаружение любых изменений на веб-странице, чтобы максимизировать или повысить результат стратегии.

Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена