Мы в Telegram
Добавить новость

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Решение задач по Машинному обучению на Python в Jupiter Notebook

Задача 1. Реализация собственных классов и функций


⚠️ Замечание. 1) Нельзя пользоваться готовыми реализациями sklearn; 2) чтобы избежать случая с вырожденной матрицей при оценке параметров добавьте незначительную регуляризацию по умолчанию или используйте lstsq из пакета numpy или др. способ; 3) используйте random_state=0

  1. Реализуйте класс, предназначенный для оценки параметров линейной регрессии с регуляризацией совместимый с sklearn. Передаваемые параметры: 1) коэффициент регуляризации (alpha). Использовать метод наименьших квадратов с регуляризацией.
  2. Реализуйте класс для стандартизации признаков в виде трансформации совместимый с sklearn. Передаваемые параметры: 1) has_bias (содержит ли матрица вектор единиц), 2) apply_mean (производить ли центровку)
  3. Реализуйте функции для расчета MSE и R^2 при отложенной выборке (run_holdout) и кросс-валидации (run_cross_val). Для кросс-валидации используйте только класс KFold. Выходными значениями должны быть MSE и R^2 для обучающей и тестовой частей.

    Шаблон кода:

    def run_holdout(model, X, y, train_size, random_state) -> dict:
        ...
        return scores
    def run_cross_val(model, X, y, n_splits, shuffle, random_state) -> dict:
        ...
        return scores
  4. Используя класс Pipeline, выполнить обучение линейной регрессии с предварительной стандартизацией с коэффициентом регуляризации равным 0 и 0.01. Выведите значения параметров обученной модели. Выведите значения MSE и R^2, полученные посредством функций run_holdout и run_cross_val. Отобразите график предсказание (^) - действительное значение () для разных коэффициентов регуляризации для обучающего и текстового множества. Использовать следующие параметры:

    • train_size=0.75,
    • n_splits=4,
    • shuffle=True,
    • random_state=0
⚠️ Замечание. При формировании исходных данных использовался полином 16 степени одномерных данных.

Задача 2. Классификация и кросс-валидация

⚠️ Замечание:

  • Используйте класс логистической регрессии из sklearn со следующими параметрами:
    • penalty='l2'
    • fit_intercept=True
    • max_iter=100
    • C=1e5
    • solver='liblinear'
    • random_state=12345
  • Разбейте исходные данные на обучающее и тестовое подмножества в соотношении 70 на 30, random_state=0
  • Для выбора гиперпараметров используйте два подхода: 1) с отложенной выборкой, 2) с кросс-валидацией
  • Для кросс-валидации использовать функцию cross_validate из sklearn
  • Параметры разбиения для выбора гиперпараметров используйте те, что в п.4 задачи 1
Дано множество наблюдений (см. набор данных к заданию), классификатор - логистическая регрессия. Найти степень полинома с минимальной ошибкой на проверочном подмножестве. Для лучшего случая рассчитать ошибку на тестовом подмножестве. В качестве метрики использовать долю правильных классификаций. Сделать заключение о влиянии степени полинома на качество предсказания.

Построить:

  • диаграмму разброса исходных данных
  • зависимость доли правильных классификаций от степени полинома для обучающего и проверочного подмножеств (две кривые на одном графике)
  • результат классификации для наилучшего случая (степень полинома) для обучающего и тестового подмножеств с указанием границы принятия решения

Задача 3. Классификация текстовых документов


файл: data/reviews.tsv

  1. Загрузите исходные данные
  2. Разбейте исходные данные на обучающее (train, 80%) и тестовое подмножества (test, 20%)
  3. Используя стратифицированную кросс-валидацию k-folds (=4) для обучающего множество с метрикой Balanced-Accuracy, найдите лучшие гиперпараметры для следующих классификаторов:

    • K-ближайших соседей: количество соседей () из диапазона np.arange(1, 150, 20)
    • Логистическая регрессия: параметр регуляризации () из диапазона np.logspace(-2, 10, 8, base=10)
    • Наивный Байес: сглаживающий параметр модели Бернулли () из диапазона np.logspace(-4, 1, 8, base=10)
    • Наивный Байес: сглаживающий параметр полиномиальной модели () из диапазона np.logspace(-4, 1, 8, base=10)
  4. Отобразите кривые (параметры модели)-(Balanced-Accuracy) при обучении и проверке для каждой классификатора (две кривые на одном графике для каждого классификатора)
  5. Если необходимо, выбранные модели обучите на всём обучающем подмножестве (train) и протестируйте на тестовом (test) по Balanced-Accuracy, R, P, F1. Определите время обучения и предсказания.
  6. Выполните пункты 3-5 для n-gram=1, n-gram=2 и n-gram=(1,2)
  7. Выведите в виде таблицы итоговые данные по всем методам для лучших моделей (метод, n-gram, значение параметра модели, время обучения, время предсказания, метрики (Balanced-Accuracy, R, P, F1))
  8. Сделайте выводы по полученным результатам (преимущества и недостатки методов)
⚠️ Замечание:

  • Для всех объектов/методов/моделей random_state = 123
  • Для выбора гиперпараметров можно использовать стандартные утилиты sklearn


!!!Всё выполнить в Jupiter Notebook, пример выполнения с другими задачами прикреплен!!!

Читайте на 123ru.net

Другие проекты от 123ru.net



Архангельск

Вадим Трескин рассказал о необходимости реконструкции устаревшей инфраструктуры в регионе



Мода

Международные дизайнеры приняли участие в Modest Fashion Day в Казани




Українські новини

Estischool - Школа за британською програмою



Новости 24 часа

Творческие способы использования мозаики из стекла в садовом дизайне



Game News

Helldivers 2 studio wants to slow down the pace of updates: 'We feel a slightly lower cadence overall will benefit both us, you, and the game'



Москва

В преддверии празднования Дня победы сотрудники Росгвардии приняли участие в патриотических акциях



News Every Day

Boeing passenger ‘DIES in horror turbulence’ on flight from London sparking emergency landing in latest airline tragedy



Интернет

Институт iSpring будет готовить учителей для экономики знаний



Москва

Выставка к 595-летию города открылась в Лыткарине



Баста

Тренер СКА Попов назвал Басту адекватным футбольным руководителем



Москва

В Ступине запустили производство утеплителя



Большой шлем

Dagospia: Синнер и Калинская вместе поужинали в ресторане в Париже



Москва

С чего начинается любое заболевание?



#123ru.net

Олимпийский чемпион Роман Костомаров поздравил победителей номинации «Экскурсия без границ» программы «Лига Экскурсоводов»



Симферополь

Книжная тематическая полка « Русский писатель марийской земли»



Москва

Сеть клиник «Будь Здоров» подвела итоги первого квартала 2024 г.



Москва

В школах Москвы прозвучали последние звонки — Собянин



Москва

Сеть клиник «Будь Здоров» подвела итоги первого квартала 2024 г.



103news.com — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 103news.com.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.

Другие популярные новости дня сегодня


Новости 24/7 Все города России





Топ 10 новостей последнего часа




Новости России

Депутат Мособлдумы Лобышева пообщалась с участниками «ПолитСтарта» в Подмосковье

«ИМЕНЕМ ЗАКОНА»: «СВЯТОЙ ЛЕНИН» ОТМЕНЯЕТ НАЛОГИ С ЗАРПЛАТ НАРОДА!

В преддверии празднования Дня победы сотрудники Росгвардии приняли участие в патриотических акциях

Эксперт Президентской академии в Санкт-Петербурге о компенсации части затрат на путевки в оздоровительные лагеря в рамках нацпроекта «Семья»


Москва

Сеть клиник «Будь Здоров» подвела итоги первого квартала 2024 г.






Rss.plus

С чего начинается любое заболевание?

Количество пользователей-инвесторов на платформе «Атомайз» превысило 72000

Творческие способы использования мозаики из стекла в садовом дизайне

В РМАТ ПРОШЕЛ I БИЗНЕС-ФОРУМ ВЫПУСКНИКОВ РМАТ 1999-2023 ГОДА ВЫПУСКА, ПОСВЯЩЕННЫЙ 55-ЛЕТНЕМУ ЮБИЛЕЮ АКАДЕМИИ

Moscow.media
Москва

Собянин рассказал о реализации программы реновации в районе Филевский Парк



103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. 103news.com — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости

Желдорреммаш

На Улан-Удэнском ЛВРЗ прошел конкурс «Лучший по профессии 2024»




Спорт в России и мире

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

Финал командного чемпионата ФНТР по настольному теннису пройдет в Москве

«Евро-Футбол.Ру»: «Спартак» никогда не интересовался Сафоновым

В ОЭЗ «Технополис Москва» выпущена серия автомобилей для участия в чемпионате кольцевых гонок


Елена Рыбакина

Определилась первая соперница Рыбакиной на Ролан Гаррос



Новости Крыма на Sevpoisk.ru


Москва

Зиновий Пешков: что случилось с родным братом Якова Свердлова



Частные объявления в Вашем городе, в Вашем регионе и в России