20 Систематические и случайные: Два основных источника ошибок

Предположим, ваша тренировочная, валидационная и тестовая выборки имеют одно и то же распределение. Тогда нужно брать больше данных для обучения, это только улучшит качество работы алгоритма, верно ли это?

Несмотря на то, что получение большего количества данных не может повредить работе, к сожалению, новые данные не всегда помогают настолько, насколько можно ожидать. В некоторых случаях работа по получению дополнительных данных может оказаться пустой тратой усилий. Как принять решение — в каких случаях добавлять данные, а когда не стоит об этом беспокоиться.

В машинном обучении присутствуют два главных источника ошибок: систематические и случайные (Variance) (дисперсионные). Понимание того, что они из себя представляют поможет вам решить — нужно ли добавлять еще данные, так же поможет выбрать тактику по улучшению качества работы классификатора.

замечание переводчика Variance переводится, как дисперсия или отклонение. Но я буду использовать не «дисперсию» или «дисперсионную ошибку», а более свойственное русскоязычной технической литературе определение «случайной ошибки». К тому же дисперсия в теории вероятностей и статистике имеет очень конкретный математический смысл и формальное выражение, которое еще дальше от значения, вкладываемого в это понятие автором.

Предположим, вы надеетесь построить кошачий распознователь, имеющий 5% ошибок. На текущий момент ошибка вашего классификатора на тренировочной выборке 15%, на валидационной выборке 16%. В таком случае добавление тренировочных данных вряд ли поможет существенно увеличить качество. Вы должны сконцентрироваться на других изменениях системы. В действительности, добавление большего количества примеров в вашу тренировочную выборку только усложнит для вашего алгоритма получение хорошего результата на этой выборке (почему так получается будет объяснено в следующих главах).

Читать дальше →
Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 20 — 22
Source: habrahabr

20.08.2018

Как оценить качество продукта

Привет Хабр!

Недавно мне попалась на глаза статья про Service Now. В ней описывалось про то, какой же хороший у них продукт. Даже показали менеджера среднего звена с микрофоном, которая без цифр что-то говорила (из статьи — «сократило время административного труда, и врачи смогли сфокусироваться на своём основном предназначении»).

Однако при беглом чтении статьи у меня остался небольшой осадок, как минимум из-за того, что я работал с этой системы (как пользователь). И у меня сложилось абсолютно негативное мнение о софте данной компании в целом (и о продукте в частности).

После статьи я попытался осознать — а как можно по подобным рекламным презентациям оценить, продукт действительно пользователям, или же он только помог менеджерам среднего звена получить очередной бонус?

Читать дальше →
Как оценить качество продукта
Source: habrahabr

20.08.2018

Пост №3612171

Автор: prazza

Мои дачные пришельцыссылка на гифкуРазвернуть { «@context»: «http://schema.org», «@type»: «BlogPosting», «mainEntityOfPage»:{ «@type»:»WebPage», «@id»:»/post/3612171″ }, «headline»: «Мои дачные пришельцы / гиф :: в комментах ещё :: личинка котэ :: котэ (прикольные картинки с кошками)», «image»: { «@type»: «ImageObject», «url»: «http://img0.joyreactor.cc/pics/post/full/%D0%BA%D0%BE%D1%82%D1%8D-%D0%B3%D0%B8%D1%84-%D0%B2-%D0%BA%D0%BE%D0%BC%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%85-%D0%B5%D1%89%D1%91-%D0%BB%D0%B8%D1%87%D0%B8%D0%BD%D0%BA%D0%B0-%D0%BA%D0%BE%D1%82%D1%8D-4652722.gif», «height»: 252, «width»: 448 }, «datePublished»: «2018-08-19T20:03:12+03:00», «dateModified»: «2018-08-19T20:03:12+03:00», «author»: { «@type»: «Person», «name»: «prazza» }, «publisher»: { «@type»: «Organization», «name»: «JoyReactor.cc», «logo»: { «@type»: «ImageObject», «url»: «http://joyreactor.cc/images/joyreactor_ie6.png», «width»: 207, «height»: 54 } }, «description»: «» }
Комментировать
Пост №3612171
Source: Joyreactor

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Июл				Сен »
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31