3. Наивный байесовский классификатор и неописуемая легкость бытия идиотом
В предыдущей главе вы отлично справились с началом неконтролируемого машинного обучения. Вы ознакомились с кластеризацией по k-средним, которая похожа на куриный наггетс в измерении извлечения данных (data mining) – простой, интуитивный и практичный. И к тому же вкусный.
В этой главе мы перейдем от неконтролируемого машинного обучения к моделям контролируемого искусственного интеллекта, а тренироваться будем на наивной байесовской модели, которая, простите за недостаток хороших метафор, тоже похожа на куриный наггетс, несмотря на контролируемость.
Как уже упоминалось в главе 2, в случае с контролируемым искусственным интеллектом вы «обучаете» свою модель делать расчет, пользуясь уже классифицированными данными. Самое распространенное применение «наивного Байеса» – классификация документов. Является ли это электронное письмо спамом или наоборот, долгожданной новостью? Эта запись в Twitter – благодушная или сердитая? Нужно ли передавать этот перехваченный звонок по сотовому для дальнейшего исследования федеральным агентам? Вы предоставляете «данные для обучения», например, классифицированные примеры документов, обучающему алгоритму, который в дальнейшем сможет «разбить» новые документы на те же категории, используя имеющиеся знания.
Пример, над которым мы будем работать в этой главе, мне особенно близок. Позвольте объяснить.