Если моя книга пробудила у вас интерес к машинному обучению и связанным с ним вопросам, в этом разделе вы найдете много советов. Это не исчерпывающий список, но он должен стать, перефразируя Борхеса, калиткой в Сад расходящихся тропок этой дисциплины. Я старался выбирать книги и статьи, подходящие для неспециалиста. Технические публикации, которые требуют хотя бы некоторых познаний в области информатики, статистики или математики, я отметил знаком *. Даже в них, однако, часто есть большие разделы, доступные обычному читателю. Я не указываю номер тома, издания и страниц, потому что в сети и справочниках они не всегда указаны точно.
Если вы хотите узнать больше о машинном обучении в целом, неплохо будет начать с онлайн-курсов. Неудивительно, что ближе всего к содержанию этой книги курс, который веду я сам (). Еще два варианта — курсы Эндрю Ына () и Ясера Абу-Мостафы (). Следующий шаг — взяться за учебники. Один из самых доступных и близких к моей книге — Machine Learning* Тома Митчелла (McGraw-Hill, 1997). Более современные, но более математические — Machine Learning: A Probabilistic Perspective* Кевина Мерфи (MIT Press, 2012), Pattern Recognition and Machine Learning* Криса Бишопа (Springer, 2006) и An Introduction to Statistical Learning with Applications in R* Гарета Джеймса, Даниэлы Виттен, Тревора Хасти и Роба Тибширани (Springer, 2013). Моя статья A few useful things to know about machine learning (Communications of the ACM, 2012) частично суммирует «общеизвестные» истины машинного обучения, которые учебники часто обходят стороной как банальные. Она стала одной из отправных точек этой книги. Если вы умеете программировать и вам не терпится взяться за дело, можете начать с многочисленных открытых пакетов, например Weka (). Важнейшие журналы по машинному обучению — Machine Learning и Journal of Machine Learning Research. Ведущие конференции, ежегодно публикующие свои материалы, — International Conference on Machine Learning, Conference on Neural Information Processing Systems и International Conference on Knowledge Discovery and Data Mining. Множество лекций по машинному обучению вы найдете на сайте . На сайте также представлено много ресурсов по машинному обучению. Там можно подписаться на рассылку и быть в курсе последних разработок.
Примеры влияния машинного обучения на повседневную жизнь приведены в статье Джорджа Джона Behind-the-scenes data mining (SIGKDD Explorations, 1999): она вдохновила меня описать «один день из жизни» в прологе. Много применений машинного обучения рассмотрено в книге Эрика Зигеля Predictive Analytics (Wiley, 2013). Термин «большие данные» стал популярным после вышедшего в 2011 году отчета McKinsey Global Institute Big Data: The Next Frontier for Innovation, Competition, and Productivity. Много вопросов, которые поднимают большие данные, обсуждается в книге Виктора Майер-Шенбергера и Кеннет Кукьера Big Data: A Revolution That Will Change How We Live, Work, and Think, by Viktor Mayer-Schönberger and Kenneth Cukier (Houghton Mifflin Harcourt, 2013). Учебник, по которому я сам учился искусственному интеллекту, — это Artificial Intelligence Элен Рич (McGraw-Hill, 1983)*. Более современный вариант — Artificial Intelligence: A Modern Approach Стюарта Расселла и Питера Норвига (третье издание, Prentice Hall, 2010). В книге Нильса Нильссона The Quest for Artificial Intelligence (Cambridge University Press, 2010) рассказана история создания искусственного интеллекта начиная с самого начала.
В книге Nine Algorithms That Changed the Future Джона Маккормика (Princeton University Press, 2012) описан ряд важнейших алгоритмов, применяемых в информатике. В ней есть и глава о машинном обучении. Algorithms Санджоя Дасгупты, Христоса Пападимитриу и Умеша Вазирани (McGraw-Hill, 2008) — сжатый вводный учебник по предмету. Джинни Хиллис в книге The Pattern on the Stone (Basic Books, 1998) объясняет, как работают компьютеры. Уолтер Айзексон рассказывает живую историю информатики в книге The Innovators (Simon & Schuster, 2014).
В статье Spreadsheet data manipulation using examples* Сумита Гульвани, Уильяма Харриса и Ришабха Сингха (Communications of the ACM, 2012) показано, как компьютеры могут программировать сами себя, наблюдая за пользователями. Книга Competing on Analytics Тома Дэвенпорта и Джоанн Харрис (HBS Press, 2007) — хорошее введение в применение прогнозной аналитики в бизнесе. Работа In the Plex Стивена Леви (Simon & Schuster, 2011) дает представление о технологиях Google. Карл Шапиро и Хэл Вариан объясняют сетевой эффект в книге Information Rules: A Strategic Guide to the Network Economy (HBS Press, 1999). Феномен длинного хвоста анализирует Крис Андерсон в книге The Long Tail (Hyperion, 2006).
Теме перемен в науке под влиянием вычислений с большими объемами данных посвящена книга The Fourth Paradigm под редакцией Тони Хея, Стюарта Тансли и Кристин Толле (Microsoft Research, 2009). В статье Machine science Джеймса Эванса и Андрея Ржецкого (Science, 2010) обсуждаются некоторые способы научных открытий с помощью компьютеров. В Scientific Discovery: Computational Explorations of the Creative Processes* Пэта Лэнгли и соавторов (MIT Press, 1987) приведен ряд подходов к автоматизации открытия научных законов. Проект SKICAT описан в статье From digitized images to online catalogs Усамы Файяда, Джорджа Джорговского и Николаса Уира (AI Magazine, 1996). Статья Machine learning in drug discovery and development* Ники Уэйла (Drug Development Research, 2001) предлагает обзор по теме открытия и разработки лекарств. Об Адаме, роботе-ученом, можно почитать в статье The automation of science Росса Кинга и соавторов (Science, 2009).
О применении анализа данных в политике подробно рассказывается в книге Саши Иссенберга The Victory Lab (Broadway Books, 2012). Книга How President Obama’s campaign used big data to rally individual votes того же автора (MIT Technology Review, 2013) дает представление о самом большом на сегодняшний день успехе больших данных — избирательной кампании Барака Обамы.
В книге Нейта Сильвера The Signal and the Noise* (Penguin Press, 2012) есть глава о его методе агрегирования опросов избирателей.
Роботизированное вооружение — тема книги Питера Сингера Wired for War (Penguin, 2009). В книге Cyber War (Ecco, 2012) Ричард Кларк и Роберт Нейк трубят тревогу по поводу кибервойны. Моя собственная работа по соединению машинного обучения и теории игр для победы над противником, начавшаяся как учебный проект, описана в Adversarial classification* Нилеша Далви и соавторов (Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining, 2004). Книга Predictive Policing Уолтера Перри и соавторов (Rand, 2013) познакомит вас с использованием аналитики в работе полиции.
Эксперименты по перепрограммированию мозга хорька описаны в статье Visual behaviour mediated by retinal projections directed to the auditory pathway Лори фон Мельхнер, Сары Паллас и Мриганки Сура (Nature, 2000). История Бена Андервуда рассказана в статье Seeing with sound Джоанны Мурхед (Guardian, 2007) и на сайте . В статье Generality of the functional structure of the neocortex (Naturwissenschaften, 1977) Отто Кройцфельдт утверждает, что кора головного мозга — единый алгоритм. С ним согласен Вернон Маунткасл в главе An organizing principle for cerebral function: The unit model and the distributed system книги The Mindful Brain под редакцией Джералда Эделмена и Вернона Маунткасла (MIT Press, 1978). Гэри Маркус, Адам Марблстоун и Том Дин возражают против этой теории в статье The atoms of neural computation (Science, 2014).
В работе The unreasonable effectiveness of data Алона Халеви, Питера Норвига и Фернандо Перейры (IEEE Intelligent Systems, 2009) приводятся аргументы в пользу машинного обучения как новой парадигмы научных открытий. Бенуа Мандельброт рассматривает фрактальную геометрию природы в книге The Fractal Geometry of Nature* (Freeman, 1982). Книга Джеймса Глейка Chaos* (Viking, 1987) обсуждает и иллюстрирует множества Мандельброта. Программа Langlands, научный проект по объединению разных математических дисциплин, описана в книге Эдварда Френкеля Love and Math (Basic Books, 2014). The Golden Ticket Лэнса Фортнау (Princeton University Press, 2013) представляет собой введение в NP-полноту и проблему P = NP. The Annotated Turing+ Чарльза Петцольда (Wiley, 2008) объясняет машины Тьюринга, анализируя его статью на эту тему.
Проект «Cайк» описан в статье: Cyc: Toward programs with common sense* Дугласа Лената и соавторов (Communications of the ACM, 1990). Питер Норвиг обсуждает критику Ноама Хомского, которой тот подверг статистическое обучение в статье On Chomsky and the two cultures of statistical learning (). Книга Джерри Фодора The Modularity of Mind (MIT Press, 1983) суммирует воззрения автора на принципы работы разума. Статьи What big data will never explain Леона Уисельтира (New Republic, 2013) и Pundits, stop sounding ignorant about data Эндрю Макафи (Harvard Business Review, 2013) дают почувствовать разногласия в отношении возможностей больших данных. Даниэль Канеман объясняет, почему алгоритмы часто побеждают интуицию, в двадцать первой главе книги Thinking, Fast and Slow. Дэвид Паттерсон обосновывает важность вычислений и сбора данных в борьбе с раком в статье Computer scientists may have what it takes to help cure cancer (New York Times, 2011).
Подробнее о путях разных племен к Верховному алгоритму — в соответствующих разделах ниже.
Классическая формулировка Юмом проблемы индукции появляется в первом томе «Трактата о человеческой природе» (1739). Дэвид Уолперт выводит свою теорему «бесплатных обедов не бывает» для индукции в статье The lack of a priori distinctions between learning algorithms* (Neural Computation, 1996). В статье Toward knowledge-rich data mining* (Data Mining and Knowledge Discovery, 2007) я обсуждаю важность априорного знания в машинном обучении, а в The role of Occam’s razor in knowledge discovery* (Data Mining and Knowledge Discovery, 1999) — неправильные интерпретации бритвы Оккама. Переобучение — одна из главных тем уже упоминавшейся книги The Signal and the Noise Нейта Сильвера, который считает ее «самой важной научной проблемой, о которой вы никогда не слышали». В статье Why most published research findings are false* Джона Иоаннидиса (PLoS Medicine, 2005) обсуждается проблема ошибочного принятия случайных научных результатов за истинные. Йоав Беньямини и Йосеф Хохберг предлагают способ борьбы с ней в статье Controlling the false discovery rate: A practical and powerful approach to multiple testing* (Journal of the Royal Statistical Society, Series B, 1995). Дилемма смещения–дисперсии анализируется в статье Neural networks and the bias/variance dilemma Стюарта Джемана, Эли Биненстока и Рене Дурсата (Neural Computation, 1992). В статье Machine learning as an experimental science Пэта Лэнгли (Machine Learning, 1988) обсуждается роль эксперимента в машинном обучении.
Уильям Стэнли Джевонс впервые предложил считать индукцию противоположностью дедукции в книге The Principles of Science (1874). Статья Machine learning of first-order predicates by inverting resolution* Стива Магглтона и Рэя Бантина (Proceedings of the Fifth International Conference on Machine Learning, 1988) положила начало применению обратной дедукции в машинном обучении. Введением в область индуктивного логического программирования может служить книга Relational Data Mining* под редакцией Сашо Джероского и Нады Лаврач (Springer, 2001), В ней также рассматривается обратная дедукция. Статья The CN2 Induction Algorithm* Питера Кларка и Тима Ниблетта (Machine Learning, 1989) суммирует ряд важнейших алгоритмов выведения правил в стиле Михальского. Подход к выведению правил, применяемый в торговых сетях, описан в статье Fast algorithms for mining association rules* Ракеша Агарвала и Рамакришнана Шриканта (Proceedings of the Twentieth International Conference on Very Large Databases, 1994). Пример выведения правил для прогнозирования рака можно найти в статье Carcinogenesis predictions using inductive logic programming Ашвина Шринивасана, Росса Кинга, Стивена Магглтона и Майкла Стернберга (Intelligent Data Analysis in Medicine and Pharmacology, 1997).
Два ведущих обучающих алгоритма, основанных на деревьях решений, представлены в книгах C4.5: Programs for Machine Learning Джона Росса Куинлана (Morgan Kaufmann, 1992) и Classification and Regression Trees* Лео Бреймана, Джерома Фридмана, Ричарда Олшена и Чарльза Стоуна (Chapman and Hall, 1984). В статье Real-time human pose recognition in parts from single depth images* (Communications of the ACM, 2013) Джейми Шоттон и соавторы объясняют принципы использования деревьев решений для отслеживания движений игроков в системе Kinect компании Microsoft. Статья Competing approaches to predicting Supreme Court decision making Эндрю Мартина и соавторов (Perspectives on Politics, 2004) рассказывает, как деревья решений победили экспертов-юристов в прогнозировании результатов голосования в Верховном суде США. Там же приведено дерево решений для судьи Сандры Дэй О’Коннор.
Аллен Ньюэлл и Герберт Саймон сформулировали гипотезу, что весь интеллект сводится к манипулированию символами, в статье Computer science as empirical enquiry: Symbols and search (Communications of the ACM, 1976). Дэвид Марр предложил три уровня обработки информации в книге Vision* (Freeman, 1982). В книге Machine Learning: An Artificial Intelligence Approach* под редакцией Рышарда Михальского, Джейми Карбонелла и Тома Митчелла (Tioga, 1983) описан ранний период символистских исследований в машинном обучении. Статья Connectionist AI, symbolic AI, and the brain* Пола Смоленского (Artificial Intelligence Review, 1987) представляет коннекционистский подход к символистским моделям.
Книга Себастьяна Сеунга Connectome (Houghton Mifflin Harcourt, 2012) — доступное введение в нейробиологию, коннектомику и пугающую проблему создания головного мозга путем обратного инжиниринга. Книга Parallel Distributed Processing* под редакцией Дэвида Румельхарта, Джеймса Макклелланда и исследовательской группы параллельной распределенной обработки (MIT Press, 1986) — библия коннекционизма в его зените, пришедшемся на 1980-е. Neurocomputing* под редакцией Джеймса Андерсона и Эдварда Розенфельда (MIT Press, 1988) содержит многие классические коннекционистские статьи, включая статью Маккаллоха и Питса о первых моделях нейронов, Хебба о правиле Хебба, Розенблатта о перцептронах, Хопфилда о сетях Хопфилда, Окли, Хинтона и Сейновского о машинах Больцмана, Сейновского и Розенберга о NETtalk, а также Румельхарта, Хинтона и Уильямса об обратном распространении ошибки. Глава Efficient backprop* Яна Лекуна, Леона Ботту, Женевьевы Орр и Клауса-Роберта Мюллера в книге Neural Networks: Tricks of the Trade под редакцией Женевьевы Орр и Клауса-Роберта Мюллера (Springer, 1998) объясняет некоторые важнейшие трюки, необходимые для корректной работы обратного распространения.
Neural Networks in Finance and Investing* под редакцией Роберта Триппи и Эфраима Турбана (McGraw-Hill, 1992) — сборник статей по применению нейронных сетей в области финансов. Статья Life in the fast lane: The evolution of an adaptive vehicle control system Тодда Йохема и Дина Померло (AI Magazine, 1996) описывает проект создания беспилотного автомобиля ALVINN. Рекомендую также диссертацию Пола Вербоса — Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences* (Harvard University, 1974). Артур Брайсон и Хэ Юци приводят одну из первых разработанных ими версий обратного распространения в книге Applied Optimal Control* (Blaisdell, 1969).
Краткое введение в глубокое обучение — книга Learning Deep Architectures for AI* Йошуа Бенгио (Now, 2009). Проблема распределения сигнала ошибки в обратном распространении описана в статье Learning long-term dependencies with gradient descent is difficult* Йошуа Бенгио, Патрис Симар и Паоло Фраскони (IEEE Transactions on Neural Networks, 1994). В статье How many computers to identify a cat? 16,000 Джона Маркоффа (New York Times, 2012) рассказывается о проекте Google Brain и его результатах. Сверточные нейронные сети, в настоящее время лидирующие в глубоком обучении, описаны в статье Gradient-based learning applied to document recognition* Яна Лекуна, Леона Ботту, Йошуа Бенгио и Патрика Хаффнера (Proceedings of the IEEE, 1998). Статья The $1.3B quest to build a supercomputer replica of a human brain Джонатона Китса (Wired, 2013) описывает проект по моделированию мозга, запущенный Евросоюзом. Об инициативе BRAIN рассказывается в статье Томаса Инсела, Стори Лэндис и Фрэнсиса Коллинса The NIH BRAIN Initiative (Science, 2013).
Стивен Пинкер подытоживает критику символистами коннекционистских моделей во второй главе книги How the Mind Works (Norton, 1997). Сеймур Паперт берет голос в этих дебатах в статье One AI or Many? (Daedalus, 1988). Книга The Birth of the Mind Гэри Маркуса (Basic Books, 2004) объясняет, как эволюция сумела породить сложные способности человеческого мозга.
Статья Evolutionary robotics Джоша Бонгарда (Communications of the ACM, 2013) дает обзор работ Хода Липсона и других ученых по выведению роботов путем эволюции. Книга Artificial Life Стивена Леви (Vintage, 1993) позволяет прогуляться по цифровому зоопарку, от виртуальных миров с созданными в компьютере животными до генетических алгоритмов. В пятой главе Complexity Митча Уолдропа (Touchstone, 1992) рассказана история Джона Холланда и первых нескольких десятилетий работы над генетическими алгоритмами. Книга Genetic Algorithms in Search, Optimization, and Machine Learning* Дэвида Голдберга (Addison-Wesley, 1989) представляет собой стандартное введение в генетические алгоритмы.
Нильс Элдридж и Стивен Джей Гулд выдвигают свою теорию прерывистого равновесия в главе Punctuated equilibria: An alternative to phyletic gradualism книги Models in Paleobiology под редакцией Томаса Шопфа (Freeman, 1972). Ричард Докинз критикует эту теорию в девятой главе The Blind Watchmaker* (Norton, 1986). Дилемма изучения–применения обсуждается во второй главе книги Reinforcement Learning* (MIT Press, 1998). Джон Холланд предлагает свое решение этой проблемы и много других идей в книге Adaptation in Natural and Artificial Systems Джонатона Китса (University of Michigan Press, 1975).
Genetic Programming* Джона Коза (MIT Press, 1992) — ключевая публикация о парадигме генетического программирования. Полученная путем эволюции футбольная команда роботов описана в статье Evolving team Darwin United* Давида Андре и Астро Теллера, а также в книге RoboCup-98: Robot Soccer World Cup II под редакцией Минору Асады и Хироаки Китано (Springer, 1999). В Genetic Programming III* Джона Коза, Форреста Беннетта III, Давида Андре и Мартина Кина (Morgan Kaufmann, 1999) можно найти множество примеров создания электронных плат путем эволюции. Дэнни Хиллис утверждает, что паразиты полезны для эволюции, в статье Co-evolving parasites improve simulated evolution as an optimization procedure* (Physica D, 1990). Ади Ливант, Христос Пападимитриу, Джонатан Дашофф и Маркус Фельдман выдвигают гипотезу, что половое размножение оптимизирует смешиваемость, в статье A mixability theory of the role of sex in evolution* (Proceedings of the National Academy of Sciences, 2008). Кевин Ланг сравнивает генетическое программирование с восхождением на выпуклые поверхности в статье Hill climbing beats genetic search on a Boolean circuit synthesis problem of Koza’s* (Proceedings of the Twelfth International Conference on Machine Learning, 1995). Ответ Коза — статья A response to the ML-95 paper entitled…* — не был опубликован, но доступен в интернете на сайте .
Джеймс Болдуин предлагает эффект, названный позже его именем, в статье A new factor in evolution (American Naturalist, 1896), а Джефф Хинтон и Стивен Нолан описывают применение этого эффекта в статье How learning can guide evolution* (Complex Systems, 1987). Эффекту Болдуина был посвящен вышедший в 1996 году специальный номер журнала Evolutionary Computation под редакцией Питера Терни, Даррелла Уитли и Расселла Андерсона.
Различие между описательными и нормативными теориями изложил Джон Невилл Кейнс в книге The Scope and Method of Political Economy (Macmillan, 1891).
Шэрон Берч Макгрейн рассказывает историю байесовского учения от Байеса и Лапласа до наших дней в книге The Theory That Would Not Die (Yale University Press, 2011). Введением в байесовскую статистику может служить учебник First Course in Bayesian Statistical Methods* Питера Хоффа (Springer, 2009).
Наивный байесовский алгоритм впервые упомянут в книге Pattern Classification and Scene Analysis* Ричарда Дуда и Питера Харта (Wiley, 1973). Милтон Фридман приводит аргументы в пользу чрезмерно упрощенных теорий в статье The methodology of positive economics, которая вышла в сборнике Essays in Positive Economics (University of Chicago Press, 1966). Применение наивного байесовского алгоритма для фильтрации спама описано в статье Stopping spam Джошуа Гудмана, Дэвида Хекермана и Роберта Рунтвейта (Scientific American, 2005). Статья Relevance weighting of search terms* Стивена Робертсона и Карена Спарка Джонса (Journal of the American Society for Information Science, 1976) посвящена использованию методов, схожих с наивным байесовским алгоритмом, для поиска информации.
Статья First links in the Markov chain Брайана Хейза (American Scientist, 2013) рассказывает об изобретении Марковым цепей своего имени. Статья Large language models in machine translation Торстена Брантса и соавторов (Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007) объясняет, как работает Google Translate. В статье The PageRank citation ranking: Bringing order to the Web* Ларри Пейджа, Сергея Брина, Раджива Мотвани и Терри Винограда (Stanford University technical report, 1998) описан алгоритм PageRank и его интерпретация как случайное блуждание по сети. Книга Statistical Language Learning* Юджина Чарняка (MIT Press, 1996) объясняет, как работают скрытые марковские модели, а Statistical Methods for Speech Recognition* Фреда Елинека (MIT Press, 1997) описывает их применение для распознавания речи. Об истории логического вывода в стиле скрытой марковской модели в области коммуникаций рассказывает статья The Viterbi algorithm: A personal history Дэвида Форни (не опубликована, но доступна в интернете по адресу ). Книга Bioinformatics: The Machine Learning Approach* Пьера Балди и Серена Брунака (второе издание, MIT Press, 2001) — введение в использование машинного обучения, в том числе в скрытой марковской модели в биологии. Статья Engineers look to Kalman filtering for guidance Барри Ципры (SIAM News, 1993) — краткое введение в фильтры Калмана, их историю и применение.
Работа Джуды Перла о байесовских сетях описана в его книге Probabilistic Reasoning in Intelligent Systems* (Morgan Kaufmann, 1988). Статья Юджина Чарняка Bayesian networks without tears* (AI Magazine, 1991) — во многом нематематическое введение в байесовские сети. Статья Probabilistic interpretation for MYCIN’s certainty factors* Дэвида Хекермана (Proceedings of the Second Conference on Uncertainty in Artificial Intelligence, 1986) объясняет, когда наборы правил с оценкой уверенности — разумные приближения байесовских сетей, а когда — нет. Статья Module networks: Identifying regulatory modules and their condition-specific regulators from gene expression data Эрана Сегала и соавторов (Nature Genetics, 2003) — пример использования байесовских сетей для моделирования регуляции генов. В статье Microsoft virus fighter: Spam may be more difficult to stop than HIV Бена Пейнтера (Fast Company, 2012) рассказывается, как Дэвид Хекерман вдохновился спам-фильтрами и использовал байесовские сети для разработки возможной вакцины от СПИДа. Вероятностное, или «зашумленное», ИЛИ объясняется в упомянутой выше книге Перла. В статье Probabilistic diagnosis using a reformulation of the INTERNIST-1/QMR knowledge base М. А. Шве и соавторов (части I и II, Methods of Information in Medicine, 1991) описано применение байесовской сети с зашумленным ИЛИ в медицинской диагностике. Байесовская сеть Google для размещения рекламы описана в разделе 26.5.4 книги Кевина Мерфи Machine Learning* (MIT Press, 2012). Система оценки игроков Microsoft описана в статье TrueSkillTM: A Bayesian skill rating system* Ральфа Хербриха, Тома Минки и Тора Грепела (Advances in Neural Information Processing Systems 19, 2007).
Книга Modeling and Reasoning with Bayesian Networks* Аднана Дарвиша (Cambridge University Press, 2009) объясняет важнейшие алгоритмы логического вывода в байесовских сетях. Номер Computing in Science and Engineering* за январь-февраль 2000 года под редакцией Джека Донгарры и Фрэнсиса Салливана содержит статьи о десяти главных алгоритмах ХХ столетия, в том числе MCMC. Статья Stanley: The robot that won the DARPA Grand Challenge Себастьяна Труна и соавторов (Journal of Field Robotics, 2006) рассказывает, как работает беспилотный автомобиль Stanley. Статья Bayesian networks for data mining* Дэвида Хекермана (Data Mining and Knowledge Discovery, 1997) подытоживает байесовский подход к обучению и объясняет, как получать байесовские сети на основе данных. Статья Gaussian processes: A replacement for supervised neural networks?* Дэвида Маккея (NIPS tutorial notes, 1997; онлайн ) дает почувствовать атмосферу захвата байесовцами конференции NIPS.
Необходимость взвешивать вероятность появления слов при распознавании речи обсуждается в разделе 9.6 книги Speech and Language Processing* Дэна Джурафски и Джеймса Мартина (второе издание, Prentice Hall, 2009). Моя статья о наивном байесовском алгоритме, написанная в соавторстве с Майком Паццани, On the optimality of the simple Bayesian classifier under zero-one loss Джонатона Китса (Machine Learning, 1997) — расширенная журнальная версия статьи, написанной в 1996 году для конференции. В книге Джуды Перла, о которой уже говорилось выше, рассмотрены сети Маркова и байесовские сети. Сети Маркова в компьютерном зрении — тема книги Markov Random Fields for Vision and Image Processing* под редакцией Эндрю Блейка, Пушмита Коли и Карстена Ротера (MIT Press, 2011). Сети Маркова, которые максимизируют условное правдоподобие, были представлены в статье Conditional random fields: Probabilistic models for segmenting and labeling sequence data* Джона Лафферти, Эндрю Маккаллума и Фернандо Перейры (International Conference on Machine Learning, 2001).
История попыток соединить вероятность и логику рассмотрена в специальном издании Journal of Applied Logic*, вышедшем в 2003 году под редакцией Джона Уильямсона и Дова Габбая. В статье From knowledge bases to decision models* Майкла Уэллмана, Джона Бриза и Роберта Голдмана (Knowledge Engineering Review, 1992) обсуждаются некоторые ранние подходы к этой проблеме с применением искусственного интеллекта.
Фрэнк Абигнейл подробно рассказывает о своих подвигах в автобиографии Catch Me If You Can*, написанной в соавторстве со Стэном Реддингом (Grosset & Dunlap, 1980). Исходный технический отчет об алгоритме ближайшего соседа можно найти в статье Эвелин Фикс и Джо Ходжеса Discriminatory analysis: Nonparametric discrimination: Consistency properties* (USAF School of Aviation Medicine, 1951). В книге Nearest Neighbor (NN) Norms* под редакцией Белура Дасатари (IEEE Computer Society Press, 1991) собраны многие ключевые для этой области статьи. Локально линейная регрессия рассмотрена в статье Locally weighted learning* Криса Аткесона, Эндрю Мура и Стефана Шаала (Artificial Intelligence Review, 1997). Первая система совместной фильтрации, основанная на алгоритме ближайшего соседа, описана в статье GroupLens: An open architecture for collaborative filtering of netnews* Пола Резника и соавторов (Proceedings of the 1994 ACM Conference on Computer-Supported Cooperative Work, 1994). Алгоритм совместной фильтрации Amazon приведен в статье Amazon.com recommendations: Item-to-item collaborative filtering* Грега Линдена, Брента Смита и Джереми Йорка (IEEE Internet Computing, 2003). (О Netflix см. литературу к главе 8.) Вклад рекомендательных систем в продажи Amazon и Netflix можно найти, например, в книге Виктора Майера-Шенбергера и Кеннета Кукьера Big Data или Predictive Analytics Зигеля (см. выше). Также любопытна статья 1967 года Тома Кавера и Питера Харта об уровне ошибки ближайшего соседа — Nearest neighbor pattern classification* (IEEE Transactions on Information Theory).
Проклятие размерности обсуждается в разделе 2.5 книги The Elements of Statistical Learning* Тревора Хасти, Роба Тибширани и Джерри Фридмана (второе издание, Springer, 2009). В статье Wrappers for feature subset selection* Рона Кохави и Джорджа Джона (Artificial Intelligence, 1997) приводится сравнение методов выбора атрибутов. Статья Similarity metric learning for a variable-kernel classifier* Дэвида Лоу (Neural Computation, 1995) — пример алгоритма взвешивания свойств.
Статья Support vector machines and kernel methods: The new generation of learning machines* Нелло Кристианини и Бернхарда Шелькопфа (AI Magazine, 2002) — в целом нематематическое введение в метод опорных векторов. Революция, произведенная этим методом, началась со статьи A training algorithm for optimal margin classifiers* Бернхарда Босера, Изабель Гуйон и Владимира Вапника (Proceedings of the Fifth Annual Workshop on Computational Learning Theory, 1992). Первой статьей о применении метода опорных векторов к классификации текстов стала Text categorization with support vector machines* Торстена Йоахимса (Proceedings of the Tenth European Conference on Machine Learning, 1998). Глава 5 книги An Introduction to Support Vector Machines* Нелло Кристианини и Джона Шоуи-Тэйлора (Cambridge University Press, 2000) — краткое введение в оптимизацию с ограничениями в контексте метода опорных векторов.
Книга Case-Based Reasoning* Джанет Колоднер (Morgan Kaufmann, 1993) — учебник по рассуждениям на основе прецедентов. В статье Using case-based retrieval for customer technical support* Евангелоса Симудиса (IEEE Expert, 1992) объясняется применение этого метода в службах поддержки. Eliza описана в статье Rise of the software machines* (Economist, 2013) и на сайте компании IPsoft. Кевин Эшли рассматривает рассуждения на основе прецедентов в юриспруденции в своей книге Modeling Legal Arguments* (MIT Press, 1991). Дэвид Коуп подытоживает свой подход к автоматизированному сочинению музыки в статье Recombinant music: Using the computer to explore musical style (IEEE Computer, 1991). Дедре Джентнер предложил картирование структур в статье Structure mapping: A theoretical framework for analogy* (Cognitive Science, 1983). В статье The man who would teach machines to think Джеймса Сомерса (Atlantic, 2013) рассмотрены взгляды Дугласа Хофстадтера на искусственный интеллект.
Алгоритм RISE я описал в статье Unifying instance-based and rule-based induction* (Machine Learning, 1996).
В книге Элисон Гопник, Энди Мельцоффа и Пэта Кула The Scientist in the Crib (Harper, 1999) описаны открытия психологов в области механизмов обучения новорожденных и маленьких детей.
Алгоритм k-средних изначально был предложен Стюартом Ллойдом из Bell Labs в 1957 году в техническом отчете под названием Least squares quantization in PCM* (позже он был издан в виде статьи в IEEE Transactions on Information Theory in 1982). Первая статья о EM-алгоритме — Maximum likelihood from incomplete data via the EM algorithm* Артура Демпстера, Нэн Лэрд и Дональда Рубина (Journal of the Royal Statistical Society B, 1977). Иерархическая кластеризация и другие методы описаны в книге Finding Groups in Data: An Introduction to Cluster Analysis* Леонарда Кауфмана и Питера Руссо (Wiley, 1990).
Метод главных компонент — один из старейших в машинном обучении и статистике. Он был предложен Карлом Пирсоном еще в 1901 году в статье On lines and planes of closest fit to systems of points in space* (Philosophical Magazine). Разновидность уменьшения размерности, используемая при оценке эссе на экзаменах SAT, была введена Скоттом Дирвестером и соавторами в статье Indexing by latent semantic analysis* (Journal of the American Society for Information Science, 1990). Йегуда Корен, Роберт Белл и Крис Волинский объясняют, как работает коллаборативная фильтрация в стиле Netflix, в статье Matrix factorization techniques for recommender systems* (IEEE Computer, 2009). Алгоритм Isomap появился в статье A global geometric framework for nonlinear dimensionality reduction* Джоша Тененбаума, Вина де Сильвы и Джона Лэнгфорда (Science, 2000).
Книга Reinforcement Learning: An Introduction* Рича Саттона и Энди Барто (MIT Press, 1998) — стандартный учебник по обучению с подкреплением. Universal Artificial Intelligence* Маркуса Хаттера (Springer, 2005) — попытка создать общую теорию данного вида обучения. Пионерской работе Артура Сэмюэла по обучению игре в шашки посвящена его статья Some studies in machine learning using the game of checkers* (IBM Journal of Research and Development, 1959). В ней встречается одно из первых упоминаний в печати термина «машинное обучение». Крис Уоткинс сформулировал проблему обучения с подкреплением в своей диссертации Learning from Delayed Rewards* (Cambridge University, 1989). Обучающийся алгоритм с подкреплением DeepMind, применяемый в компьютерных играх, описан в статье Human-level control through deep reinforcement learning* Владимира Мниха и соавторов (Nature, 2015).
Пол Розенблюм рассказывает о развитии алгоритма образования фрагментов в статье A cognitive odyssey: From the power law of practice to a general learning mechanism and beyond (Tutorials in Quantitative Methods for Psychology, 2006). A/B-тестирование и другие методики онлайн-экспериментов объясняются в статье Practical guide to controlled experiments on the Web: Listen to your customers not to the HiPPO* Рона Кохави, Рэндала Хенне и Дэна Зоммерфельда (Proceedings of the Thirteenth International Conference on Knowledge Discovery and Data Mining, 2007). Инкрементное моделирование — многомерное обобщение A/B-тестирования — тема седьмой главы книги Predictive Analytics Эрика Зигеля (Wiley, 2013).
В книге Introduction to Statistical Relational Learning* под редакцией Лизы Гетур и Бена Таскара (MIT Press, 2007) рассмотрены основные подходы в области статистического реляционного обучения. Итоги работы по моделированию сплетен мы с Мэттом Ричардсоном подводим в статье Mining social networks for viral marketing (IEEE Intelligent Systems, 2005).
Введение в метаобучение — тема книги Model Ensembles: Foundations and Algorithms* Чжоу Чжихуа (Chapman and Hall, 2012). Первая статья о стэкинге — Stacked generalization* Дэвида Уолперта (Neural Networks, 1992). Лео Брейман ввел бэггинг в статье Bagging predictors* (Machine Learning, 1996), а случайный лес — в Random forests* (Machine Learning, 2001). Бустинг описан в статье Experiments with a new boosting algorithm Йоава Фройнда и Роба Шапире (Proceedings of the Thirteenth International Conference on Machine Learning, 1996).
В статье I, Algorithm Анила Анантасвами (New Scientist, 2011) можно познакомиться с хроникой поиска объединения логики и вероятности в науке об искусственном интеллекте. В соавторстве с Дэниелом Лоудом я написал введение в логические сети Маркова — книгу Markov Logic: An Interface Layer for Artificial Intelligence* (Morgan & Claypool, 2009). На сайте Alchemy () вы найдете руководства, видео, MLN, наборы данных, публикации, указатели на другие системы и еще много интересного. Логическая сеть Маркова для роботизированного картирования описана в статье Hybrid Markov logic networks* Вана Цзюэ и Педро Домингоса (Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, 2008). Томас Дитрих и Бао Синьлун описывают применение MLN в PAL — одном из проектов DARPA — в статье Integrating multiple learning components through Markov logic* (Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, 2008). Статья Extracting semantic networks from text via relational clustering* Стэнли Кока и Педро Домингоса (Proceedings of the Nineteenth European Conference on Machine Learning, 2008) описывает получение семантических сетей на базе интернета.
Эффективные MLN с иерархией классов и частей описаны в статье Learning and inference in tractable probabilistic knowledge bases* Матиаса Ниперта и Педро Домингоса (Proceedings of the Thirty-First Conference on Uncertainty in Artificial Intelligence, 2015). О подходе Google к параллельному градиентному спуску можно прочесть в статье Large-scale distributed deep networks* Джеффа Дина и соавторов (Advances in Neural Information Processing Systems 25, 2012). Статья A general framework for mining massive data streams* Педро Домингоса и Джеффа Халтена (Journal of Computational and Graphical Statistics, 2003) подытоживает предложенный нами метод обучения из незамкнутых потоков данных, основанный на сэмплинге. Проект FuturICT — тема статьи The machine that would predict the future Дэвида Вейнбергера (Scientific American, 2011).
Статья Cancer: The march on malignancy (Nature supplement, 2014) знакомит читателя с текущим состоянием борьбы с раком. Статья Using patient data for personalized cancer treatments Криса Эдвардса (Communications of the ACM, 2014) описывает ранние стадии исследований, которые могут вырасти в CanceRx. Статья Simulating a living cell Маркуса Коверта (Scientific American, 2014) рассказывает, как его исследовательская группа построила компьютерную модель целой болезнетворной бактерии. Статья Breakthrough Technologies 2015: Internet of DNA Антонио Регаладо (MIT Technology Review, 2015) сообщает о работе Global Alliance for Genomics and Health. Проект Cancer Commons описан в статье Cancer: A Computational Disease that AI Can Cure Джея Тененбаума и Джеффа Шрейджера (AI Magazine, 2011).
В статье Love, actuarially Кевина Поулсена (Wired, 2014) рассказана история мужчины, который с помощью машинного обучения нашел любовь на сайте знакомств OkCupid. Книга Dataclysm Кристиана Раддера (Crown, 2014) еще глубже рассматривает данные OkCupid и находит в них самые разные идеи. Total Recall Гордона Мура и Джима Геммелла (Dutton, 2009) посвящена последствиям тотальной записи всего, что мы делаем. The Naked Future Патрика Такера (Current, 2014) — обзор использования и злоупотребления данными для прогнозирования. Крейг Манди приводит аргументы в пользу сбалансированного подхода к сбору и использованию данных в статье Privacy pragmatism (Foreign Affairs, 2014). В книге Эрика Бринйольфссона и Эндрю Макафи The Second Machine Age (Norton, 2014) обсуждается, как прогресс в области искусственного интеллекта формирует будущее труда и экономики. Статья World War R Криса Баранюка (New Scientist, 2014) сообщает о дебатах, идущих вокруг боевого применения роботов. Если верить статье Transcending complacency on superintelligent machines Стивена Хокинга и соавторов (Huffington Post, 2014), пришло время беспокоиться о рисках искусственного интеллекта. Ник Бостром в книге Superintelligence (Oxford University Press, 2014) рассматривает эти опасности и задумывается, как с ними справиться.
A Brief History of Life Ричарда Хокинга (Random Penguin, 1982) суммирует квантовые скачки эволюции за миллионы лет до нашей эры. (До эры компьютеров. Шутка.) Книга The Singularity Is Near Рэя Курцвейла (Penguin, 2005) — ваш путеводитель в трансгуманистическое будущее. Джоэл Гарро рассматривает три сценария развития управляемой человеком эволюции в книге Radical Evolution (Broadway Books, 2005). В книге What Technology Wants (Penguin, 2010) Кевин Келли утверждает, что технология — это продолжение эволюции другими средствами. Джордж Дайсон в книге Darwin Among the Machines (Basic Books, 1997) приводит хронологию развития технологий и выдвигает гипотезы, куда оно может привести. Крейг Вентер объясняет, как его команда синтезировала живую клетку, в книге Life at the Speed of Light (Viking, 2013).