Глава 16. Данные в коробке: надежные хранилища

Огромная ошибка — делать выводы, не имея необходимой информации.

Артур Конан Дойль

Активная программа работает с данными, которые хранятся в запоминающем устройстве с произвольным доступом (Random Access Memory, RAM). RAM — очень быстрая память, но дорогая и требующая постоянного питания: если питание пропадет, то все данные, которые в ней хранятся, будут утеряны. Жесткие диски медленнее оперативной памяти, но более емкие, стоят дешевле и могут хранить данные даже после того, как кто-то выдернет шнур питания. Поэтому много усилий при создании компьютерных систем было потрачено на поиск оптимального соотношения между хранением данных на диске и в оперативной памяти. Как программистам, нам важно постоянство: хранение и извлечение данных с использованием энергонезависимых носителей, таких как диски.

В этой главе мы рассмотрим разнообразные способы хранения данных, каждый из которых оптимизирован для разных целей: плоские файлы, структурированные файлы и базы данных. Операции с файлами, не касающиеся ввода-вывода, рассматриваются в главе 14.

Запись — это термин, обозначающий некоторые связанные между собой данные. Запись состоит из отдельных полей.

Плоские текстовые файлы

Самый простой пример постоянного хранилища — это старый добрый файл, который иногда называют еще плоским файлом. Он хорошо работает в том случае, когда у данных очень простая структура и вы полностью записываете их на диск или считываете с него. Такой подход годится для простых текстовых данных.

Текстовые файлы, дополненные пробелами

В этом формате каждое поле записи имеет фиксированную длину и при необходимости дополняется до требуемой длины (как правило, пробелами) так, чтобы все записи имели одинаковый размер. Программист может использовать функцию seek() для перемещения по файлу, для записи или только для чтения необходимых записей и полей.

Структурированные текстовые файлы

Для простых текстовых файлов единственным уровнем организации является строка. Но иногда вам может понадобиться более структурированный файл, чтобы сохранить данные из программы для дальнейшего использования или отправить их другой программе.

Существует множество форматов, и у каждого есть свои особенности.

•Разделитель (separator или delimiter) — такие символы, как табуляция ('\t'), запятая (','), вертикальная черточка ('|'). Это пример CSV — формата со значениями, разделенными запятой.

• Символы '<' и '>' в окружении тегов. Примеры включают в себя XML и HTML.

• Знаки препинания. Примером является JavaScript Object Notation (JSON).

• Выделение пробелами. Примером является YAML (аббревиатура расшифровывается как YAML Ain’t Markup Language — «YAML — не язык разметки»).

• Другие файлы, например конфигурационные.

Каждый из этих форматов структурированных файлов может быть считан и записан с помощью как минимум одного модуля Python.

CSV

Файлы с разделителями часто используются в качестве формата обмена данными для электронных таблиц и баз данных. Вы можете считать файл CSV вручную, по одной строке за раз, разделяя каждую строку на поля, расставляя запятые и добавляя результат в структуру данных, такую как список или словарь. Но лучшим решением будет использовать стандартный модуль csv, поскольку парсинг этих файлов может оказаться сложнее, чем вы думаете. Ознакомьтесь с важными характеристиками файлов CSV, о которых нужно помнить:

• некоторые имеют альтернативные разделители вместо запятой: самыми популярными являются '|' и '\t';

• некоторые имеют escape-последовательности. Если символ-разделитель встречается внутри поля, все поле может быть окружено кавычками или же ему будет предшествовать escape-последовательность;

• некоторые имеют разные символы конца строк. В Unix используется '\n', в Microsoft — '\r\n'. Apple раньше применяла символ '\r', но теперь перешла на использование '\n';

• некоторые в первой строке могут иметь названия столбцов.

Сначала мы посмотрим, как читать и записывать список строк, каждая из которых содержит список столбцов:

>>> import csv

>>> villains = [

... ['Doctor', 'No'],

... ['Rosa', 'Klebb'],

... ['Mister', 'Big'],

... ['Auric', 'Goldfinger'],

['Ernst', 'Blofeld'],

... ]

>>> with open('villains', 'wt') as fout: # менеджер контекста

... csvout = csv.writer(fout)

... csvout.writerows(villains)

Этот код создает пять записей:

Doctor,No

Rosa,Klebb

Mister,Big

Auric,Goldfinger

Ernst,Blofeld

Теперь попробуем считать их обратно:

>>> import csv

>>> with open('villains', 'rt') as fin: # менеджер контекста

... cin = csv.reader(fin)

... villains = [row for row in cin] # здесь используется включение списка

...

>>> print(villains)

[['Doctor', 'No'], ['Rosa', 'Klebb'], ['Mister', 'Big'],

['Auric', 'Goldfinger'], ['Ernst', 'Blofeld']]

Мы воспользовались структурой, созданной функцией reader(). Она услужливо создала в объекте cin ряды, которые мы можем извлечь с помощью цикла for.

Используя функции reader() и writer() с их стандартными опциями, мы получим столбцы, разделенные запятыми, и ряды, разделенные символами перевода строки.

Данные могут иметь формат списка словарей, а не списка списков. Снова считаем файл villains, на этот раз используя новую функцию DictReader() и указывая имена столбцов:

>>> import csv

>>> with open('villains', 'rt') as fin:

... cin = csv.DictReader(fin, fieldnames=['first', 'last'])

... villains = [row for row in cin]

...

>>> print(villains)

[OrderedDict([('first', 'Doctor'), ('last', 'No')]),

OrderedDict([('first', 'Rosa'), ('last', 'Klebb')]),

OrderedDict([('first', 'Mister'), ('last', 'Big')]),

OrderedDict([('first', 'Auric'), ('last', 'Goldfinger')]),

OrderedDict([('first', 'Ernst'), ('last', 'Blofeld')])]

Словарь OrderedDict используется для обеспечения совместимости с версиями Python ниже 3.6, в которых словари сохраняли порядок элементов по умолчанию.

Перепишем CSV-файл с помощью новой функции DictWriter(). Мы также вызовем функцию writeheader(), чтобы записать начальную строку, содержащую имена столбцов, в CSV-файл:

import csv

villains = [

{'first': 'Doctor', 'last': 'No'},

{'first': 'Rosa', 'last': 'Klebb'},

{'first': 'Mister', 'last': 'Big'},

{'first': 'Auric', 'last': 'Goldfinger'},

{'first': 'Ernst', 'last': 'Blofeld'},

]

with open('villains', 'wt') as fout:

cout = csv.DictWriter(fout, ['first', 'last'])

cout.writeheader()

cout.writerows(villains)

Этот код создает файл villains.csv со строкой заголовка (пример 16.1).

Пример 16.1. villains.csv

first,last

Doctor,No

Rosa,Klebb

Mister,Big

Auric,Goldfinger

Ernst,Blofeld

Теперь считаем его обратно. Опуская аргумент fieldnames в вызове DictReader(), мы указываем функции использовать значения первой строки файла (first,last) как имена столбцов и соответствующие ключи словаря:

>>> import csv

>>> with open('villains', 'rt') as fin:

... cin = csv.DictReader(fin)

... villains = [row for row in cin]

...

>>> print(villains)

[OrderedDict([('first', 'Doctor'), ('last', 'No')]),

OrderedDict([('first', 'Rosa'), ('last', 'Klebb')]),

OrderedDict([('first', 'Mister'), ('last', 'Big')]),

OrderedDict([('first', 'Auric'), ('last', 'Goldfinger')]),

OrderedDict([('first', 'Ernst'), ('last', 'Blofeld')])]

XML

Файлы с разделителями отображают только два измерения: ряды (строки) и столбцы (поля внутри строк). Если вы хотите обмениваться структурами данных между программами, вам нужен способ кодирования иерархий, последовательностей, множеств и других структур в виде текста.

XML является самым известным форматом разметки, который можно применять в этом случае. Для разделения данных он использует теги, как показано в следующем примере (файл menu.xml):

<?xml version="1.0"?>

<menu>

<item price="$6.00">breakfast burritos</item>

<item price="$4.00">pancakes</item>

</breakfast>

<item price="$5.00">hamburger</item>

</lunch>

<item price="8.00">spaghetti</item>

</dinner>

</menu>

Рассмотрим основные характеристики формата XML.

• Теги начинаются с символа <. В этом примере использованы теги menu, breakfast, lunch, dinner и item.

• Пробелы игнорируются.

• Обычно контент размещается после начального тега, такого как <menu>. Имеется и соответствующий конечный тег, такой как </menu>.

• Теги могут быть вложены в другие теги на любой глубине. В этом примере теги item являются потомками тегов breakfast, lunch и dinner, которые, в свою очередь, являются потомками тега menu.

• Внутри начального тега могут встретиться опциональные атрибуты. В этом примере price является опциональным атрибутом тега item.

• Теги могут содержать значения. В этом примере каждый тег item имеет значение pancakes для второго элемента тега breakfast.

• Если у тега с именем thing нет значений или потомков, он может быть оформлен как единственный тег путем включения прямого слеша прямо перед закрывающей угловой скобкой (<thing/>), вместо того чтобы использовать начальный и конечный теги <thing> и </thing>.

• Место размещения данных — атрибутов, значений или тегов-потомков — является в какой-то мере произвольным. Например, мы могли бы написать последний тег item как <itemprice="$8.00"food="spaghetti"/>.

XML часто используется в каналах данных и сообщениях, у него есть такие подформаты, как RSS и Atom. В некоторых отраслях существует множество специализированных форматов XML, например в сфере в финансов ().

Сверхгибкость формата XML вдохновила многих людей на создание библиотек для Python, каждая из которых отличается от других подходом и возможностями.

Самый простой способ проанализировать XML в Python — использовать стандартный модуль ElementTree. Рассмотрим небольшую программу, которая анализирует файл menu.xml и выводит на экран некоторые теги и атрибуты:

>>> import xml.etree.ElementTree as et

>>> tree = et.ElementTree(file='menu.xml')

>>> root = tree.getroot()

>>> root.tag

'menu'

>>> for child in root:

... print('tag:', child.tag, 'attributes:', child.attrib)

... for grandchild in child:

... print('\ttag:', grandchild.tag, 'attributes:', grandchild.attrib)

...

tag: breakfast attributes: {'hours': '7-11'}

tag: item attributes: {'price': '$6.00'}

tag: item attributes: {'price': '$4.00'}

tag: lunch attributes: {'hours': '11-3'}

tag: item attributes: {'price': '$5.00'}

tag: dinner attributes: {'hours': '3-10'}

tag: item attributes: {'price': '8.00'}

>>> len(root) # количество разделов меню

>>> len(root[0]) # количество блюд для завтрака

Для каждого элемента вложенных списков tag — это строка тега, а attrib — это словарь его атрибутов. Библиотека ElementTree имеет множество других способов поиска данных, организованных в формате XML, модификации этих данных и даже записи XML-файлов. Все детали изложены в документации библиотеки ElementTree ().

Среди других библиотек Python для работы с XML можно отметить следующие:

•xml.dom. The Document Object Model (DOM) (знакомая разработчикам на JavaScript) представляет веб-документы в виде иерархических структур. Этот модуль загружает XML-файл в память целиком и позволяет получать доступ ко всем его частям;

•xml.sax. Simple API for XML, или SAX, разбирает XML на ходу, поэтому не загружает в память сразу весь документ. Она может быть хорошим выбором, если нужно обработать очень большие потоки XML.

Примечание о безопасности XML

Вы можете использовать любой формат, описанный в этой главе, чтобы сохранять объекты в файлы и снова их читать. Однако при этом существует вероятность получить проблемы с безопасностью.

Например, в следующем фрагменте XML-файла со страницы «Википедии» об атаках billion laughs () (это разновидность атаки «отказ в обслуживании») определяется десять вложенных сущностей, каждая из которых расширяет более низкий уровень в десять раз, порождая в сумме один миллиард сущностей:

<?xml version="1.0"?>

<!DOCTYPE lolz [

<!ENTITY lol "lol">

<!ENTITY lol1 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;">

<!ENTITY lol2 "&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;">

<!ENTITY lol3 "&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;">

<!ENTITY lol4 "&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;">

<!ENTITY lol5 "&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;">

<!ENTITY lol6 "&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;">

<!ENTITY lol7 "&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;">

<!ENTITY lol8 "&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;">

<!ENTITY lol9 "&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;">

Плохая новость: атака подорвет работоспособность всех XML-библиотек, упомянутых в предыдущем подразделе. На ресурсе Defused XML () эта и другие атаки перечислены наряду с уязвимостями библиотек Python. Перейдя по ссылке, вы увидите, как изменять настройки многих библиотек так, чтобы избежать подобных проблем. Вы также можете использовать библиотеку defusedxml в качестве внешнего интерфейса безопасности для других библиотек:

>>> # небезопасно:

>>> from xml.etree.ElementTree import parse

>>> et = parse(xmlfile)

>>> # безопасно:

>>> from defusedxml.ElementTree import parse

>>> et = parse(xmlfile)

Стандартный сайт Python также имеет свою собственную страницу об уязвимостях XML.

HTML

Огромные объемы данных сохраняются в формате гипертекстового языка разметки — Hypertext Markup Language (HTML). Это основной формат документов в Интернете. Проблема заключается в том, что значительная часть этих документов не соответствует правилам формата HTML, что затрудняет анализ. Кроме того, большая часть HTML предназначена для форматирования выводимой информации, а не для обмена данными. Поскольку эта глава предназначена для описания относительно хорошо определенных форматов данных, я вынес рассмотрение HTML в главу 18.

JSON

JavaScript Object Notation (JSON) (/) стал очень популярным форматом обмена данными, вышедшим за пределы языка JavaScript. Формат JSON является частью языка JavaScript и часто содержит легальный с точки зрения Python синтаксис. Он прекрасно подходит Python, что делает его хорошим выбором для обмена данными между программами. Вы увидите множество примеров JSON для веб-разработки в главе 18.

В отличие от XML, для которого написано множество модулей, для JSON существует всего один модуль с простым именем json. Эта программа кодирует (выгружает) данные в строку JSON и декодирует (загружает) строку JSON обратно. В следующем примере мы создадим структуру данных, содержащую данные из более раннего примера XML:

>>> menu = \

... {

... "breakfast": {

... "hours": "7-11",

... "items": {

... "breakfast burritos": "$6.00",

... "pancakes": "$4.00"

... }

... },

... "lunch" : {

... "hours": "11-3",

... "items": {

... "hamburger": "$5.00"

... }

... },

... "dinner": {

... "hours": "3-10",

... "items": {

... "spaghetti": "$8.00"

... }

Далее закодируем структуру данных menu в строку JSON menu_json с помощью функции dumps():

>>> import json

>>> menu_json = json.dumps(menu)

>>> menu_json

'{"dinner": {"items": {"spaghetti": "$8.00"}, "hours": "3-10"},

"lunch": {"items": {"hamburger": "$5.00"}, "hours": "11-3"},

"breakfast": {"items": {"breakfast burritos": "$6.00", "pancakes":

"$4.00"}, "hours": "7-11"}}'

А теперь превратим строку JSON menu_json обратно в структуру данных menu2 с помощью функции loads():

>>> menu2 = json.loads(menu_json)

>>> menu2

{'breakfast': {'items': {'breakfast burritos': '$6.00', 'pancakes':

'$4.00'}, 'hours': '7-11'}, 'lunch': {'items': {'hamburger': '$5.00'},

'hours': '11-3'}, 'dinner': {'items': {'spaghetti': '$8.00'}, 'hours': '3-10'}}

menu и menu2 являются словарями с одинаковыми ключами и значениями.

Вы можете получить исключение, пытаясь закодировать или декодировать некоторые объекты, например datetime (этот вопрос детально рассматривается в главе 13), как показано здесь:

>>> import datetime

>>> import json

>>> now = datetime.datetime.utcnow()

>>> now

datetime.datetime(2013, 2, 22, 3, 49, 27, 483336)

>>> json.dumps(now)

Traceback (most recent call last):

# ... (опустили стек вызовов, чтобы спасти деревья)

TypeError: datetime.datetime(2013, 2, 22, 3, 49, 27, 483336) is not JSON serializable

>>>

Это может случиться, поскольку стандарт JSON не определяет типы даты или времени — он ожидает, что вы укажете ему, как с ними работать. Вы можете преобразовать формат datetime в то, что JSON понимает, например в строку или значение времени epoch (см. главу 13):

>>> now_str = str(now)

>>> json.dumps(now_str)

'"2013-02-22 03:49:27.483336"'

>>> from time import mktime

>>> now_epoch = int(mktime(now.timetuple()))

>>> json.dumps(now_epoch)

'1361526567'

Если значение datetime встретится между обычно сконвертированными типами данных, может быть неудобно выполнять такие особые преобразования. Вы можете изменить способ кодирования JSON с помощью наследования, описанного в главе 10. Документация JSON для Python () содержит пример такого переопределения для комплексных чисел, что также заставляет JSON притвориться мертвым. Напишем переопределение для datetime:

>>> import datetime

>>> now = datetime.datetime.utcnow()

>>> class DTEncoder(json.JSONEncoder):

... def default(self, obj):

... # isinstance() checks the type of obj

... if isinstance(obj, datetime.datetime):

... return int(mktime(obj.timetuple()))

... # else it's something the normal decoder knows:

... return json.JSONEncoder.default(self, obj)

...

>>> json.dumps(now, cls=DTEncoder)

'1361526567'

Новый класс DTEncoder является подклассом, или классом-потомком, класса JSONEncoder. Нам нужно лишь переопределить его метод default(), добавив обработку datetime. Наследование гарантирует, что все остальное будет обработано родительским классом.

Функция isinstance() проверяет, является ли объект obj объектом класса datetime.datetime. Поскольку в Python все является объектом, функция isinstance() работает везде:

>>> import datetime

>>> now = datetime.datetime.utcnow()

>>> type(now)

>>> isinstance(now, datetime.datetime)

True

>>> type(234)

>>> isinstance(234, int)

True

>>> type('hey')

>>> isinstance('hey', str)

True

При работе с JSON и другими форматами структурированного текста вы можете загрузить файл в память и разместить его в структуре данных, не зная о самих структурах заранее. Затем вы можете пройтись по структурам, используя функцию isinstance() и методы, соответствующие типу, чтобы проверить значения структур. Например, если один из элементов является словарем, вы можете извлечь его содержимое с помощью функций keys(), values() и items().

После того как вы сделали это сложным способом, сообщу вам, что существует более простой способ преобразовать объекты типа datetime в JSON:

>>> import datetime

>>> import json

>>> now = datetime.datetime.utcnow()

>>> json.dumps(now, default=str)

'"2019-04-17 21:54:43.617337"'

Инструкция default=str указывает функции json.dumps() применить функцию преобразования str() к тем типам данных, которые она не понимает. Это сработает, поскольку в определении класса datetime.datetime присутствует метод __str__().

YAML

Как и JSON, YAML (/) имеет ключи и значения, но обрабатывает большее количество типов данных, включая дату и время. Стандартная библиотека Python не содержит модулей, работающих с YAML, поэтому вам нужно установить стороннюю библиотеку yaml (). Функция load() преобразует строку в формате YAML к данным Python, а функция dump() предназначена для противоположного действия.

Следующий YAML-файл, mcintyre.yaml, содержит информацию о канадском поэте Джеймсе Макинтайре и два его стихотворения:

name:

first: James

last: McIntyre

dates:

birth: 1828-05-25

death: 1906-03-31

details:

bearded: true

themes: [cheese, Canada]

books:

url:

poems:

- title: 'Motto'

text: |

Politeness, perseverance and pluck,

To their possessor will bring good luck.

- title: 'Canadian Charms'

text: |

Here industry is not in vain,

For we have bounteous crops of grain,

And you behold on every field

Of grass and roots abundant yield,

But after all the greatest charm

Is the snug home upon the farm,

And stone walls now keep cattle warm.

Такие значения, как true, false, on и off, преобразуются в булевы переменные. Целые числа и строки преобразуются в их эквиваленты в Python. Для остального синтаксиса создаются списки и словари:

>>> import yaml

>>> with open('mcintyre.yaml', 'rt') as fin:

>>> text = fin.read()

>>> data = yaml.load(text)

>>> data['details']

{'themes': ['cheese', 'Canada'], 'bearded': True}

>>> len(data['poems'])

Создаваемые структуры данных совпадают со структурами YAML-файла, которые в данном случае имеют глубину более одного уровня. Вы можете получить заголовок второго стихотворения с помощью следующей ссылки:

>>> data['poems'][1]['title']

'Canadian Charms'

PyYAML может загружать объекты Python из строк, а это опасно. Используйте метод safe_load() вместо метода load(), если импортируете данные в формате YAML, которым не доверяете. А лучше всегда используйте метод safe_load(). Прочтите статью Неда Батчелдера War is peace (), чтобы узнать о том, как незащищенная загрузка YAML скомпрометировала платформу Ruby on Rails.

Tablib

Теперь, когда вы прочитали все предыдущие разделы, я расскажу вам, что существует сторонний пакет, который позволяет импортировать, экспортировать и изменять табличные данные в форматах CSV, JSON или YAML, а также данные в Microsoft Excel, Pandas DataFrame и некоторые другие. Вы можете установить его привычным способом (pipinstalltablib), а также заглянуть в документацию (/).

Pandas

Сейчас самое время познакомиться с Pandas (/) — библиотекой Python для структурированных данных. Это отличный инструмент для решения реальных проблем с данными. Она позволяет:

• читать и записывать данные во множестве текстовых и бинарных форматов, таких как:

• текст, поля которого разделены запятыми (CSV), символами табуляции (TSV) или другими символами;

• текст фиксированной длины;

• Excel;

• JSON;

• таблицы HTML;

• SQL;

• HDF5;

• и др. ();

• группировать, разбивать, объединять, разделять, сортировать, выбирать и помечать;

• преобразовывать типы данных;

• изменять размер или форму;

• обрабатывать случаи, когда данные отсутствуют;

• генерировать случайные значения;

• управлять временными последовательностями.

Функции чтения возвращают объект типа DataFrame (). Это является стандартным представлением для двумерных данных (которые делятся на строки и столбцы) в Pandas. Объект этого типа похож на электронную таблицу или таблицу реляционной базы данных. Его одномерный младший брат называется Series ().

В примере 16.2 показывается простое приложение, которое считывает данные из нашего файла villains.csv из примера 16.1.

Пример 16.2. Читаем данные в формате CSV с помощью Pandas

>>> import pandas

>>>

>>> data = pandas.read_csv('villains.csv')

>>> print(data)

first last

0 Doctor No

1 Rosa Klebb

2 Mister Big

3 Auric Goldfinger

4 Ernst Blofeld

Переменная data имеет тип DataFrame: у этого типа данных возможностей больше, чем у простого словаря Python. Он особенно полезен для обработки большого количества чисел с помощью NumPy, а также для подготовки данных для машинного обучения.

Обратитесь к разделам Getting Started () документации Pandas, чтобы узнать подробнее о ее особенностях, и к разделу 10 Minutes to Pandas () для того, чтобы увидеть рабочие примеры.

Воспользуемся Pandas для того, чтобы создать небольшой календарь — список, содержащий первый день первых трех месяцев 2019 года:

>>> import pandas

>>> dates = pandas.date_range('2019-01-01', periods=3, freq='MS')

>>> dates

DatetimeIndex(['2019-01-01', '2019-02-01', '2019-03-01'],

dtype='datetime64[ns]', freq='MS')

Создать такой календарь можно было бы и с помощью функций даты и времени, которые мы рассмотрели в главе 13. Но это намного сложнее, особенно отладка (дата и время добавляют работы). Pandas также позволяет обрабатывать множество особых деталей даты и времени (), например бизнес-месяцы и годы.

Мы еще поговорим о Pandas, когда речь пойдет о картах (см. подраздел «Geopandas» на с. 498) и научных приложениях (см. раздел «Pandas» на с. 516).

Конфигурационные файлы

Большинство программ предлагают различные параметры или настройки. Динамические настройки могут быть переданы как аргументы программы, но долговременные настройки должны где-то храниться. Соблазн на скорую руку определить собственный формат конфигурационного файла очень силен, но вы должны устоять. Как правило, это бывает и неточно, и не так уж быстро. Вам нужно обслуживать как программу-писатель, так и программу-читатель (которая иногда называется парсером). Существуют хорошие альтернативы, которые вы можете добавить в свою программу, включая те, что были показаны в предыдущих подразделах.

Здесь мы используем стандартный модуль configparser, который обрабатывает файлы с расширением .ini, характерные для Windows. Такие файлы имеют разделы с определениями ключ=значение. Так выглядит минимальный файл settings.cfg:

[english]

greeting = Hello

[french]

greeting = Bonjour

[files]

home = /usr/local

# simple interpolation:

bin = %(home)s/bin

А так выглядит код, который позволяет считать его и разместить в структурах данных:

>>> import configparser

>>> cfg = configparser.ConfigParser()

>>> cfg.read('settings.cfg')

['settings.cfg']

>>> cfg

<configparser.ConfigParser object at 0x1006be4d0>

>>> cfg['french']

<Section: french>

>>> cfg['french']['greeting']

'Bonjour'

>>> cfg['files']['bin']

'/usr/local/bin'

Доступны и другие опции, в том числе более мощная интерполяция. Обратитесь к документации configparser (). Если вам нужно более двух уровней вложенности, попробуйте использовать YAML или JSON.

Бинарные файлы

Некоторые файловые форматы были разработаны для хранения определенных структур данных и не являются ни реляционными базами данных, ни базами данных NoSQL. В следующих подразделах рассказывается о некоторых из них.

Заполненные пробелами бинарные файлы и управление памятью. Такие файлы похожи на заполненные пробелами текстовые файлы, но содержимое может быть бинарным, а в качестве заполнителя может использоваться байт \x00. Каждая запись имеет фиксированный размер, как и каждое поле внутри записи. Это позволяет легче искать нужные записи и поля с помощью функции seek(). Каждая операция с данными выполняется вручную, поэтому такой подход должен применяться только в очень низкоуровневых (близких к «железу») ситуациях.

Данные в таком формате могут быть размещены в ОЗУ с помощью стандартной библиотеки mmap. Взгляните на примеры (/) и стандартную документацию ().

Электронные таблицы

Электронные таблицы, в частности Microsoft Excel, — это широко распространенный бинарный формат данных. Если вы можете сохранить свою таблицу в CSV-файл, то можете считать его с помощью стандартного модуля csv, который был описан ранее.

Это распространяется на бинарный файл xls: для его считывания и записи можно использовать стороннюю библиотеку xlrd (/) или tablib (она упоминалась ранее в подразделе «Tablib» на с. 338).

HDF5

HDF5 () — это бинарный формат данных, предназначенный для хранения многомерных или иерархических числовых данных. Обычно он используется в научных целях, где быстрый случайный доступ к крупным наборам данных (от гигабайтов до терабайтов) является распространенным требованием. Несмотря на то что HDF5 в некоторых случаях мог бы стать хорошей альтернативой базам данных, по каким-то причинам этот формат практически неизвестен в современном мире. Он лучше всего подходит для приложений вида WORM (write once — read many — «запиши однажды — считай много раз»), которые не нуждаются в защите от конфликтующих записей. Вам могут быть полезными следующие модули:

•h5py — интерфейс низкого уровня с широкими возможностями. Прочтите его документацию (/) и код ();

•PyTables — интерфейс немного более высокого уровня, имеющий некоторые особенности, характерные для баз данных. Прочтите его документацию (/) и код (/).

Оба этих формата рассматриваются в главе 22 с точки зрения применения в научных приложениях, написанных на Python. Здесь я упоминаю об HDF5 затем, чтобы у вас был под рукой нестандартный вариант на случай, когда вам нужно сохранять и высчитывать крупные объемы данных. Хорошим примером использования этого формата является Million Song Dataset () с записями песен в форматах HDF5 и SQLite.

TileDB

У формата HDF5 недавно появился последователь, который позволяет хранить как плотные, так и разреженные массивы — TileDB (/). Установите интерфейс Python () (он включает в себя и саму библиотеку TileDB), запустив команду pipinstalltiledb. Эта библиотека предназначена для работы с научными данными и приложениями.

Реляционные базы данных

Реляционным базам данных всего около 40 лет, но в компьютерном мире они используются повсеместно. Вам практически наверняка придется поработать с ними. В эти моменты вы сможете оценить следующие их преимущества.

• Доступ к данным возможен для нескольких пользователей одновременно.

• Действует защита от повреждения данных пользователями.

• Существуют эффективные методы сохранения и считывания данных.

• Данные определены схемами и имеют ограничения.

• Объединения позволяют найти отношения между различными типами данных.

• Декларативный (в противоположность императивному) язык запросов SQL (Structured Query Language).

Такие базы данных называются реляционными, поскольку они показывают отношения между различными типами данных в форме прямоугольных таблиц. Например, в нашем более раннем примере меню есть отношение между каждым элементом и его ценой.

Таблица представляет собой прямоугольную сетку столбцов (полей данных) и строк (отдельных записей), похожую на электронную таблицу. Пересечение строки и столбца называется ячейкой. Чтобы создать таблицу, необходимо указать ее имя и порядок, имена и типы ее столбцов. Каждая строка имеет одинаковые столбцы, хотя столбец может быть определен так, чтобы в ячейках отсутствовали данные (null). В примере с меню вы могли бы создать таблицу, содержащую по одной строке для каждого продаваемого элемента. Каждый элемент имеет одинаковые столбцы, включая и тот, который хранит цену.

Первичным ключом таблицы является столбец или группа столбцов. Значения ключа должны быть уникальными — таким образом предотвращается ввод одинаковых данных в таблицу. Этот ключ индексируется для быстрого поиска во время выполнения запроса. Работа индекса немного похожа на работу алфавитного указателя, который позволяет быстро найти определенный ряд.

Каждая таблица находится внутри родительской базы данных, как файлы в каталоге. Два уровня иерархии позволяют немного лучше организовывать данные.

Да, словосочетание «база данных» используется в разных значениях: называет и сервер, и хранилище таблиц, и сами данные. Если вам нужно говорить обо всех них одновременно, можно использовать термины «сервер базы данных», «база данных» и «данные».

Если вы хотите найти строки по определенному неключевому значению, определите для столбца вторичный индекс. В противном случае база данных должна будет выполнить сканирование таблицы — поиск нужного значения перебором всех строк.

Таблицы могут быть связаны друг с другом с помощью внешних ключей, и значения столбцов могут быть ограничены этими ключами.

SQL

SQL не является API или протоколом. Это декларативный язык: вы говорите, что вам нужно, а не как это сделать. SQL — универсальный язык реляционных баз данных. Запросы SQL являются текстовыми строками: клиент отсылает их серверу базы данных, а тот определяет, что с ними делать дальше.

Существует несколько стандартов определения SQL, но все поставщики баз данных добавили свои собственные настройки и расширения, что привело к появлению множества диалектов SQL. Если вы храните данные в реляционной базе данных, SQL дает вам некоторую переносимость данных. Однако наличие диалектов и операционных различий может усложнить перенос данных в другую базу.

Есть две основные категории утверждений SQL.

•DDL (Data Definition Language — язык определения данных). Обрабатывает создание, удаление, ограничения и разрешения для таблиц, баз данных и пользователей.

•DML (Data Manipulation Language — язык манипулирования данными). Обрабатывает добавление данных, их выборку, обновление и удаление.

В табл. 16.1 перечислены основные команды SQL DDL.

Таблица 16.1. Основные команды SQL DDL

Операция	Шаблон SQL	Пример SQL
Создание базы данных	CREATE DATABASE имя_базы	CREATE DATABASE d
Выбор текущей базы данных	USE имя_базы	USE d
Удаление базы данных и ее таблиц	DROP DATABASE имя_базы	DROP DATABASE d
Создание таблицы	CREATE TABLE имя_таблицы (описания_столбцов)	CREATE TABLE t (id INT, count INT)
Удаление таблицы	DROP TABLE имя_таблицы	DROP TABLE t
Удаление всех строк таблицы	TRUNCATE TABLE имя_таблицы	TRUNCATE TABLE t

Почему все пишется БОЛЬШИМИ БУКВАМИ? Язык SQL не зависит от регистра, но по традиции (не спрашивайте меня почему) ключевые слова ВЫКРИКИВАЮТСЯ, чтобы их можно было отличить от имен столбцов.

Основные операции DML реляционной базы данных можно запомнить с помощью акронима CRUD:

•Create — создание с помощью оператора SQL INSERT;

• Read — чтение с помощью SELECT;

• Update — обновление с помощью UPDATE;

•Delete — удаление с помощью DELETE.

В табл. 16.2 показаны команды, доступные SQL DML.

Таблица 16.2. Основные команды SQL DML

Операция	Шаблон SQL	Пример SQL
Добавление строки	INSERT INTO имя_таблицы VALUES(…)	INSERT INTO t VALUES(7, 40)
Выборка всех строк и столбцов	SELECT * FROM имя_таблицы SELECT * FROM t	SELECT * FROM t
Выборка всех строк и некоторых столбцов	SELECT cols FROM имя_таблицы	SELECT id, count FROM t
Выборка некоторых строк и некоторых столбцов	SELECT cols FROM имя_таблицы WHERE условие	SELECT id, count from t WHERE count > 5 AND id = 9
Изменение некоторых строк в столбце	UPDATE имя_таблицы SET col = значение WHERE условие	UPDATE t SET count = 3 WHERE id = 5
Удаление некоторых строк	DELETE FROM имя_таблицы WHERE условие	DELETE FROM t WHERE count <= 10 OR id = 16

DB-API

Программный интерфейс приложения (Application Programming Interface, API) — это набор функций, которые вы можете вызвать, чтобы получить доступ к какой-либо услуге. DB-API () — это стандартный API в Python, предназначенный для получения доступа к реляционным базам данных. С его помощью вы можете написать одну программу, которая работает с несколькими видами реляционных баз данных, вместо того чтобы писать несколько программ для работы с каждым видом баз данных по отдельности. Этот API похож на JDBC в Java или dbi в Perl.

Рассмотрим его основные функции:

•connect() — создание соединения с базой данных. Этот вызов может включать в себя такие аргументы, как имя пользователя, пароль, адреса сервера и пр.;

• cursor() — создание объекта курсора, предназначенного для работы с запросами;

• execute() и executemany() — запуск одной или нескольких команд SQL;

•fetchone(), fetchmany() и fetchall() — получение результатов работы функции execute().

Модули базы данных в Python, которые будут рассмотрены в следующих подразделах, соответствуют DB-API, но часто имеют некоторые расширения или разницу в деталях.

SQLite

SQLite (/) — это хорошая легкая реляционная база данных с открытым исходным кодом. Она реализована как стандартная библиотека Python и хранит базы данных в обычных файлах. Эти файлы можно переносить в другие машины и операционные системы, что делает SQLite портативным решением для простых приложений реляционных баз данных. У нее не так много возможностей, как у MySQL или PostgreSQL, но она поддерживает SQL и позволяет нескольким пользователям работать с ней одновременно. Браузеры, смартфоны и другие операционные системы используют SQLite как встроенную базу данных.

Работа начинается с вызова connect() для установки соединения с локальным файлом базы данных, который вы хотите создать или использовать. Этот файл эквивалентен похожей на каталог базе данных, которая хранит таблицы на других серверах. С помощью специальной строки ':memory:' можно создать базу данных только в памяти — это быстро и удобно для тестирования, но данные будут потеряны при завершении программы или выключении компьютера.

Для следующего примера создадим базу данных enterprise.db и таблицу zoo, чтобы управлять нашим процветающим бизнесом по содержанию придорожного контактного зоопарка. В таблице будут следующие столбцы:

•critter — строка переменной длины, наш первичный ключ;

• count — целочисленное количество единиц используемого инвентаря для этого животного;

• damages — сумма, выраженная в долларах, наших убытков из-за взаимодействий людей с животными:

>>> import sqlite3

>>> conn = sqlite3.connect('enterprise.db')

>>> curs = conn.cursor()

>>> curs.execute('''CREATE TABLE zoo

(critter VARCHAR(20) PRIMARY KEY,

count INT,

damages FLOAT)''')