Средства обработки структурированных данных
Простейшая разновидность структурированных данных - текстовые файлы. В свою очередь, простейшей операцией с файлами является их выдача на стандартный вывод. Для этого служит утилита cat.
Просмотр больших текстовых файлов предпочтительнее осуществлять при помощи служебной программы more.
Для просмотра нетекстовых файлов рекомендуется служебная программа od.
Полезная возможность - взглянуть на начало файла, она реализуется служебной программой head.
"Симметричная" служебная программа - tail - выдает на стандартный вывод конец исходного файла.
Служебная программа pr является фильтром для печати и оформления страниц.
Для подсчета числа символов, слов и строк в файлах служит утилита wc.
Служебная программа sort в зависимости от заданных опций выполняет одно из трех возможных действий:
- сортирует строки всех исходных файлов с записью результата в выходной файл;
- производит слияние всех исходных (предварительно отсортированных) файлов и записывает результат в выходной файл;
- проверяет, действительно ли отсортирован единственный исходный файл.
Утилита diff сравнивает содержимое исходных файлов и выдает на стандартный вывод список изменений, которые необходимо произвести, чтобы преобразовать один файл в другой.
Если нужно проверить на совпадение два файла, предпочтительнее воспользоваться более простой и быстрой служебной программой cmp.
Еще одним средством выявления различий (и совпадений) текстовых файлов является служебная программа comm.
Для контроля целостности файлов предназначена служебная программа cksum.
Понятие регулярного выражения (РВ) - одно из важнейших для программ обработки текстовых файлов. Согласно стандарту POSIX-2001, регулярное выражение - это шаблон, служащий для выборки определенных цепочек символов из множества подобных цепочек. Говорят, что выбранные цепочки удовлетворяют (успешно сопоставляются с) РВ.
Различают базовые (БРВ) и расширенные (РРВ) регулярные выражения.
Наиболее употребительной служебной программой, использующей механизм регулярных выражений, является grep.