Метапрограммирование в C++
Метапрограммирование — это «программирование программ», то есть написание некой промежуточной программы, результатом которой будет некая часть другой программы. Самый простой пример метапрограммирования — это шаблоны C++. Вместо написания десяти одинаковых функций для разных типов, мы пишем шаблон, и компилятор сам соберет нам эти десять функций.
Другой неявный пример метапрограммирования — это precomputing, вычисления, которые проводятся на этапе компиляции. Если в коде вы напишете
int i = 2+2*2;
компилятор (вернее, прекомпилятор), вычислит это значение и передаст компилятору уже готовое
int i = 6;
Прекомпилятор пытается вычислить все возможное на этапе компиляции, чтобы разгрузить ран-тайм, в том числе и раскрыть шаблоны. Именно это его свойство позволяет писать очень интересные precomputing штучки, которые будут вычислены на этапе компиляции.
Конкретный пример — это реализация CRC32. Не вдаваясь в детали, приведу ее алгоритм:
Данный шаблон принимает на вход unsigned long параметр и превращает его в структуру с определенной внутри константой value.
Следющий шаг — выполнение этого кода в цикле. Для этого определим такой шаблон:
template unsigned long t, int i> struct For < static const unsigned long value = For
Здесь начинается магия.
Мы определили шаблон, который получает два параметра — t, собственно вычисляемое значение, и i — счетчик. Этот шаблон создает структуру с единственной константой value внутри, которая вычисляется… через значение этого же шаблона! Мы получаем рекурсию — шаблон определеятся через самого себя. Для завершения рекурсии, мы воспользуемся частичной специализацией шаблона:
И, наконец, само вычисление — вызов шаблона For с определенным количество итераций:
Что же происходит в этих строчках.
Прекомпилятор пытается вычислить все значения констант. Если выражение задано через другие константы — это выражение также является константным и будет вычислено на этапе компиляции. С другой стороны, компилятору от прекомпилятора необходимы полностью специализированные шаблоны, поэтому прекомпилятор будет последовательно раскрывать все шаблоны, попутно вычисляя константы, определенные в них.
Все это очень напоминает вычисление рекурсивных функций в функциональном программировании:
(Не уверен в точности написания, но суть, думаю, понята)
Третий и четвертый шаги — создать таблицу вычисленных значений. Опять-таки воспользуемся шаблоном со счетчиком:
Здесь происходит переход от препроцессора собственно к коду. Первый шаблон создает рекурсивную иеррахию наследников структур Table, каждый из которых добавляет занчение в таблицу values, соотвествующую своему номеру. Второй шаблон определяет конец рекурсии, собственно саму таблицу values и идексатор для более простого использования этой таблицы.
Последний шаг — это, собственно, объявление самой таблицы
typedef Table CRC_TABLE;
Теперь у нас есть структура, которая ведет себя в точности как необходимая нам таблица. Так как все вычисления известны во время компиляции, прекомпилятор раскроет все шаблоны и в конце концов соберет нужную нам таблицу.
Вот так это все выглядит в собранном виде
template int r, int t> struct Table : Table
<
Table() < values[t]=Hash ::value; >
>;
template int r> struct Table
<
int values[r+1];
Table() < values[0]=Hash ::value; >
int operator []( int i) < return values[i];>
>;
typedef Table CRC_TABLE;
Для заинтересовавшихся — советую почитать Андрей Александреску «Современное проектирование на С++» ISBN: 5-8459-0351-3
Я в ступоре уже час. char buf[10]=»blablabla»;char *s; Как присвоить s=buf?
Я в ступоре уже час.
Вообшемто это и проблема.
Есть класс в котором обьявленна
char *fname// ее трогать и изменять нельзя.
в функции есть
char buf[10]=»blablabla»;
Как присвоить fname=buf?
3d_NOOB
Так ее трогать и изменять нельзя! Как же ее тогда присвоить?
попробуй купить себе какую-нибудь книгу по программированию
Та неee.
если я пишу kub.fname=»blablabla» все кул но мне нужно вот это бла бла бла слепить из того что мне нужно.
Короче вот
char buf[100]=»data/scene/»;
//так работает
if(ComboB->isItemSelected(0))
<
kub.fname=»data/scene/scene.x»;
>
// так не работает
if(ComboB->isItemSelected(1))
<
strcat(buf,»scene2.x»); // тут собираюсь изменять сцену
и сделать это все в цикле так как имена сцен хранятся в масиве char file_name_Scene[100][260];
strcpy(text.str[3],buf);
//sprintf(kub.fname,»%s»,buf);
kub.fname=buf;
>
Но это все неважно как сделать
strcpy не рулит пробовал strcpy(kub.fname,buf);// вылет таже беда мож указатель надо или еше канибудь? (
buf проверял хранится что надо на экран выводил.
Went
> Так ее трогать и изменять нельзя! Как же ее тогда присвоить?
Я имел ввиду исправить char *fname на char fname[100] чтобы воспользоватся как раз strcpy незя.
Zx
> Нужно для а выделить память, и скопировать данные из участка б в участок куда указывает а.
Можно чуть подробнее с кодом плз
char *а=new a[100];
Так имееш ввиду?
3d_NOOB
> Можно чуть подробнее с кодом плз
> char *а=new a[100];
А это уже лучше не ко мне 🙂
> попробуй купить себе какую-нибудь книгу по программированию
Наверное так
char *а=new char[100];
и после этого strcpy или memcpy
Если вдруг будеш копировать сюда больше 100 байт, поведение программы непредсказуемо.
Zx
Ок спс попутал чуток new a[100]; ))
100 байт достаточно путь к файлам не длинный.
3d_NOOB
> 100 байт достаточно путь к файлам не длинный.
Есть стандартная константа MAX_PATH, пользуйся ей вместо выдумывания максимальных длин.
Урок №35. Символьный тип данных char
Обновл. 11 Сен 2021 |
Хоть тип char и относится к целочисленным типам данных (и, таким образом, следует всем их правилам), работа с char несколько отличается от работы с обычными целочисленными типами.
Тип данных char
Переменная типа char занимает 1 байт. Однако вместо конвертации значения типа char в целое число, оно интерпретируется как ASCII-символ.
ASCII (сокр. от «American Standard Code for Information Interchange») — это американский стандартный код для обмена информацией, который определяет способ представления символов английского языка (+ несколько других) в виде чисел от 0 до 127. Например: код буквы ‘а’ — 97, код буквы ‘b’ — 98. Символы всегда помещаются в одинарные кавычки.
Таблица ASCII-символов:
Код | Символ | Код | Символ | Код | Символ | Код | Символ |
0 | NUL (null) | 32 | (space) | 64 | @ | 96 | ` |
1 | SOH (start of header) | 33 | ! | 65 | A | 97 | a |
2 | STX (start of text) | 34 | ” | 66 | B | 98 | b |
3 | ETX (end of text) | 35 | # | 67 | C | 99 | c |
4 | EOT (end of transmission) | 36 | $ | 68 | D | 100 | d |
5 | ENQ (enquiry) | 37 | % | 69 | E | 101 | e |
6 | ACK (acknowledge) | 38 | & | 70 | F | 102 | f |
7 | BEL (bell) | 39 | ’ | 71 | G | 103 | g |
8 | BS (backspace) | 40 | ( | 72 | H | 104 | h |
9 | HT (horizontal tab) | 41 | ) | 73 | I | 105 | i |
10 | LF (line feed/new line) | 42 | * | 74 | J | 106 | j |
11 | VT (vertical tab) | 43 | + | 75 | K | 107 | k |
12 | FF (form feed / new page) | 44 | , | 76 | L | 108 | l |
13 | CR (carriage return) | 45 | — | 77 | M | 109 | m |
14 | SO (shift out) | 46 | . | 78 | N | 110 | n |
15 | SI (shift in) | 47 | / | 79 | O | 111 | o |
16 | DLE (data link escape) | 48 | 0 | 80 | P | 112 | p |
17 | DC1 (data control 1) | 49 | 1 | 81 | Q | 113 | q |
18 | DC2 (data control 2) | 50 | 2 | 82 | R | 114 | r |
19 | DC3 (data control 3) | 51 | 3 | 83 | S | 115 | s |
20 | DC4 (data control 4) | 52 | 4 | 84 | T | 116 | t |
21 | NAK (negative acknowledge) | 53 | 5 | 85 | U | 117 | u |
22 | SYN (synchronous idle) | 54 | 6 | 86 | V | 118 | v |
23 | ETB (end of transmission block) | 55 | 7 | 87 | W | 119 | w |
24 | CAN (cancel) | 56 | 8 | 88 | X | 120 | x |
25 | EM (end of medium) | 57 | 9 | 89 | Y | 121 | y |
26 | SUB (substitute) | 58 | : | 90 | Z | 122 | z |
27 | ESC (escape) | 59 | ; | 91 | [ | 123 | < |
28 | FS (file separator) | 60 | 94 | ^ | 126 | ||
31 | US (unit separator) | 63 | ? | 95 | _ | 127 | DEL (delete) |
Символы от 0 до 31 в основном используются для форматирования вывода. Большинство из них уже устарели.
Символы от 32 до 127 используются для вывода. Это буквы, цифры, знаки препинания, которые большинство компьютеров использует для отображения текста (на английском языке).
Следующие два стейтмента выполняют одно и то же (присваивают переменным типа char целое число 97 ):
Будьте внимательны при использовании фактических чисел с числами, которые используются для представления символов (из ASCII-таблицы). Следующие два стейтмента выполняют не одно и то же:
Вывод символов
При выводе переменных типа char, объект cout выводит символы вместо цифр:
Также вы можете выводить литералы типа char напрямую:
Оператор static_cast
Если вы хотите вывести символы в виде цифр, а не в виде букв, то вам нужно сообщить cout выводить переменные типа char в виде целочисленных значений. Не очень хороший способ это сделать — присвоить переменной типа int переменную типа char и вывести её:
Лучшим способом является конвертация переменной из одного типа данных в другой с помощью оператора static_cast.
Синтаксис static_cast выглядит следующим образом:
Пример использования оператора static_cast для конвертации типа char в тип int:
Результат выполнения программы:
Также в static_cast нет никакой проверки по диапазону, так что если вы попытаетесь использовать числа, которые будут слишком большие или слишком маленькие для конвертируемого типа, то произойдет переполнение.
Более подробно о static_cast мы еще поговорим на соответствующем уроке.
Ввод символов
Следующая программа просит пользователя ввести символ. Затем она выводит этот символ и его ASCII-код:
Результат выполнения программы:
Input a keyboard character: q
q has ASCII code 113
Обратите внимание, даже если cin позволит вам ввести несколько символов, переменная ch будет хранить только первый символ (именно он и помещается в переменную). Остальная часть пользовательского ввода останется во входном буфере, который использует cin, и будет доступна для использования последующим вызовам cin.
Рассмотрим это всё на практике:
Результат выполнения программы:
Input a keyboard character: abcd
a has ASCII code 97
b has ASCII code 98
Размер, диапазон и знак типа сhar
В языке С++ для переменных типа char всегда выделяется 1 байт. По умолчанию, char может быть как signed, так и unsigned (хотя обычно signed). Если вы используете char для хранения ASCII-символов, то вам не нужно указывать знак переменной (поскольку signed и unsigned могут содержать значения от 0 до 127).
Управляющие символы
В языке C++ есть управляющие символы (или «escape-последовательности»). Они начинаются с бэкслеша ( \ ), а затем следует определенная буква или цифра.
First line
Second line
First part Second part
Таблица всех управляющих символов в языке C++:
Название | Символ | Значение |
Предупреждение (alert) | \a | Предупреждение (звуковой сигнал) |
Backspace | \b | Перемещение курсора на одну позицию назад |
formfeed | \f | Перемещение курсора к следующей логической странице |
Символ новой строки (newline) | \n | Перемещение курсора на следующую строку |
Возврат каретки (carriage return) | \r | Перемещение курсора в начало строки |
Горизонтальный таб (horizontal tab) | \t | Вставка горизонтального TAB |
Вертикальный таб (vertical tab) | \v | Вставка вертикального TAB |
Одинарная кавычка | \’ | Вставка одинарной кавычки (или апострофа) |
Двойная кавычка | \” | Вставка двойной кавычки |
Бэкслеш | \\ | Вставка обратной косой черты (бэкслеша) |
Вопросительный знак | \? | Вставка знака вопроса |
Восьмеричное число | \(number) | Перевод числа из восьмеричной системы счисления в тип char |
Шестнадцатеричное число | \x(number) | Перевод числа из шестнадцатеричной системы счисления в тип char |
Рассмотрим пример в коде:
Результат выполнения программы:
«This is quoted text»
This string contains a single backslash \
6F in hex is char ‘o’
Что использовать: ‘\n’ или std::endl?
При использовании std::cout, данные для вывода могут помещаться в буфер, т.е. std::cout может не отправлять данные сразу же на вывод. Вместо этого он может оставить их при себе на некоторое время (в целях улучшения производительности).
Используйте \n во всех остальных случаях.
Другие символьные типы: wchar_t, char16_t и char32_t
Тип wchar_t следует избегать практически во всех случаях (кроме тех, когда происходит взаимодействие с Windows API).
Так же, как и стандарт ASCII использует целые числа для представления символов английского языка, так и другие кодировки используют целые числа для представления символов других языков. Наиболее известный стандарт (после ASCII) — Unicode, который имеет в запасе более 110 000 целых чисел для представления символов из разных языков.
Существуют следующие кодировки Unicode:
UTF-32 — требует 32 бита для представления символа.
UTF-16 — требует 16 бит для представления символа.
UTF-8 — требует 8 бит для представления символа.
Типы char16_t и char32_t были добавлены в C++11 для поддержки 16-битных и 32-битных символов Unicode (8-битные символы и так поддерживаются типом char).
В чём разница между одинарными и двойными кавычками при использовании с символами?
Текст, который находится в двойных кавычках, называется строкой (например, «Hello, world!» ). Строка (тип string) — это набор последовательных символов.
Вы можете использовать литералы типа string в коде:
Более подробно о типе string мы поговорим на соответствующем уроке.
Поделиться в социальных сетях:
Урок №34. Логический тип данных bool
Комментариев: 12
>>Тип wchar_t следует избегать практически во всех случаях
Вот за такой совет автора оригинала… Это одна из причин, почему софт сделанный на одном языке крашится на ОС с другим языком — например японская игра на американской винде.. Да и собственно некоторый английский софт на русской винде.
Потому что либо они думают что кроме английского никаких языков нет и юзают char, либо пытаются втулить все в char8_t
В главе №30 «Размер типов данных» было написано «Интересно то, что sizeof — это один из 3-х операторов в языке C++, который является словом, а не символом (еще есть new и delete)». А в этой главе оказывается что есть ещё static_cast
странно, но в с++ sizeof(‘a’) == sizeof(char), в то время как в си — sizeof(‘a’) == sizeof(int). неожиданно …
В Си подобная конструкция sizeof(‘a’) == sizeof(int) имеет место из-за его особенностей. Аргумент первого sizeof скорее всего рассматривается как выражение (expression). А во всех выражениях в Си имеет место приведение к типу int, если используется меньший по размеру тип. Что и имеет место в данном случае. На деле же (насколько я знаю) в Си символы тоже размером в один байт. Вроде бы тип char так и вводился, чтобы быть равным одному байту.
Привет!
Вот с этим не понятно ничего:
Немного о строках в Си, или несколько вариантов оптимизировать неоптимизируемое
Не так давно у со мной произошел довольно-таки интересный инцидент, в котором был замешан один из преподавателей одного колледжа информатики.
Разговор о программировании под Linux медленно перешел к тому, что этот человек стал утверждать, что сложность системного программирования на самом деле сильно преувеличена. Что язык Си прост как спичка, собственно как и ядро Linux (с его слов).
У меня был с собой ноутбук с Linux, на котором присутствовал джентльменский набор утилит для разработки на языке Си (gcc, vim, make, valgrind, gdb). Я уже не помню, какую цель мы тогда перед собой поставили, но через пару минут мой оппонент оказался за этим ноутбуком, полностью готовый решать задачу.
И буквально на первых же строках он допустил серьезную ошибку при аллоцировании памяти под… строку.
buffer — стековая переменная, в которую заносились данные с клавиатуры.
Я думаю, определенно найдутся люди, которые спросят: «Разве что-то тут может быть не так?».
Поверьте, может.
А что именно — читайте по катом.
Немного теории — своеобразный ЛикБез.
Если знаете — листайте до следующего хэдера.
Строка в C — это массив символов, который по-хорошему всегда должен заканчиваться ‘\0’ — символом конца строки. Строки на стеке (статичные) объявляются вот так:
n — размер массива символов, то же, что и длина строки.
Присваивание < 0 >— «зануление» строки (опционально, объявлять можно и без него). Результат такой же, как у выполнения функций memset(str, 0, sizeof(str)) и bzero(str, sizeof(str)). Используется, чтобы в неинициализированных переменных не валялся мусор.
Так же на стеке можно сразу проинициализировать строку:
Помимо этого строку можно объявить указателем и выделить под нее память на куче (heap):
size — количество байт, которые мы выделяем под строку. Такие строки называются динамическими (вследствие того, что нужный размер вычисляется динамически + выделенный размер памяти можно в любой момент увеличить с помощью функции realloc() ).
В случае со стековой переменной, для определения размера массива я использовал обозначение n, в случае с переменной на куче — я использовал обозначение size. И это прекрасно отражает истинную суть отличия объявления на стеке от объявление с аллоцированием памяти на куче, ведь n как правило используется тогда, когда говорят о количестве элементов. А size — это уже совсем другая история…
Думаю. пока хватит. Идем дальше.
Нам поможет valgrind
В своей предыдущей статье я также упоминал о нем. Valgrind (раз — вики-статья, два — небольшой how-to) — очень полезная программа, которая помогает программисту отслеживать утечки памяти и ошибки контекста — как раз те вещи, которые чаще всего всплывают при работе со строками.
Давайте рассмотрим небольшой листинг, в котором реализовано что-то похожее на упомянутую мной программу, и прогоним ее через valgrind:
И, собственно, результат работы программы:
Пока ничего необычного. А теперь давайте запустим эту программу с valgrind!
==3892== All heap blocks were freed — no leaks are possible — утечек нет, и это радует. Но стоит опустить глаза чуть пониже (хотя, хочу заметить, это лишь итог, основная информация немного в другом месте):
==3892== ERROR SUMMARY: 3 errors from 2 contexts (suppressed: 0 from 0)
3 ошибки. В 2х контекстах. В такой простой программе. Как!?
Да очень просто. Весь «прикол» в том, что функция strlen не учитывает символ конца строки — ‘\0’. Даже если его явно указать во входящей строке (#define HELLO_STRING «Hello, Habr!\n\0»), он будет проигнорирован.
Чуть выше результата исполнения программы, строки -> Hello, Habr! есть подробный отчет, что и где не понравилось нашему драгоценному valgrind. Предлагаю самостоятельно посмотреть эти строчки и сделать выводы.
Собственно, правильная версия программы будет выглядеть так:
Пропускаем через valgrind:
Отлично. Ошибок нет, +1 байт выделяемой памяти помог решить проблему.
Что интересно, в большинстве случаев и первая и вторая программа будут работать одинаково, но если память, выделенная под строку, в которую не влез символ окончания, не была занулена, то функция printf(), при выводе такой строки, выведет и весь мусор после этой строки — будет выведено все, пока на пути printf() не встанет символ окончания строки.
Однако, знаете, (strlen(str) + 1) — такое себе решение. Перед нами встают 2 проблемы:
snprintf()
Функция имеет одну интересную особенность — она в любом случае возвращает размер формируемой строки (без учета символа конца строки). Если строка пустая, то возвращается 0.
Одна из описанных мною проблем использования strlen связана с функциями sprintf() и snprintf(). Предположим, что нам надо что-то записать в строку str. Конечная строка содержит значения других переменных. Наша запись должна быть примерно такой:
Встает вопрос: как определить, сколько памяти надо выделить под строку str?
— не прокатит. Прототип функции strlen() выглядит так:
const char *s не подразумевает, что передаваемая в s строка может быть строкой формата с переменным количеством аргументов.
Тут нам поможет то полезное свойство функции snprintf(), о котором я говорил выше. Давайте посмотрим на код следующей программы:
Запускаем программу в valgrind:
Отлично. Поддержка аргументов у нас есть. Благодаря тому, что мы в качестве второго аргумента в функцию snprintf() передаем ноль, запись по нулевому указателю никогда не приведет к Seagfault. Однако, несмотря на это функция все равно вернет необходимый под строку размер.
Но с другой стороны, нам пришлось завести дополнительную переменную, да и конструкция
выглядит еще хуже, чем в случае с strlen().
Вообще, + sizeof(‘\0’) можно убрать, если в конце строки формата явно указать ‘\0’ (size_t needed_mem = snprintf(NULL, 0, «Hello, %s!\n\0», «Habr»);), но это возможно отнюдь не всегда (в зависимости от механизма обработки строк мы можем выделить лишний байт).
Надо что-то сделать. Я немного подумал и решил, что сейчас настал час воззвать к мудрости древних. Опишем макрофункцию, которая будет вызывать snprintf() с нулевым указателем в качестве первого аргумента, и нулем, в качестве второго. Да и про конец строки не забудем!
Да, возможно, для кого-то будет новостью, но макросы в си поддерживают переменное количество аргументов, и троеточие говорит препроцессору о том, что указанному аргументу макрофункции (в нашем случае это args) соответствует несколько реальных аргументов.
Проверим наше решение на практике:
Запускаем с valgrund:
Да, ошибок нет. Все корректно. И valgrind доволен, и программист наконец может пойти поспать.
Но, напоследок, скажу еще кое-что. В случае, если нам надо выделить память под какую-либо строку (даже с аргументами) есть уже полностью рабочее готовое решение.
Речь идет о функции asprintf:
В качестве первого аргумента она принимает указатель на строку (**strp) и аллоцирует память по разыменованному указателю.
Наша программа, написанная с использованием asprintf() будет выглядеть так:
И, собственно, в valgrind:
Все отлично, но, как видите, памяти всего было выделено больше, да и alloc’ов теперь три, а не два. На слабых встраиваемых системах использование это функции нежелательно.
К тому же, если мы напишем в консоли man asprintf, то увидим:
Отсюда ясно, что данная функция доступна только в исходниках GNU.
Заключение
В заключение я хочу сказать, что работа со строками в C — это очень сложная тема, которая имеет ряд нюансов. Например, для написания «безопасного» кода при динамическом выделении памяти рекомендуется все же использовать функцию calloc() вместо malloc() — calloc забивает выделяемую память нулями. Ну или после выделения памяти использовать функцию memset(). Иначе мусор, который изначально лежал на выделяемом участке памяти, может вызвать вопросы при дебаге, а иногда и при работе со строкой.
Больше половины моих знакомых си-программистов (большинство из них — начинающие), решивших по моей просьбе задачу с выделением памяти под строки, сделали это так, что в конечном итоге это привело к ошибкам контекста. В одном случае — даже к утечке памяти (ну, забыл человек сделать free(str), с кем не бывает). Собственно говоря, это и сподвигло меня на создание сего творения, которое вы только что прочитали.
Я надеюсь, кому-то эта статья будет полезной. К чему я это все городил — никакой язык не бывает прост. Везде есть свои тонкости. И чем больше тонкостей языка вы знаете, тем лучше ваш код.
Я верю, что после прочтения этой статьи ваш код станет чуточку лучше 🙂
Удачи, Хабр!