Tree - rpms/grep - src.fedoraproject.org

bkabrda / rpms / grep

Forked from rpms/grep 6 years ago

Blame grep-2.6.3-dfa-optimize-period.patch

Blob History Raw

		6ccb107	`From 01422220ebf40f829c1f00418a96873b82f206ff Mon Sep 17 00:00:00 2001`
		6ccb107	`From: Paolo Bonzini <bonzini@gnu.org>`
		6ccb107	`Date: Mon, 19 Apr 2010 14:50:23 +0200`
		6ccb107	`Subject: [PATCH 1/2] dfa: optimize UTF-8 period`
		6ccb107
		6ccb107	`Backport of upstream commits 7a0ad00 and 42ac56a.`
		6ccb107
		6ccb107	`* src/dfa.h (struct dfa): Add utf8_anychar_classes.`
		6ccb107	`* src/dfa.c (add_utf8_anychar): New.`
		6ccb107	`(atom): Simplify if/else nesting. Call add_utf8_anychar for ANYCHAR`
		6ccb107	`in UTF-8 locales.`
		6ccb107	`(dfaoptimize): Abort on ANYCHAR.`
		6ccb107	`---`
		6ccb107	`src/dfa.c \| 95 ++++++++++++++++++++++++++++++++++++++++++++++++++++---------`
		6ccb107	`src/dfa.h \| 1 +`
		6ccb107	`2 files changed, 82 insertions(+), 14 deletions(-)`
		6ccb107
		6ccb107	`diff --git a/src/dfa.c b/src/dfa.c`
		6ccb107	`index ba78b08..e13c361 100644`
		6ccb107	`--- a/src/dfa.c`
		6ccb107	`+++ b/src/dfa.c`
		6ccb107	`@@ -1191,6 +1191,55 @@ addtok_wc (wint_t wc)`
		6ccb107	`}`
		6ccb107	`#endif`
		6ccb107
		6ccb107	`+static void`
		6ccb107	`+add_utf8_anychar (void)`
		6ccb107	`+{`
		6ccb107	`+ static const charclass utf8_classes[5] = {`
		6ccb107	`+ { 0, 0, 0, 0, ~0, ~0, 0, 0 }, /* 80-bf: non-lead bytes */`
		6ccb107	`+ { ~0, ~0, ~0, ~0, ~0, ~0, 0, 0xff000000 }, /* 00-bf, f8-ff: 1-byte/invalid */`
		6ccb107	`+ { 0, 0, 0, 0, 0, 0, ~0, 0 }, /* c0-df: 2-byte sequence */`
		6ccb107	`+ { 0, 0, 0, 0, 0, 0, 0, 0xffff }, /* e0-ef: 3-byte sequence */`
		6ccb107	`+ { 0, 0, 0, 0, 0, 0, 0, 0xff0000 } /* f0-f7: 4-byte sequence */`
		6ccb107	`+ };`
		6ccb107	`+ const unsigned int n = sizeof (utf8_classes) / sizeof (utf8_classes[0]);`
		6ccb107	`+ unsigned int i;`
		6ccb107	`+`
		6ccb107	`+ /* Define the five character classes that are needed below. */`
		6ccb107	`+ if (dfa->utf8_anychar_classes[0] == 0)`
		6ccb107	`+ for (i = 0; i < n; i++)`
		6ccb107	`+ {`
		6ccb107	`+ charclass c;`
		6ccb107	`+ memcpy (c, utf8_classes[i], sizeof c);`
		6ccb107	`+ if (i == 1)`
		6ccb107	`+ {`
		6ccb107	`+ if (!(syntax_bits & RE_DOT_NEWLINE))`
		6ccb107	`+ clrbit (eolbyte, c);`
		6ccb107	`+ if (syntax_bits & RE_DOT_NOT_NULL)`
		6ccb107	`+ clrbit ('\0', c);`
		6ccb107	`+ }`
		6ccb107	`+ dfa->utf8_anychar_classes[i] = CSET + charclass_index(c);`
		6ccb107	`+ }`
		6ccb107	`+`
		6ccb107	`+ /* A valid UTF-8 character is`
		6ccb107	`+`
		6ccb107	`+ ([0x00-0x7f]`
		6ccb107	`+ \|[0xc2-0xdf][0x80-0xbf]`
		6ccb107	`+ \|[0xe0-0xef[0x80-0xbf][0x80-0xbf]`
		6ccb107	`+ \|[0xf0-f7][0x80-0xbf][0x80-0xbf][0x80-0xbf])`
		6ccb107	`+`
		6ccb107	`+ which I'll write more concisely "B\|CA\|DAA\|EAAA". Factor the [0x80-0xbf]`
		6ccb107	`+ and you get "B\|(C\|(D\|EA)A)A". And since the token buffer is in reverse`
		6ccb107	`+ Polish notation, you get "B C D E A CAT OR A CAT OR A CAT OR". */`
		6ccb107	`+ for (i = 1; i < n; i++)`
		6ccb107	`+ addtok (dfa->utf8_anychar_classes[i]);`
		6ccb107	`+ while (--i > 1)`
		6ccb107	`+ {`
		6ccb107	`+ addtok (dfa->utf8_anychar_classes[0]);`
		6ccb107	`+ addtok (CAT);`
		6ccb107	`+ addtok (OR);`
		6ccb107	`+ }`
		6ccb107	`+}`
		6ccb107	`+`
		6ccb107	`/* The grammar understood by the parser is as follows.`
		6ccb107
		6ccb107	`regexp:`
		6ccb107	`@@ -1229,8 +1278,12 @@ addtok_wc (wint_t wc)`
		6ccb107	`static void`
		6ccb107	`atom (void)`
		6ccb107	`{`
		6ccb107	`+ if (0)`
		6ccb107	`+ {`
		6ccb107	`+ /* empty */`
		6ccb107	`+ }`
		6ccb107	`#ifdef MBS_SUPPORT`
		6ccb107	`- if (tok == WCHAR)`
		6ccb107	`+ else if (tok == WCHAR)`
		6ccb107	`{`
		6ccb107	`addtok_wc (case_fold ? towlower(wctok) : wctok);`
		6ccb107	`#ifndef GREP`
		6ccb107	`@@ -1242,16 +1295,28 @@ atom (void)`
		6ccb107	`#endif`
		6ccb107
		6ccb107	`tok = lex();`
		6ccb107	`- return;`
		6ccb107	`+ }`
		6ccb107	`+`
		6ccb107	`+ else if (tok == ANYCHAR && using_utf8())`
		6ccb107	`+ {`
		6ccb107	`+ /* For UTF-8 expand the period to a series of CSETs that define a valid`
		6ccb107	`+ UTF-8 character. This avoids using the slow multibyte path. I'm`
		6ccb107	`+ pretty sure it would be both profitable and correct to do it for`
		6ccb107	`+ any encoding; however, the optimization must be done manually as`
		6ccb107	`+ it is done above in add_utf8_anychar. So, let's start with`
		6ccb107	`+ UTF-8: it is the most used, and the structure of the encoding`
		6ccb107	`+ makes the correctness more obvious. */`
		6ccb107	`+ add_utf8_anychar();`
		6ccb107	`+ tok = lex();`
		6ccb107	`}`
		6ccb107	`#endif /* MBS_SUPPORT */`
		6ccb107
		6ccb107	`- if ((tok >= 0 && tok < NOTCHAR) \|\| tok >= CSET \|\| tok == BACKREF`
		6ccb107	`- \|\| tok == BEGLINE \|\| tok == ENDLINE \|\| tok == BEGWORD`
		6ccb107	`+ else if ((tok >= 0 && tok < NOTCHAR) \|\| tok >= CSET \|\| tok == BACKREF`
		6ccb107	`+ \|\| tok == BEGLINE \|\| tok == ENDLINE \|\| tok == BEGWORD`
		6ccb107	`#ifdef MBS_SUPPORT`
		6ccb107	`- \|\| tok == ANYCHAR \|\| tok == MBCSET /* MB_CUR_MAX > 1 */`
		6ccb107	`+ \|\| tok == ANYCHAR \|\| tok == MBCSET`
		6ccb107	`#endif /* MBS_SUPPORT */`
		6ccb107	`- \|\| tok == ENDWORD \|\| tok == LIMWORD \|\| tok == NOTLIMWORD)`
		6ccb107	`+ \|\| tok == ENDWORD \|\| tok == LIMWORD \|\| tok == NOTLIMWORD)`
		6ccb107	`{`
		6ccb107	`addtok(tok);`
		6ccb107	`tok = lex();`
		6ccb107	`@@ -3027,14 +3092,16 @@ dfaoptimize (struct dfa *d)`
		6ccb107	`for (i = 0; i < d->tindex; ++i)`
		6ccb107	`{`
		6ccb107	`switch(d->tokens[i])`
		6ccb107	`- {`
		6ccb107	`- case ANYCHAR:`
		6ccb107	`- case MBCSET:`
		6ccb107	`- /* Requires multi-byte algorithm. */`
		6ccb107	`- return;`
		6ccb107	`- default:`
		6ccb107	`- break;`
		6ccb107	`- }`
		6ccb107	`+ {`
		6ccb107	`+ case ANYCHAR:`
		6ccb107	`+ /* Lowered. */`
		6ccb107	`+ abort ();`
		6ccb107	`+ case MBCSET:`
		6ccb107	`+ /* Requires multi-byte algorithm. */`
		6ccb107	`+ return;`
		6ccb107	`+ default:`
		6ccb107	`+ break;`
		6ccb107	`+ }`
		6ccb107	`}`
		6ccb107
		6ccb107	`free_mbdata (d);`
		6ccb107	`diff --git a/src/dfa.h b/src/dfa.h`
		6ccb107	`index 1c85207..42c177a 100644`
		6ccb107	`--- a/src/dfa.h`
		6ccb107	`+++ b/src/dfa.h`
		6ccb107	`@@ -283,6 +283,7 @@ struct dfa`
		6ccb107	`with dfaparse(). */`
		6ccb107	`#ifdef MBS_SUPPORT`
		6ccb107	`unsigned int mb_cur_max; /* Cached value of MB_CUR_MAX. */`
		6ccb107	`+ int utf8_anychar_classes[5]; /* To lower ANYCHAR in UTF-8 locales. */`
		6ccb107
		6ccb107	`/* The following are used only if MB_CUR_MAX > 1. */`
		6ccb107
		6ccb107	`--`
		6ccb107	`1.6.6.1`
		6ccb107

bkabrda / rpms / grep

Source Code

Blame grep-2.6.3-dfa-optimize-period.patch