Java regex dla wsparcia Unicode?
Aby dopasować od A do Z, użyjemy regex:
[A-Za-z]
Jak zezwolić regex na dopasowanie znaków utf8 wprowadzonych przez użytkownika? Na przykład chińskie słowa jak 环保部
4 answers
To, czego szukasz, to właściwości Unicode.
Np. \p{L}
to dowolna litera z dowolnego języka
Więc regex pasujący do takiego chińskiego słowa Może być czymś w rodzaju
\p{L}+
Istnieje wiele takich właściwości, po więcej szczegółów patrz regular-expressions.info
Inną opcją jest użycie modyfikatora
Pattern.UNICODE_CHARACTER_CLASS
W Javie 7 istnieje nowa Właściwość Pattern.UNICODE_CHARACTER_CLASS
, która umożliwia wersję Unicode predefiniowanych klas znaków zobacz moja odpowiedź tutaj, aby uzyskać więcej szczegółów i linków
Mógłbyś zrobić coś takiego
Pattern p = Pattern.compile("\\w+", Pattern.UNICODE_CHARACTER_CLASS);
I \w
pasowałyby do wszystkich liter i cyfr z dowolnych języków (i oczywiście do słów łączących znaki jak _
).
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-05-23 12:26:27
Aby dopasować poszczególne znaki, możesz po prostu umieścić je w klasie znaków a, jako literały lub za pomocą składni \u03FB
.
Oczywiście często nie można wymienić wszystkich dozwolonych znaków w językach ideograficznych. Aby regex traktował znaki unicode zgodnie z ich typem lub blokiem kodu, obsługiwane są różne inne znaki specjalne, które są zdefiniowane tutaj . Spójrz na sekcję "obsługa Unicode", w szczególności na odniesienia do klasy Character
i do standardu Unicode siebie.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-06-05 08:50:24
Aby zająć się obsługą NLS i uniknąć akceptacji angielskiego znaku specjalnego, możemy użyć poniższego wzoru...
[a-zA-Z0-9 \u0080 - \u9fff]*+
Dla punktu odniesienia kodu UTF: http://www.utf8-chartable.de/unicode-utf8-table.pl
Fragment kodu:
String vowels = "అఆఇఈఉఊఋఌఎఏఐఒఓఔౠౡ";
String consonants = "కఖగఘఙచఛజఝఞటఠడఢణతథదధనపఫబభమయరఱలళవశషసహ";
String signsAndPunctuations = "కఁకంకఃకాకికీకుకూకృకౄకెకేకైకొకోకౌక్కౕకౖ";
String symbolsAndNumerals = "౦౧౨౩౪౫౬౭౮౯";
String engChinesStr = "ABC導字會";
Pattern ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU = Pattern
.compile("[a-zA-Z0-9 \\u0c00-\\u0c7f]*+");
System.out.println(ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU.matcher(vowels)
.matches());
Pattern ALPHANUMERIC_AND_SPACE_PATTERN_CHINESE = Pattern
.compile("[a-zA-Z0-9 \\u4e00-\\u9fff]*+");
Pattern ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN = Pattern
.compile("[a-zA-Z0-9 \\u0080-\\u9fff]*+");
System.out.println(ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN.matcher(engChinesStr)
.matches());
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-07-07 10:04:13
- API wyrażeń regularnych Java działa na typie
char
- typ
char
jest domyślnie UTF-16 - Jeśli masz dane UTF-8, będziesz musiał transkodować je do UTF-16 na wejściu, jeśli nie jest to jeszcze zrobione
Unicode jest uniwersalnym zestawem znaków, a UTF-8 może opisać wszystko (w tym znaki sterujące, znaki interpunkcyjne, Symbole, litery itp.) Musisz być bardziej szczegółowy o tym, co chcesz włączyć i co chcesz wykluczyć. Java wyrażenia regularne używają składni \p{category}
, aby dopasować Punkty kodowe do kategorii . Zobacz standard Unicode dla listy kategorii.
Jeśli chcesz zidentyfikować i rozdzielić słowa w sekwencji ideogramów, musisz spojrzeć na bardziej wyrafinowane API. Zacznę od BreakIterator
typ.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-06-05 09:19:58