Java regex dla wsparcia Unicode?

Question

Java regex dla wsparcia Unicode?

Aby dopasować od A do Z, użyjemy regex:

[A-Za-z]

Jak zezwolić regex na dopasowanie znaków utf8 wprowadzonych przez użytkownika? Na przykład chińskie słowa jak 环保部

54

java regex unicode cjk

Author: dda, 2012-06-05

Source

4 answers

Aby dopasować poszczególne znaki, możesz po prostu umieścić je w klasie znaków a, jako literały lub za pomocą składni \u03FB.

Oczywiście często nie można wymienić wszystkich dozwolonych znaków w językach ideograficznych. Aby regex traktował znaki unicode zgodnie z ich typem lub blokiem kodu, obsługiwane są różne inne znaki specjalne, które są zdefiniowane tutaj . Spójrz na sekcję "obsługa Unicode", w szczególności na odniesienia do klasy Character i do standardu Unicode siebie.

7

Author: Kilian Foth,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-06-05 08:50:24

Aby zająć się obsługą NLS i uniknąć akceptacji angielskiego znaku specjalnego, możemy użyć poniższego wzoru...

[a-zA-Z0-9 \u0080 - \u9fff]*+

Dla punktu odniesienia kodu UTF: http://www.utf8-chartable.de/unicode-utf8-table.pl

Fragment kodu:

    String vowels = "అఆఇఈఉఊఋఌఎఏఐఒఓఔౠౡ";
    String consonants = "కఖగఘఙచఛజఝఞటఠడఢణతథదధనపఫబభమయరఱలళవశషసహ";
    String signsAndPunctuations = "కఁకంకఃకాకికీకుకూకృకౄకెకేకైకొకోకౌక్కౕకౖ";
    String symbolsAndNumerals = "౦౧౨౩౪౫౬౭౮౯";
    String engChinesStr = "ABC導字會";


    Pattern ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU = Pattern
            .compile("[a-zA-Z0-9 \\u0c00-\\u0c7f]*+");
    System.out.println(ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU.matcher(vowels)
            .matches());


    Pattern ALPHANUMERIC_AND_SPACE_PATTERN_CHINESE = Pattern
            .compile("[a-zA-Z0-9 \\u4e00-\\u9fff]*+");

    Pattern ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN = Pattern
            .compile("[a-zA-Z0-9 \\u0080-\\u9fff]*+");

    System.out.println(ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN.matcher(engChinesStr)
            .matches());

6

Author: Venkateswara Rao,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-07-07 10:04:13

API wyrażeń regularnych Java działa na typie char
typ char jest domyślnie UTF-16
Jeśli masz dane UTF-8, będziesz musiał transkodować je do UTF-16 na wejściu, jeśli nie jest to jeszcze zrobione

Unicode jest uniwersalnym zestawem znaków, a UTF-8 może opisać wszystko (w tym znaki sterujące, znaki interpunkcyjne, Symbole, litery itp.) Musisz być bardziej szczegółowy o tym, co chcesz włączyć i co chcesz wykluczyć. Java wyrażenia regularne używają składni \p{category}, aby dopasować Punkty kodowe do kategorii . Zobacz standard Unicode dla listy kategorii.

Jeśli chcesz zidentyfikować i rozdzielić słowa w sekwencji ideogramów, musisz spojrzeć na bardziej wyrafinowane API. Zacznę od BreakIterator typ.

3

Author: McDowell,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-06-05 09:19:58

score 82 · Accepted Answer

To, czego szukasz, to właściwości Unicode.

Np. \p{L} to dowolna litera z dowolnego języka

Więc regex pasujący do takiego chińskiego słowa Może być czymś w rodzaju

\p{L}+

Istnieje wiele takich właściwości, po więcej szczegółów patrz regular-expressions.info

Inną opcją jest użycie modyfikatora

Pattern.UNICODE_CHARACTER_CLASS

W Javie 7 istnieje nowa Właściwość Pattern.UNICODE_CHARACTER_CLASS, która umożliwia wersję Unicode predefiniowanych klas znaków zobacz moja odpowiedź tutaj, aby uzyskać więcej szczegółów i linków

Mógłbyś zrobić coś takiego

Pattern p = Pattern.compile("\\w+", Pattern.UNICODE_CHARACTER_CLASS);

I \w pasowałyby do wszystkich liter i cyfr z dowolnych języków (i oczywiście do słów łączących znaki jak _).