二次元裏@ふたば

画像ファイル名:1714756435344.jpg-(104932 B)
104932 B24/05/04(土)02:13:55No.1185318184そうだねx1 07:31頃消えます
正規表現に"."というメタキャラクタがあってだいたいどの1文字にもマッチするという機能になってるじゃないですか
一方でUnicodeでは目に見える1文字が複数のコードポイントで構成されている場合があってそういうまとまりを書記素クラスタと言うんですけど1つの書記素クラスタ全体を正規表現でマッチさせるには"."は使えないわけです
ということで書記素クラスタに正確にマッチする正規表現をUnicodeの仕様書を見ながら展開してみたらこんな感じになって
fu3432063.jpg
なそにんとなった土曜の夜
このスレは古いので、もうすぐ消えます。
124/05/04(土)02:18:18No.1185319173そうだねx22
詳しい人たのむ
224/05/04(土)02:18:27No.1185319209そうだねx14
土曜は土曜でも金曜深夜を土曜というのはどうなんよ
324/05/04(土)02:19:01No.1185319337そうだねx4
あきゆきの立てたスレ
424/05/04(土)02:20:09No.1185319600+
1文字1バイト以外の世界なんて気にしたことのない連中が考えたもんだからよ…
524/05/04(土)02:21:17No.1185319960そうだねx11
文字処理がバグまみれになる理由
624/05/04(土)02:21:26No.1185319990+
>1文字1バイト以外の世界なんて気にしたことのない連中が考えたもんだからよ…
正規表現の起源的にはそういう話じゃないよ!
724/05/04(土)02:22:18No.1185320206+
諦めた方がマシだな
824/05/04(土)02:22:36No.1185320279そうだねx1
逆にいうと.で正確に1文字マッチする仕様にするなら正規表現エンジン側がこれ実装する必要があるってこと?
924/05/04(土)02:23:32No.1185320476+
結合文字を1文字に戻すプログラムを作ったこと有るな
1024/05/04(土)02:24:09No.1185320584+
諦めてUTF-32でなんとかなりませんか
1124/05/04(土)02:26:22No.1185321033+
異体字シーケンスとかアレか
1224/05/04(土)02:26:45No.1185321119+
>逆にいうと.で正確に1文字マッチする仕様にするなら正規表現エンジン側がこれ実装する必要があるってこと?
そうだね
https://unicode.org/reports/tr29/
1324/05/04(土)02:27:18No.1185321211そうだねx12
エロ画像で釣る根性が許せない
1424/05/04(土)02:27:24No.1185321235そうだねx41
すまん…ぽっちゃり三つ編み糸目眼鏡に惹かれてスレを開いた俺に言えることはないようだ…
1524/05/04(土)02:28:54No.1185321543+
可変長は人の手に負えないって…
1624/05/04(土)02:29:49No.1185321827+
>逆にいうと.で正確に1文字マッチする仕様にするなら正規表現エンジン側がこれ実装する必要があるってこと?
だからJavaなんかはもう対応してて「\X」で行ける
1724/05/04(土)02:30:06No.1185321888+
これ本当に.で対応させないと駄目な話…?
1824/05/04(土)02:30:16No.1185321920+
なにこれかつてのJISコードみたいになってんの?
1924/05/04(土)02:30:27No.1185321950そうだねx3
一瞬何言ってんだこいつと思ったけどよく読んだらわかった
賢い人はぱっと見で話を理解するんだろうな…
2024/05/04(土)02:32:31No.1185322365+
正規表現ってそういう符号化方式想定したもんじゃねーから!って話ではある
対応しなくてもまあ仕方ないんじゃないかなあ…
2124/05/04(土)02:32:51No.1185322446+
プログラムのコメントを消すとバグるってので似たような?のを読んだ記憶があるな…
2224/05/04(土)02:32:55No.1185322462そうだねx10
正規表現側で対応する(できる)レイヤじゃないと思う
2324/05/04(土)02:33:21No.1185322562+
こういうのエンジニア側がこれ実装しないといかんの…なってるけど相談するとじゃあ無くて大丈夫と言われがち
2424/05/04(土)02:33:35No.1185322619+
そもそも拡張されてない正規言語の意味で正規なの…?
2524/05/04(土)02:34:21No.1185322764+
文字数カウントも辛いぞ!
2624/05/04(土)02:35:41No.1185323008そうだねx2
文字クラスのプロパティに定義されてればいいんだろ
正規表現エンジン側が[:syokiso:]みたいな奴用意しろ
2724/05/04(土)02:36:55No.1185323263+
鬼雲は対応してるっぽい?RE2はダメ?
2824/05/04(土)02:37:22No.1185323391そうだねx4
性器表現かと思って来ました
すいません帰ります…
2924/05/04(土)02:39:46No.1185323816+
半角全角の()()が入り混じってたらキレる?
3024/05/04(土)02:40:20No.1185323910+
名前欄にひらがなカタカナ漢字だけ入力できるようにしたら記号扱いの々が弾かれた話好き
3124/05/04(土)02:40:41No.1185323978+
>半角全角の()()が入り混じってたらキレる?
検索エンジン次第
3224/05/04(土)02:43:26No.1185324414+
よくわからんから俺は.*を使うぜ!
3324/05/04(土)02:44:50No.1185324645+
文字数制限してるシステムにサロゲート文字の𩸽あたりをぶち込むとサクサクになるぞ
3424/05/04(土)02:45:30No.1185324745+
言語の方でよしなに扱ってくれるやつ
3524/05/04(土)02:50:54No.1185325522そうだねx1
unicode正規化ってやつがなんとかしてくれるって聞いたんですけど…
3624/05/04(土)02:52:42No.1185325816+
絵文字はAIにプロンプト投げる時やたらトークン消費するやつと関係ある?
3724/05/04(土)02:57:09No.1185326504そうだねx3
>文字数制限してるシステムにサロゲート文字の𩸽あたりをぶち込むとサクサクになるぞ
社内システム間で文字コードが統一されてないのいいよね
𠮷田さんのおかげで基幹がサクサクになった
3824/05/04(土)02:59:44No.1185326889+
Ux29E3DとUx20BB7なのか…
3924/05/04(土)03:00:38No.1185327034+
よくわからないがこの絵が良いことはわかる
4024/05/04(土)03:01:18No.1185327148+
U+B16B U+00B5
4124/05/04(土)03:01:34No.1185327191+
>絵文字はAIにプロンプト投げる時やたらトークン消費するやつと関係ある?
絵文字は文字数としては2文字に相当するんだ
4224/05/04(土)03:03:59No.1185327532+
👨‍👩‍👦‍👦なんかは
U+1F468 U+200D U+1F469 U+200D U+1F466 U+200D U+1F466
の7コードポイントで構成されてたりするね
4324/05/04(土)03:05:58No.1185327826+
濁音半濁音からして合成用の濁点(U+3099)と半濁点(U+309A)がいつの間にやら紛れ込んできて…
4424/05/04(土)03:08:22No.1185328181そうだねx1
複数コードポイント合成するやつそんな名前だったんだ
4524/05/04(土)03:08:37No.1185328212そうだねx2
文字処理は絶対に自分やる気しない
誰かが作ったもの使おうぜ!!
4624/05/04(土)03:10:17No.1185328476そうだねx1
>ということで書記素クラスタに正確にマッチする正規表現をUnicodeの仕様書を見ながら展開してみたらこんな感じになって
>fu3432063.jpg
これUnicode改定されると増えるんでしょ?まあ正規表現でやる意味はあまりないよね…
4724/05/04(土)03:13:18No.1185328905+
まずユニコードの正規化を行ってからマッチングすればもっと簡単になるんじゃない
4824/05/04(土)03:13:35No.1185328949+
としあきか
4924/05/04(土)03:25:22No.1185330488+
>書記素クラスタに正確にマッチする正規表現
どんな用途で必要になったの?
5024/05/04(土)03:26:25No.1185330628+
えっちなスレ画に釣られたらなんかよくわからないものを見せられている…
5124/05/04(土)03:28:21No.1185330818+
[...hoge].forEach(...)
俺はこれで行く
5224/05/04(土)03:29:54No.1185331005そうだねx1
>どんな用途で必要になったの?
今webページを正規表現で検索する拡張を作ってるのだけど、
試しに"."単体で検索したらまるでダメな検索結果が出てきてこらあかんとなったの
5324/05/04(土)03:31:09No.1185331154+
全くよくわからないがUnicodeは1語に対応する文字列が1対1で定まってるとばかり思ってたけど違うのか…?
5424/05/04(土)03:31:56No.1185331251+
>全くよくわからないがUnicodeは1語に対応する文字列が1対1で定まってるとばかり思ってたけど違うのか…?
数字+絵文字がする特殊文字
みたいな2文字以上の組み合わせで1文字扱いになるのがあるんだ
5524/05/04(土)03:34:27No.1185331566そうだねx3
世のunicode対応の諸々は
よくこんなものきちんと表示したり入力受け付けたりしてるもんだな…
5624/05/04(土)03:35:49No.1185331726そうだねx3
結合文字死ね
5724/05/04(土)03:42:14No.1185332362+
Unicodeいろんな文化のいろんな文字を表現するのが目的であって扱い易さまではケアしてくれない
いっぱいかなしい
5824/05/04(土)03:45:09No.1185332672そうだねx19
emojiのおかげで英語圏の連中も平等にマルチバイト文字で気が狂いそうになってていっぱいうれしい
5924/05/04(土)03:46:39No.1185332827+
字形字体文字集合文字コードの話は調べれば調べるほど沼が増えていく…
6024/05/04(土)03:46:41No.1185332830+
一文字を固定長で扱えるフォーマットとかそのうち出るだろ
だって困るもん
6124/05/04(土)03:47:58No.1185332965+
>一文字を固定長で扱えるフォーマットとかそのうち出るだろ
UTF256作るか…
6224/05/04(土)03:48:33No.1185333009+
ascii以外は考慮しないと決断すれば解決!
6324/05/04(土)03:48:34No.1185333011+
emojiはGAIJINにとってはいきなり闇鍋来た感じだろうな
6424/05/04(土)03:48:59No.1185333055+
Shift-JISって素敵だね…
6524/05/04(土)03:50:43No.1185333240+
>emojiはGAIJINにとってはいきなり闇鍋来た感じだろうな
:-(
6624/05/04(土)03:50:55No.1185333259+
>Shift-JISって素敵だね…
いいえ
6724/05/04(土)03:55:22No.1185333703+
>>Shift-JISって素敵だね…
>いいえ
ダメ文字おすぎ!
6824/05/04(土)04:19:21No.1185335602+
どんなときでもらsjis-winだぞ
6924/05/04(土)04:30:14No.1185336257+
サロゲートペアってもしかしてクソ仕様なのでは…
7024/05/04(土)04:33:27No.1185336459+
左様
7124/05/04(土)04:34:35No.1185336527そうだねx1
>>>Shift-JISって素敵だね…
>>いいえ
>ダメ文字おすぎ!
正確にはあとから付け足した文字がおすぎ
7224/05/04(土)04:46:51No.1185337256+
バイト列というかコードポイント列から視覚上の文字を切り出すところまで別のレイヤでやって正規表現ではその「文字」を扱うみたいのが正道なんだろうか
実際フォントグリフを割り当てる過程でそういう処理はしてるわけよね?
7324/05/04(土)04:51:21No.1185337498+
見える1文字で扱えると思ったらその見える1文字が正常でなかったりする…合成文字とか
7424/05/04(土)05:06:40No.1185338310そうだねx1
正規表現にuフラグ付けるんじゃだめなの?
7524/05/04(土)05:23:23No.1185339136+
🇺🇸とかは二文字扱い?
7624/05/04(土)05:24:11No.1185339173+
レガシーなプログラムをUnicodeに対応させるときにドはまりするポイントのひとつは
「ある文字の次の文字を参照する」という処理だったな…
CSVファイル関連のプログラム書いてたからわかる
言語ごとにそのためのライブラリがあるぐらいだ
7724/05/04(土)05:26:26No.1185339268そうだねx1
>あきゆきの立てたスレ
いつもの時間帯に立てるから分かるよ…
7824/05/04(土)05:28:06No.1185339336+
よく見る国旗の絵文字はだいたい2文字
🏴󠁧󠁢󠁷󠁬󠁳󠁿とか7文字のもあるよ
7924/05/04(土)05:28:27No.1185339355+
改行コードが4文字使ってるやつとか?
8024/05/04(土)05:32:25No.1185339529+
>今webページを正規表現で検索する拡張を作ってるのだけど、
>試しに"."単体で検索したらまるでダメな検索結果が出てきてこらあかんとなったの
いい感じに正規表現とunicodeを扱ってくれるJavascriptライブラリとかないんです?
8124/05/04(土)06:50:25No.1185344222+
銀行とかカードローンとかの仕事で他社から渡って来た住所データがマルチバイト関係で文字化けしちゃう!は実際よくある話だ
𣗄代とか
8224/05/04(土)06:58:56No.1185344908+
>👨👩👦👦なんかは
>U+1F468 U+200D U+1F469 U+200D U+1F466 U+200D U+1F466
>の7コードポイントで構成されてたりするね
左上+右上+……って構造だったんだ
8324/05/04(土)07:01:43No.1185345152+
>左上+右上+……って構造だったんだ
なるほど引用で分割されてこれは…わかりやすい…
8424/05/04(土)07:02:17No.1185345204+
>🏴󠁧󠁢󠁷󠁬󠁳󠁿とか7文字のもあるよ
これが7文字なのなんでなんだ
8524/05/04(土)07:03:18No.1185345294+
面白い誤変換すんな
fu3432288.png


fu3432288.png 1714756435344.jpg fu3432063.jpg