正規表現に"."というメタキャラクタがあってだいたいどの1文字にもマッチするという機能になってるじゃないですかこのスレは古いので、もうすぐ消えます。
一方でUnicodeでは目に見える1文字が複数のコードポイントで構成されている場合があってそういうまとまりを書記素クラスタと言うんですけど1つの書記素クラスタ全体を正規表現でマッチさせるには"."は使えないわけです
ということで書記素クラスタに正確にマッチする正規表現をUnicodeの仕様書を見ながら展開してみたらこんな感じになって
fu3432063.jpg
なそにんとなった土曜の夜
… | 124/05/04(土)02:18:18No.1185319173そうだねx22詳しい人たのむ |
… | 224/05/04(土)02:18:27No.1185319209そうだねx14土曜は土曜でも金曜深夜を土曜というのはどうなんよ |
… | 324/05/04(土)02:19:01No.1185319337そうだねx4あきゆきの立てたスレ |
… | 424/05/04(土)02:20:09No.1185319600+1文字1バイト以外の世界なんて気にしたことのない連中が考えたもんだからよ… |
… | 524/05/04(土)02:21:17No.1185319960そうだねx11文字処理がバグまみれになる理由 |
… | 624/05/04(土)02:21:26No.1185319990+>1文字1バイト以外の世界なんて気にしたことのない連中が考えたもんだからよ… |
… | 724/05/04(土)02:22:18No.1185320206+諦めた方がマシだな |
… | 824/05/04(土)02:22:36No.1185320279そうだねx1逆にいうと.で正確に1文字マッチする仕様にするなら正規表現エンジン側がこれ実装する必要があるってこと? |
… | 924/05/04(土)02:23:32No.1185320476+結合文字を1文字に戻すプログラムを作ったこと有るな |
… | 1024/05/04(土)02:24:09No.1185320584+諦めてUTF-32でなんとかなりませんか |
… | 1124/05/04(土)02:26:22No.1185321033+異体字シーケンスとかアレか |
… | 1224/05/04(土)02:26:45No.1185321119+>逆にいうと.で正確に1文字マッチする仕様にするなら正規表現エンジン側がこれ実装する必要があるってこと? |
… | 1324/05/04(土)02:27:18No.1185321211そうだねx12エロ画像で釣る根性が許せない |
… | 1424/05/04(土)02:27:24No.1185321235そうだねx41すまん…ぽっちゃり三つ編み糸目眼鏡に惹かれてスレを開いた俺に言えることはないようだ… |
… | 1524/05/04(土)02:28:54No.1185321543+可変長は人の手に負えないって… |
… | 1624/05/04(土)02:29:49No.1185321827+>逆にいうと.で正確に1文字マッチする仕様にするなら正規表現エンジン側がこれ実装する必要があるってこと? |
… | 1724/05/04(土)02:30:06No.1185321888+これ本当に.で対応させないと駄目な話…? |
… | 1824/05/04(土)02:30:16No.1185321920+なにこれかつてのJISコードみたいになってんの? |
… | 1924/05/04(土)02:30:27No.1185321950そうだねx3一瞬何言ってんだこいつと思ったけどよく読んだらわかった |
… | 2024/05/04(土)02:32:31No.1185322365+正規表現ってそういう符号化方式想定したもんじゃねーから!って話ではある |
… | 2124/05/04(土)02:32:51No.1185322446+プログラムのコメントを消すとバグるってので似たような?のを読んだ記憶があるな… |
… | 2224/05/04(土)02:32:55No.1185322462そうだねx10正規表現側で対応する(できる)レイヤじゃないと思う |
… | 2324/05/04(土)02:33:21No.1185322562+こういうのエンジニア側がこれ実装しないといかんの…なってるけど相談するとじゃあ無くて大丈夫と言われがち |
… | 2424/05/04(土)02:33:35No.1185322619+そもそも拡張されてない正規言語の意味で正規なの…? |
… | 2524/05/04(土)02:34:21No.1185322764+文字数カウントも辛いぞ! |
… | 2624/05/04(土)02:35:41No.1185323008そうだねx2文字クラスのプロパティに定義されてればいいんだろ |
… | 2724/05/04(土)02:36:55No.1185323263+鬼雲は対応してるっぽい?RE2はダメ? |
… | 2824/05/04(土)02:37:22No.1185323391そうだねx4性器表現かと思って来ました |
… | 2924/05/04(土)02:39:46No.1185323816+半角全角の()()が入り混じってたらキレる? |
… | 3024/05/04(土)02:40:20No.1185323910+名前欄にひらがなカタカナ漢字だけ入力できるようにしたら記号扱いの々が弾かれた話好き |
… | 3124/05/04(土)02:40:41No.1185323978+>半角全角の()()が入り混じってたらキレる? |
… | 3224/05/04(土)02:43:26No.1185324414+よくわからんから俺は.*を使うぜ! |
… | 3324/05/04(土)02:44:50No.1185324645+文字数制限してるシステムにサロゲート文字の𩸽あたりをぶち込むとサクサクになるぞ |
… | 3424/05/04(土)02:45:30No.1185324745+言語の方でよしなに扱ってくれるやつ |
… | 3524/05/04(土)02:50:54No.1185325522そうだねx1unicode正規化ってやつがなんとかしてくれるって聞いたんですけど… |
… | 3624/05/04(土)02:52:42No.1185325816+絵文字はAIにプロンプト投げる時やたらトークン消費するやつと関係ある? |
… | 3724/05/04(土)02:57:09No.1185326504そうだねx3>文字数制限してるシステムにサロゲート文字の𩸽あたりをぶち込むとサクサクになるぞ |
… | 3824/05/04(土)02:59:44No.1185326889+Ux29E3DとUx20BB7なのか… |
… | 3924/05/04(土)03:00:38No.1185327034+よくわからないがこの絵が良いことはわかる |
… | 4024/05/04(土)03:01:18No.1185327148+U+B16B U+00B5 |
… | 4124/05/04(土)03:01:34No.1185327191+>絵文字はAIにプロンプト投げる時やたらトークン消費するやつと関係ある? |
… | 4224/05/04(土)03:03:59No.1185327532+👨👩👦👦なんかは |
… | 4324/05/04(土)03:05:58No.1185327826+濁音半濁音からして合成用の濁点(U+3099)と半濁点(U+309A)がいつの間にやら紛れ込んできて… |
… | 4424/05/04(土)03:08:22No.1185328181そうだねx1複数コードポイント合成するやつそんな名前だったんだ |
… | 4524/05/04(土)03:08:37No.1185328212そうだねx2文字処理は絶対に自分やる気しない |
… | 4624/05/04(土)03:10:17No.1185328476そうだねx1>ということで書記素クラスタに正確にマッチする正規表現をUnicodeの仕様書を見ながら展開してみたらこんな感じになって |
… | 4724/05/04(土)03:13:18No.1185328905+まずユニコードの正規化を行ってからマッチングすればもっと簡単になるんじゃない |
… | 4824/05/04(土)03:13:35No.1185328949+としあきか |
… | 4924/05/04(土)03:25:22No.1185330488+>書記素クラスタに正確にマッチする正規表現 |
… | 5024/05/04(土)03:26:25No.1185330628+えっちなスレ画に釣られたらなんかよくわからないものを見せられている… |
… | 5124/05/04(土)03:28:21No.1185330818+[...hoge].forEach(...) |
… | 5224/05/04(土)03:29:54No.1185331005そうだねx1>どんな用途で必要になったの? |
… | 5324/05/04(土)03:31:09No.1185331154+全くよくわからないがUnicodeは1語に対応する文字列が1対1で定まってるとばかり思ってたけど違うのか…? |
… | 5424/05/04(土)03:31:56No.1185331251+>全くよくわからないがUnicodeは1語に対応する文字列が1対1で定まってるとばかり思ってたけど違うのか…? |
… | 5524/05/04(土)03:34:27No.1185331566そうだねx3世のunicode対応の諸々は |
… | 5624/05/04(土)03:35:49No.1185331726そうだねx3結合文字死ね |
… | 5724/05/04(土)03:42:14No.1185332362+Unicodeいろんな文化のいろんな文字を表現するのが目的であって扱い易さまではケアしてくれない |
… | 5824/05/04(土)03:45:09No.1185332672そうだねx19emojiのおかげで英語圏の連中も平等にマルチバイト文字で気が狂いそうになってていっぱいうれしい |
… | 5924/05/04(土)03:46:39No.1185332827+字形字体文字集合文字コードの話は調べれば調べるほど沼が増えていく… |
… | 6024/05/04(土)03:46:41No.1185332830+一文字を固定長で扱えるフォーマットとかそのうち出るだろ |
… | 6124/05/04(土)03:47:58No.1185332965+>一文字を固定長で扱えるフォーマットとかそのうち出るだろ |
… | 6224/05/04(土)03:48:33No.1185333009+ascii以外は考慮しないと決断すれば解決! |
… | 6324/05/04(土)03:48:34No.1185333011+emojiはGAIJINにとってはいきなり闇鍋来た感じだろうな |
… | 6424/05/04(土)03:48:59No.1185333055+Shift-JISって素敵だね… |
… | 6524/05/04(土)03:50:43No.1185333240+>emojiはGAIJINにとってはいきなり闇鍋来た感じだろうな |
… | 6624/05/04(土)03:50:55No.1185333259+>Shift-JISって素敵だね… |
… | 6724/05/04(土)03:55:22No.1185333703+>>Shift-JISって素敵だね… |
… | 6824/05/04(土)04:19:21No.1185335602+どんなときでもらsjis-winだぞ |
… | 6924/05/04(土)04:30:14No.1185336257+サロゲートペアってもしかしてクソ仕様なのでは… |
… | 7024/05/04(土)04:33:27No.1185336459+左様 |
… | 7124/05/04(土)04:34:35No.1185336527そうだねx1>>>Shift-JISって素敵だね… |
… | 7224/05/04(土)04:46:51No.1185337256+バイト列というかコードポイント列から視覚上の文字を切り出すところまで別のレイヤでやって正規表現ではその「文字」を扱うみたいのが正道なんだろうか |
… | 7324/05/04(土)04:51:21No.1185337498+見える1文字で扱えると思ったらその見える1文字が正常でなかったりする…合成文字とか |
… | 7424/05/04(土)05:06:40No.1185338310そうだねx1正規表現にuフラグ付けるんじゃだめなの? |
… | 7524/05/04(土)05:23:23No.1185339136+🇺🇸とかは二文字扱い? |
… | 7624/05/04(土)05:24:11No.1185339173+レガシーなプログラムをUnicodeに対応させるときにドはまりするポイントのひとつは |
… | 7724/05/04(土)05:26:26No.1185339268そうだねx1>あきゆきの立てたスレ |
… | 7824/05/04(土)05:28:06No.1185339336+よく見る国旗の絵文字はだいたい2文字 |
… | 7924/05/04(土)05:28:27No.1185339355+改行コードが4文字使ってるやつとか? |
… | 8024/05/04(土)05:32:25No.1185339529+>今webページを正規表現で検索する拡張を作ってるのだけど、 |
… | 8124/05/04(土)06:50:25No.1185344222+銀行とかカードローンとかの仕事で他社から渡って来た住所データがマルチバイト関係で文字化けしちゃう!は実際よくある話だ |
… | 8224/05/04(土)06:58:56No.1185344908+>👨👩👦👦なんかは |
… | 8324/05/04(土)07:01:43No.1185345152+>左上+右上+……って構造だったんだ |
… | 8424/05/04(土)07:02:17No.1185345204+>🏴とか7文字のもあるよ |
… | 8524/05/04(土)07:03:18No.1185345294+面白い誤変換すんな |
fu3432288.png 1714756435344.jpg fu3432063.jpg