正規表現 | You Look Too Cool

PHP(preg系)正規表現修飾子一覧

stabucky — Thu, 10 Jul 2025 23:28:24 +0000

i (PCRE_CASELESS)
m (PCRE_MULTILINE)
s (PCRE_DOTALL)
x (PCRE_EXTENDED)
e
A (PCRE_ANCHORED)
D (PCRE_DOLLAR_ENDONLY)
S
U (PCRE_UNGREEDY)
X (PCRE_EXTRA)
u (PCRE_UTF8)

i (PCRE_CASELESS)

この修飾子を設定すると、パターンの中の文字は大文字にも小文字にもマッチします。

m (PCRE_MULTILINE)

デフォルトで、PCREは、検索対象文字列を（実際には複数行からなる場合でも）単一の行からなるとして処理します。「行頭」メタ文字 (^) は、対象文字列の最初にしかマッチしません。一方、「行末」メタ文字 ($) は、文字列の最後、または（D修飾子が設定されていない場合）最後にある改行記号の前のみにしかマッチしません。この動作はPerlと同じです。

この修飾子を設定すると、「行頭」および「行末」メタ文字は対象文字列において、文字列の最初と最後に加えて、各改行の直前と直後にそれぞれマッチします。この動作は、Perlの /m 修飾子と同じです。対象文字列の中に”\n”文字がない場合や、またはパターンに ^ または $ がない場合は、この修飾子を設定しても意味はありません。

s (PCRE_DOTALL)

この修飾子を設定すると、パターン中のドットメタ文字は改行を含む全ての文字にマッチします。これを設定しない場合は、改行にはマッチしません。この修飾子は、Perlの /s 修飾子と同じです。[^a]のような否定の文字クラスは、この修飾子の設定によらず、常に改行文字にマッチします。

x (PCRE_EXTENDED)

この修飾子を設定すると、エスケープするか文字クラスの内部を除き、パターンの空白文字は完全に無視されます。文字クラスの外にあって、かつエスケープされていない # と次の改行文字の間の文字も無視されます。この動作は、Perlの /x 修飾子と同じであり、複雑なパターンの内部にコメントを記述することが可能となります。しかし、この修飾子は、データ文字にのみ適用されることに注意してください。空白文字をパターンの特殊文字の並びの中、例えば条件付きサブパターン (?( の内部に置くことはできません。

e

この修飾子を設定すると、preg_replace()は、置換文字列において後方参照に関する通常の置換を行った後、PHPコードとして評価し、検索文字列を置換するためにその結果を使用します。置換された後方参照においては、単引用符および二重引用符はバックスラッシュでエスケープされます。

この修飾子を使用するのは、preg_replace()のみです。他のPCRE関数では無視されます。

A (PCRE_ANCHORED)

この修飾子を設定すると、パターンは強制的に固定(anchored)となります。つまり、検索対象文字列の先頭でのみマッチするように制限されます。パターン自体の中に適当な指定を行うことでも同様の効果を得ることが可能です。Perlではパターン中に指定する方法しか使用できません。

D (PCRE_DOLLAR_ENDONLY)

この修飾子を設定すると、パターン内のドルメタ文字は、検索対象文字列の終わりにのみマッチします。この修飾子を設定しない場合、ドル記号は、検索対象文字列の最後の文字が改行文字であれば、その直前にもマッチします。この修飾子は、mを設定している場合に無視されます。Perlには、この修飾子に等価なものはありません。

S

あるパターンを複数回使用する場合は、マッチングにかかる時間を高速化することを目的として、パターンの分析に幾分か時間をかけても良いでしょう。この修飾子を設定すると、追加のパターン分析が行われます。現在、パターン分析は、最初の文字が単一ではなく、かつ固定でないパターンに対してのみ有用です。

U (PCRE_UNGREEDY)

この修飾子を設定すると、量指定子の「貪欲さ」が反転します。つまり、量指定子は、デフォルトで貪欲でなく、疑問符を後ろに付けてはじめて貪欲になるようになります。この修飾子はPerl互換では有りません。同様の設定は、(?U)修飾子をパターン内で設定するか、（.*?のように）量指定子の後に疑問符を付けるかすることで行うこともできます。

X (PCRE_EXTRA)

この修正子は、Perl非互換なPCREの機能を有効にします。パターン内で後ろに文字が続くバックスラッシュで特別な意味がないものは、将来的な拡張の際の互換性の維持のため、エラーになります。デフォルトでは、Perlのように文字が後ろに続くバックスラッシュで特に意味がないものは、リテラルとして処理されます。この修飾子により制御される機能は、現在の所、これだけです。

u (PCRE_UTF8)

この修正子は、Perl非互換なPCREの機能を有効にします。パターン文字列は、UTF-8エンコードされた文字列として処理されます。この修正子は、UNIXではPHP4.1.0以降、Win32ではPHP4.2.3以降で使用可能です。また、PHP4.3.5以降では、パターンのUTF-8としての妥当性も確認されます。

正規表現の基本を練習できる「正規表現百本ノック」

stabucky — Fri, 20 Dec 2024 12:46:12 +0000

正規表現の基本を練習できるページを作ってみました。

正規表現百本ノック

JavaScriptを使っているので、正規表現もそれに従います。
初級者向けになっていますが、最後の方は難しいかもしれません。
実際は100本もありません。公開時点では56本です。

正規表現\wが対応している具体的な内容

stabucky — Thu, 12 Dec 2024 23:49:46 +0000

正規表現に\wというのがあります。
word characterの略と思われます。
一般に「英単語に使われる文字」を抽出する際に使われます。
いつも漠然と使っていましたが、具体的にはどの文字に対応しているのでしょうか。

先に答えを書きます。

0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz

これはJavaScriptで実際にコードを書いて\wにヒットするものを出力したものです。
半角の数字、英大文字、英小文字、アンダースコアが該当します。
スペース、ドットなどは該当しません。
[0-9A-Za-z_]と書くのと同じです。

蛇足ですがこれを出力する際に使ったコードです。

// 英数字（word characters）を格納する配列
const wordCharacters = [];

// ASCIIコード32から126までの文字を走査
for (let asciiCode = 32; asciiCode < 127; asciiCode++) {
// ASCIIコードを文字に変換
const currentCharacter = String.fromCharCode(asciiCode);

// 英数字（word character）の場合のみ配列に追加
if (currentCharacter.match(/\w/)) {
wordCharacters.push(currentCharacter);
}
}

// 抽出した英数字を文字列として出力
console.log(wordCharacters.join(""));

UiPathで【一致するパターンを置換】を使って文字列を取得する方法

stabucky — Tue, 03 Dec 2024 11:55:01 +0000

正規表現を使うアクティビティ
文字列を取得する方法
【一致するパターンを探す】を使って文字列を取得する方法
使用例
正規表現の基本

正規表現を使うアクティビティ

UiPathには正規表現を使うアクティビティがいくつかある。

【一致するパターンを置換】
英語名：Replace
正規表現に一致するすべての文字列を他の文字列に置換して返す。

【一致するパターンを探す】
英語名：Matches
正規表現に一致するすべての文字列を返す。

【テキストの一致を確認】
英語名：IsMatch
正規表現に一致するか否かを返す。

文字列を取得する方法

文字列を取得するには【一致するパターンを置換】と【一致するパターンを探す】の二通りが考えられる。

【一致するパターンを置換】を使うときは「パターンあ(パターンい)パターンう」を「$1」に置換する方法を使う。
「$1」はカッコ内のパターンに合致する文字列を返すので「パターンい」の部分が返る。
以前はこれが簡単だった。
しかし【一致するパターンを探す】で「最初の一致」を返すようになったのでこれを使う方が簡単。

【一致するパターンを探す】を使って文字列を取得する方法

基本的な手法は次の通りである。

【一致するパターンを探す】
検索対象のテキスト：元の文字列全体
パターン：取得したい文字列を表す正規表現
最初の一致：取得した文字列（を代入する変数）

使用例

「abc123」から「123」を取得

「abc123」から「数字が続く部分」を探せば「123」を取得できる。

textAll = "abc123"

【一致するパターンを探す】
検索対象のテキスト：textAll
パターン："\d+"
最初の一致：textMatch

結果
textMatch→123

パターンは正規表現を使う。
「\d」は「数字」の意味で「+」は「前の文字の1文字以上の繰り返し」の意味。
「\d+」とすることで「1文字以上数字」の意味となる。

電話番号を取得

「数字、ハイフン、数字、ハイフン、数字」のような文字列を探せば「06-6012-3456」のような電話番号が取得できる。

textAll =
氏名
坂田三吉
電話
06-6012-3456

【一致するパターンを探す】
検索対象のテキスト：textAll
パターン："\d+-\d+-\d+"
最初の一致：textMatch

結果
textMatch→06-6012-3456

「\d+-\d+-\d+」とすることで「1文字以上の数字、ハイフン、1文字以上の数字、ハイフン1文字以上の数字」の意味となる。

ただし「2024-12-15」のような日付を拾ってしまうかもしれない。
「^0\d+-\d+-\d+」としてプロパティのパターンのオプションでMultilineをオンにする。
Multilineを使うと各行を別に判定する。
「^」を使うと行の先頭の意味になる。
電話番号は一般に0から始まるので「0\d」とする。

見出しの右にある文字列を取得

「住所：神奈川県横浜市保土ケ谷区」の「住所：」の右にある文字列を探せば「神奈川県横浜市保土ケ谷区」が取得できる。

textAll =
住所：神奈川県横浜市保土ケ谷区
氏名：山田太郎

【一致するパターンを探す】
検索対象のテキスト：textAll
パターン："(?<=住所：).*"
最初の一致：textMatch

結果
textMatch→神奈川県横浜市保土ケ谷区

「(?<=○○).*」とすると「○○の右にある文字列」という意味になる。

正規表現の基本

正規表現	意味
.	任意の1文字。
*	前の文字の0文字以上の繰り返し。ないかもしれない場合に使う。
+	前の文字の1文字以上の繰り返し。必ずある場合に使う。
[○-●]	○から●までに該当する1文字。[あ-お]とすると「あ」「い」「う」「え」「お」のいずれか。
[^パターン]	パターンに該当しない1文字。
\d	数字。[0-9]としてもよい。
\D	数字以外。[^0-9]としてもよい。
[a-z]	英小文字。
[A-Z]	英大文字。
{△,▲}	前の文字の△文字以上▲文字以下の繰り返し。\d{3,5}ならば数字3文字以上5文字以下。
^	文字列の先頭。
$	文字列の末尾。

とにかく動かすPAD – テキストの解析で正規表現を使う方法

stabucky — Tue, 23 Jul 2024 03:13:24 +0000

Power Automate Desktop（PAD）の「テキストの解析」アクションは、「解析するテキスト」から「検索するテキスト」を探して、それがどこにあるかを調べるものです。
しかし、正規表現を使うともっと高度なことができます。

やりたいこと
方法
解説

やりたいこと

例えば次のような文字列があったとします。

【郵便番号】１００－００１４
【住所】東京都千代田区永田町
【名称】国会議事堂
【竣工】１９３６年１１月７日

ここから住所だけを抽出したいとします。

方法

「ファイルからテキストを読み取る」アクション

ファイルパス→テキストのファイルパス。
内容の保存方法→単一のテキスト値
エンコード→ファイルに合わせたエンコード。

生成された変数→FileContents

「テキストの解析」アクション

解析するテキスト→%FileContents%
検索するテキスト→(?<=【住所】).*
正規表現である→オン
解析の開始位置→0
最初の出現箇所のみ→オン

生成された変数→Position, Match

これにより「【住所】」の右にある「東京都千代田区永田町」がMatchに格納され、取得できます。

解説

正規表現を使うのがポイントです。
PADで使える正規表現についてはマイクロソフトのサイトに説明があります。

正規表現言語 - クイックリファレンス - .NET

このクイックリファレンスでは、正規表現パターンを使用して入力テキストを照合する方法について説明します。パターンには、1 個以上の文字リテラル、演算子、またはコンストラクトが含まれます。

「テキストの解析」アクションは、正規表現をオンにすると、Positionの他にMatchも返します。
このMatchは正規表現に一致した文字列を返すので、今回のように条件に合った文字列を取得するのに使えます。
また今回は「肯定後読み」というのを使っています。「あるパターンの後にある文字列」を取得できます。
他に「肯定先読み」「否定先読み」「否定後読み」があります。
詳しくは上述のマイクロソフトのサイトを確認ください。

LibreOffice Calcで正規表現で検索する関数

stabucky — Thu, 14 Dec 2023 12:14:09 +0000

LibreOffice Calcは正規表現で検索や置換ができます。
正規表現で検索する関数もあります。

次の関数を使うと正規表現に合致した部分の文字列を返します。

REGEX(対象文字列, 正規表現)

例えば次のようにすると合致した漢字を返します。
=REGEX(A1,”[一-龠]”)

合致しない場合は#N/Aを返します。

次のようにすると正規表現に合致した部分を置換文字列に置換した文字列を返します。

REGEX(対象文字列, 正規表現, 置換文字列)

とにかく動かすPAD – 正規表現編

stabucky — Tue, 11 Jul 2023 00:42:36 +0000

Power Automate Desktop（PAD）は正規表現を使えます。
こうなると、もはやローコードとは言えませんが。
長い文章から特定の文字列を取り出したりするときに使えます。

正規表現を使う方法
JSONとして処理する方法

正規表現を使う方法

◎変数の設定
BaseStr={"id":"15",
"氏名":"徳川慶喜",
"役職":"将軍"}

◎テキストを置換する
解析するテキスト=%BaseStr%
検索するテキスト=[\s\S]*"氏名":"(.*?)"[\s\S]*
検索と置換に正規表現を使う=オン
置き換え先のテキスト=$1
生成された変数→Replaced

◎メッセージを表示
表示するメッセージ=%Replaced%

実行結果
徳川慶喜

次のような文字列が与えられたとします。ここから氏名である徳川慶喜を取り出したいとします。
{“id”:”15″,
“氏名”:”徳川慶喜”,
“役職”:”将軍”}
ここでは「正規表現を使った置換」で対応します。
Power Automateでは.Netと同じ正規表現が使えます。
正規表現で括弧で挟んだ部分は$1で表すことができるので、置換先のテキストとして$1を指定するとそれ以外の個所が削除されて必要な部分だけを取得することができます。
任意の文字列は.*で表せますが改行を含みません。改行を含む場合は[\w\W]*で表せます。

JSONとして処理する方法

番外編になりますが与えられた文字列がJSON形式の場合はもっと簡単です。

◎変数の設定
BaseStr={"id":"15",
"氏名":"徳川慶喜",
"役職":"将軍"}

◎JSONをカスタムオブジェクトに変換
JSON=%BaseStr%
生成された変数→JsonAsCustomObject

◎メッセージを表示
表示するメッセージ=%JsonAsCustomObject['氏名']%

元の文字列がJSON形式であったときしか使えませんが、JSONの場合はこんな方法があります。
JSONをカスタムオブジェクトに変換を使うと簡単に辞書型配列として取り扱えます。
あとはキーとして氏名を与えれば取得できます。

正規表現で角括弧内でエスケープせずに使える特殊文字

stabucky — Mon, 30 May 2022 02:31:10 +0000

正規表現の特殊文字は、文字そのものとして使う場合はエスケープする必要があります。
しかし文字の集合を指定する場合の角括弧内で使う場合はエスケープが不要となる場合があります。
.*?()[]^$|
について調べてみました。Python3.7で確認しました。

.*?$|
エスケープ不要です。

^
エスケープ必要です。
^には
[^ｘ]
と書くと否定の意味になるからです。

( )
エスケープ不要です。
ただし(についてはFutureWarningが発生します。

[ ]
エスケープ不要です。

エディタで特定の文字列を含む行だけ抽出する方法

stabucky — Wed, 09 Jan 2019 03:38:01 +0000

エディタで次のようにすると特定の文字列を含む行だけ抽出できます。

検索文字列を「^(?!.*aaaa).*\n」とする。※「aaaa」に特定の文字列をセットする。
置換文字列を「」(空欄)とする。
正規表現をオンにする。
全てを置換する。

これにより「aaaa」を含まない行を全て削除します。各行の最後に改行(\ｎ)を指定しているので、改行を含めて削除されます。
結果的に「aaaa」を含む行が残ります。
CotEditorとVSCodeで試しました。正規表現の「否定先読み」に対応しているエディタならばOKだと思います。

UiPathのReplaceで正規表現を使う方法

stabucky — Wed, 20 Jun 2018 09:42:04 +0000

UiPathは基本的にVB.Netの文法が使えます。
ReplaceアクティビティではVB.Netの正規表現が使えます。

VB.Netの正規表現
Replaceアクティビティ

VB.Netの正規表現

VB.Netの正規表現については次のリンク先にあります。

正規表現の概説

使える記号については次のリンク先にあります。

正規表現の構文

「.」や「*」など正規表現でおなじみの記号が使えます。

正規表現オプション(いわゆるパターン修飾子)については次のリンク先にあります。

正規表現のオプション - .NET

.NET で大文字と小文字を区別しない一致、複数行モード、右から左モードなどの正規表現オプションを使用する方法について説明します。

例えば「IgnoreCase」は大文字小文字の違いを無視します。

Replaceアクティビティ

Replaceアクティビティを使うと文字列の置換を行えます。プロパティは次のようにします。

Inputには元の文字列を指定します。文字列や変数をセットします。
Patternには正規表現パターンを指定します。文字列をセットします。
RegexOptionには正規表現オプションを指定します。
Replacementには置換後の文字列を指定します。
Resultには元の文字列を置換した結果を代入する変数をセットします。

Replaceアクティビティは置換のために使いますが長い文字列から一部分だけを取り出すのにも使えます。

例えば複数行の文字列の中に「yournumber 75984264」というような文字列があり、「75984264」だけを取り出したいとします。

別の例として「xxxxx75984264xxxxx」という文字列から連続する数字だけを取り出すにはPatternに「\D+(\d+)\D+」をセットしReplacementには「$1」をセットします。
「$1」は正規表現パターンの中の括弧に挟まれた部分を表します。括弧が複数あれば「$2」「$3」とします。
「\D+」は数字以外を表すので前後の不要な部分はなくなります。結果的に括弧に挟まれた部分だけが残るというわけです。

元の例に戻ると、複数行の場合、前後の不要な部分を指定するのに、工夫が要ります。
一つは「[\s\S]*」を使う方法です。「\s」がスペース(タブなどを含む)を表します。「\S」がスペース以外を表します。「[\s\S]*」とすると改行を含めたすべての文字列を表します。したがって「[\s\S]*yournumber\s+(\d+)[\s\S]*」とすれば「75984264」だけを取り出せます。
もう一つは、正規表現オプションで「SingleLine」を使う方法です。これは改行を無視するような動作をします。つまり「.*」としても改行を含むすべての文字列を表します。したがって「.*yournumber\s+(\d+).*」とすればよいです。見た目がシンプルで分かりやすくなります。