BBS-complangawk/332

トップ 差分 一覧 Farm ソース 検索 ヘルプ RSS ログイン

handling a byte order mark (BOM) in input text - Andrew Schorr (2006年07月16日 03時08分12秒)

   printf "\xef\xbb\xbfhello\nhello\nhello\n" |\
       LC_ALL=en_US.UTF-8 gawk '/^he/'

とすると

  hello
  hello

となりますが、awk の挙動としてはどうするのが正しいのでしょうか?

http://groups.google.co.jp/group/comp.lang.awk/browse_frm/thread/a3e17e907469d2d1/3a5876ae4c7d7626?hl=ja#3a5876ae4c7d7626


Re: - Xicheng Jia (2006年07月16日 03時09分28秒)

^he は最初に he がないとマッチしないのは当然なので、マッチしないのが普通です。

Re: - Juergen Kahrs (2006年07月16日 03時11分50秒)

これは日本の xgawk 開発者の木村浩一さんからポストされた日本のユーザーが抱えている問題です。

Re: - Jurgen Kahrs (2006年07月16日 03時13分36秒)

これは UTF 環境でのみ BOM が問題になり、"C" ロケールでは 3 byte の文字として扱うべきでしょう。