HTML ファイルのタイトルを取得する

既に AWK Users JP :: HTML ファイルからタイトルを抜き出す で全ての awk で使える手法を紹介しているのですが、今回は gawk 限定の手法を紹介します。

gawk 以外では RS (Record Separeter) に正規表現を用いることができませんが、gawk では RS に正規表現を用いることができますので、これを用いると一行野郎で簡単に取得することができます。

$ curl -s 'http://gauc.no-ip.org/awk-users-jp/'         | \
  nkf -w                                                | \
  gawk -v IGNORECASE=1 -v RS='</?title[ ]?[^>]*>\r?\n?' 'NR==2'
AWK Users JP :: 日本の AWK ユーザのためのハブサイト

メインのコードは何と 5 バイトで書けてしまいました。

最近、「シェル芸」をメインにやっているため、すっかり一行野郎で済ませることが多くなってしまいました。

tag_gawk.png