2012年05月27日

trとcutとを組み合わせ、文章から特定のフィールドのみを抽出する



cat 入力文 | tr \( , | cut -f 2 -d ,



説明

tr \( ,

文の中の「(」をカンマに変換



cut -f 2 -d ,

フィールドの2番目を切り出す。

cutコマンドのデフォルトのフィールドセパレータはタブなので、これをカンマに指定する。



実施例:HTML文からイメージソースのみ(要するに画像ファイルのこと)を抽出する。この後、WGETとかすればよい。



解説:

trは前処理に相当する。

cutが抽出処理そのもの。



参考:これ以前に(画像ファイルを含む行などを)GREPしておく。

この後、)以前のみを切り出すと、真にイメージソースのみを抽出できる。

(具体的には、 | tr \) , | cut -f 1 -d , などとする)

最後に、リダイレクトでファイルに書き出す。



余談:この程度のコマンドすら、メモしとかないとすぐに思いつかなくなってしまった。




「ユニブロのITマネージメント実験室」のトップに戻る

posted by ユニブロ at 13:48 | 東京 🌁 | Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/272069322
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック