【Lifehacks】TSVの特定項目を抽出する
■タスク
TSV形式データの特定項目を抽出する。
■背景
・各種作業の前処理として良く必要となる処理。
・なるべく簡単に実施したい。
■方法
Cygwin32/UNIX互換ツールのcutコマンドを利用。
■メモ
TSV(タブ区切り)やCSV(カンマ区切り)など、プレーンテキストでかつ項目を適当な区切り文字(文字列)とした形式は、各種ログや簡易データベース等でよく見られます。
そのデータを整形・集計する場合などに、前処理として特定項目のみ抜き出したい場合があります。
主処理が複雑なのであれば項目抜き出し処理も含めてPerl等でスクリプトを書くところですが、Cygwin32/UNIX互換ツールには当該目的のcutコマンドが存在するため活用します。
■使用方法
> cut -f 1 < Input.txt > Output.txt
注:
・上記例は、TSV(タブ区切り)形式ファイルから第一フィールドを抽出する場合。
・項目区切りがタブ以外の形式(CSV等)の場合、-d'SEPARATOR'オプションを付加する。