10万行くらいのテキストデータ(しかも個々のテキストが結構長い)の重複をカウントしたくて、DBでGROUP BYとか組み合わせたやけに長いSQLを組んでもみてもよかったけど、表計算アプリ上でさくっとできないかな、と思って、OOoとLibreOfficeとExcelでCOUNTIF関数を使ってみた。結果的にどれもうまくいかず、かえって時間がかかるはめに。
結果が返ってくるまで2, 30分とか待たされたり、うまく重複がカウントできていない行があったり。(OOoとLibreOfficeが似たような挙動になるのはわかるけど、何故かExcelまで似たような挙動)
んで、しゃーないから、目的の列でソートしたあと、一個上と比較してカウントしたりする数式を作ってしのいだ。統計的なデータだけならLibreOfficeのピボットテーブルが使いやすいんだけど(しかも10万行とかあってもサクッと処理できてちょっとうれしい)、素の表に重複数のカラムを追加するのが目的だったので。メモ。
2 件のコメント:
/usr/bin/uniq -c とかじゃダメだったんですかねえ。
要件が違いますが、がんばってShellとか書いたら行けるかも。Shell書いたりSQLかいたりPerlかいたりすんのが嫌だったんですよw
コメントを投稿