Linux sort 组合 uniq 去重统计日志文件

在日常运维和数据处理中，经常需要处理大量的日志文件，并对其进行去重和统计操作。在 Linux 环境下，可以通过组合使用 sort 和 uniq 命令来实现这一目的。本文将介绍如何利用这两个命令处理日志文件，去重并进行统计操作。

1. 去重日志文件

假设我们有一个名为 access.log 的日志文件，我们希望去除其中的重复行并生成一个新的去重后的日志文件。我们可以使用以下命令：

sort access.log | uniq > unique_access.log

如果我们希望统计去重后的日志文件中每行出现的次数，可以使用以下命令：

sort unique_access.log | uniq -c > access_count.log

统计结果可能会类似于以下内容：

   5 http://example.com/page1
   3 http://example.com/page2
   8 http://example.com/page3

每行表示相应 URL 出现的次数。

通过结合使用 sort 和 uniq 命令，我们可以方便地对日志文件进行去重和统计操作。这种方法简单而有效，适用于处理大量的日志数据，帮助我们快速分析和理解日志信息。