Linux中删除重复文件的常用命令有哪些-华纳云

首页帮助中心香港云服务器 Linux中删除重复文件的常用命令有哪些

Linux中删除重复文件的常用命令有哪些

时间 : 2024-11-25 16:17:40 编辑 : 华纳云阅读量 : 257

在Linux使用中，有时候需要删除重复文件可以通过多种命令工具来实现，常用方法有sort和uniq组合、awk和sed等。具体内容如下！

如果是用sort和uniq组合命令。sort的作用是对文件进行排序，而uniq是实现过滤掉目录的重复行。组合使用就是先对文件排序再删除重复行：

sort input.txt | uniq > output.txt

其中input是输入文件名，output.txt是输出文件名。含删除重复行后的内容。

还有一种情况，是想保留文件当前的顺序，再进行删除重复文件。可以使用sort命令的-u选项（对文件进行排序删除重复行，但是不改变原始文件顺序），也可以直接用awk或者perl来实现：

awk '!seen[$0]++' input.txt > output.txt

awk是一种强大文本处理工具，华纳云之前也给大家分享过。awk用于删除重复行：

awk '!seen[$0]++' input.txt > output.txt

!seen[$0]++是一种常见的模式，用于跟踪每一行是否已经出现过。如果某行第一次出现时，seen[$0]的值0，取反后为1，所以会执行对应的操作将该行打印输出。行的seen[$0]值增加1，1以前，遇到该行的时候，!seen[$0]为0，不会因此再打印。

使用sed命令来删除重复行。sed是一种流编辑器，能处理文本流，通过结合sed和一些其他命令删除重复行：

sed '$!N; /^\(.*\)\n\1$/!P; D' input.txt > output.txt

以上命令会在sed模式空间中一次读取两行，当出现两行相同时候会删除其中一行。

使用perl命令，perl是一种强烈的脚本语言，也可支持文本处理：

perl -ne 'print unless $seen{$_}++' input.txt > output.txt

print unless $seen{$_}++会在第一次遇到该行时打印该行，将该行标记为已见过。之后再次遇到该行时，就不会打印了。如一个含重复行的input.txe文件：

apple
banana
apple
orange
banana
grape

使用以上任意方法删除重复项后，putput.txt包含：

apple
banana
orange
grape

以上使用方法都各有优势，根据实际需求来选择。常见的使用方法是sort和uniq组合，如果是要保留原始顺序，awk命令会更合适。

上一篇：ubuntu服务器怎么进行磁盘管理？下一篇：增加Linux中打开文件数量限制的方法

推荐文章

香港服务器

香港高防服务器

香港云服务器

美国云服务器

域名注册

香港高防IP

美国服务器

香港大带宽服务器

新加坡服务器

新加坡云服务器

香港弹性云主机

香港vps

美国vps

cn2服务器

vps服务器

香港云主机

美国主机

vps云服务器

PHP主机空间

云服务器租用

Linux镜像中的环境变量应该如何配置在Nginx配置中如何实现SSL重定向免备案高防CDN和传统CDN有什么区别如何有效利用CI管理Linux镜像，省时又省心? SSL证书：Nginx中ssl_certificate和ssl_certificate_key的区别 IEPL VPS快速部署是否支持多种操作系统浅谈如何通过CDN节点提升视频流媒体服务质量香港站群VPS主机租用有哪些好处，可以用来做什么如何ssh远程链接自己服务器 Nginx SSL配置中如何处理301/302重定向？