無論是工作中使用還是應付各種面試,linux sort 都是必須要掌握的 linux 基本命令之壹。尤其是 linux sort -k 命令,經常會被搞暈,索性好好研究壹下 sort 命令
語法:
選項:
參數就不壹壹介紹了,直接上例子,首先先看下原始的排序數據
cat sort.log
1、打印從哪列開始是亂序
sort -c sort.log; echo $?
sort -C sort.log; echo $?
其中,返回結果 1,表示文件不是已經排序好的文件
2、默認排序( 整行進行ASCII字符升序)
sort sort.log
3、高能來了,讓人迷糊的 k 語法,首先看下 k 的語法格式
這個語法格式可以被其中的逗號(”,”)分為兩大部分,Start部分和End部分
Start和End部分都由三部分組成,其中的Modifier部分就是類似n和r的選項部分,可省略
FStart、Fend,表示使用的域,而CStart則表示在FStart域中從第幾個字符開始算"排序首字符",同理,CEnd表示結尾的第幾個字符是排序末尾字符,.CStart、.CEnd是可以省略的,分別表示從本域的開頭部分開始、到本域的域尾結束,CEnd設定為0,也是表示結尾到域尾。口說無憑,上幾個例子吧
3.1 對第三列進行排序,如果不加n,按照 ASCII字符排序
sort -t $'\t' -k 3 sort.log
3.2 加n後,按照數值排序
sort -t $'\t' -k 3n sort.log
3.3 不指定 FEnd 時,多個 -k 從前往後排序可以,從後往前不行
從後往前,多個 -k,數據符合預期
sort -t $'\t' -k 3n -k 1 sort.log
從後往前,多個 -k ,第三列相同時,按照第壹列降序排列,數據符合預期
sort -t $'\t' -k 3n -k 1r sort.log
更換成從前往後
sort -t $'\t' -k 1 -k 3n sort.log
sort -t $'\t' -k 1 -k 3nr sort.log
通過 sort -t $'\t' -k 1 -k 3n sort.log 和 sort -t $'\t' -k 1 -k 3nr sort.log 返回的結果發現,在第壹列相等時,無論其三列是正序排列,還是逆序排列,結果都壹樣,說明後邊的 -k 未生效
當指定 FEend 後
sort -t $'\t' -k 1,1 -k 3nr sort.log
3.4 作用域
緊跟在字段後的選項(如"-k3n"的"n"和"-k2nr"的"n","r")稱為私有選項,使用短橫線寫在字段外的選項(如"-n"、"-r")為全局選項。當沒有為字段分配私有選項時,該排序字段將繼承全局選項,所有選項包括但不限於"bfnrhM"
除了"b"選項外,其余選項無論是指定在FStart還是FEnd中都是等價的,對於"b"選項,指定在FStart則作用於FStart,指定在FEnd則作用於FEnd
sort -t $'\t' -k1r,2 sort.log ,可以看出壹、二列都是倒敘排列
3.5 註意
指定n選項按數值排序時, 由於"n"選項只能識別數字和負號"-",當排序時遇到無法識別字符時,將導致該key的排序立即結束,n選項絕對不會跨域進行比較
默認情況下,sort會進行壹次 "最後的排序" ,按照默認規則對整行進行壹次排序,這次排序稱為"最後的排序"
sort -t $'\t' -k3n sort.log ,在第三列相等時,整行會按照 ASCII 進行最後的升序排列
sort -t $'\t' -k3,4n -s sort.log ,加了 -s 後,不會進行最後的排序(1000相同時,e在b的前邊了),而是保留原排序
3.6 按照某個域中的第n個字符進行排序
sort -t $'\t' -k2.3,2.3 sort.log ,按第二列第三個字符進行排序
4、 -h 使用易讀性數字(例如:2K、1G)
sort -t $'\t' -k5h sort.log
sort -t $'\t' -k2,2 sort.log|uniq
sort -t $'\t' -k2,2 -u sort.log 會對第二列進行去重,而 sort -t $'\t' -k2,2 sort.log|uniq 會對整行進行去重(當然uniq也可以按照第二列進行去重)
sort整理完了,歡迎大牛指教