當前位置:編程學習大全網 - 源碼下載 - 識別並刪除R中的重復數據

識別並刪除R中的重復數據

本教程介紹如何識別和刪除R中的重復數據。

您將學習如何使用以下R base和dplyr函數:

1)R基礎函數

duplicated() :用於標識重復的元素和

unique() :用於提取唯壹元素,

2)distinct() [dplyr package]刪除數據框中的重復行。

必需的包

演示數據集

查找並刪除重復元素

提取獨特元素

刪除數據框中的重復行

總結

需要的包

示例數據集

我們將使用R內置的iris數據集,首先將其轉換為tibble數據幀(tbl_df),以便於進行數據分析。

查找並刪除重復的元素

R函數? duplicate()? 返回壹個邏輯向量,其中TRUE指定向量或數據幀的哪些元素是重復的。

創建如下向量:

要查找x中重復元素的位置,請使用以下命令:

## [1] FALSE? TRUE FALSE FALSE? TRUE FALSE

提取重復元素:

## [1] 1 4

如果您想刪除重復的元素,請使用 ? !duplicate() ,!意思是邏輯否定:

## [1] 1 4 5 6

按照這種方法,可以根據列值從數據框中刪除重復的行,如下所示

提取非重復的元素

## [1] 1 4 5 6

也可以在數據框上應用unique(),以刪除重復的行,如下所示:

刪除數據幀中的重復行

distinct() [dplyr包]函數可用於僅保留數據幀中的唯壹/不同行。如果有重復的行,則只保留第壹行。它是R基函數unique()的變形。

基於所有列,刪除重復行

基於某些列(變量),刪除重復的行:

參數 .kep_all用於保存數據中的所有變量。

在本章中,我們描述了識別和刪除重復數據的重要函數:

基於壹個或多個列值刪除重復行:my_data%>%dplyr::distinct(Sepal.Length)

從向量和數據框中提取唯壹元素的R基函數:unique(my_data)

確定重復元素的R基函數:duplicate(my_data)

  • 上一篇:如何用C++編寫軟件
  • 下一篇:急求 2011 歐美最好看的電影,在線等!
  • copyright 2024編程學習大全網