Удалить дубликаты строк данных в Excel

При работе с большими объемами данных удаление или очистка дублирующихся записей может потребовать больших усилий. Excel упрощает эту задачу. Ниже приведены два возможных сценария и решения для оптимизации ваших электронных таблиц.

Примечание . Информация в этой статье относится к Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Excel 2007.

Удалить дубликаты данных в Excel

Программы для работы с электронными таблицами, такие как Excel, часто используются в качестве баз данных для таких вещей, как запасные части, записи о продажах и списки рассылки.

Базы данных в Excel состоят из таблиц данных, которые организованы в ряды данных, называемые записями. В записи связаны данные в каждой ячейке или поле в строке, такие как название компании, адрес и номер телефона.

Распространенной проблемой, возникающей при увеличении размера базы данных, является возможность дублирования записей или строк данных. Это дублирование происходит, когда:

  • Целые записи заносятся в базу данных более одного раза. Это приводит к двум или более одинаковым записям
  • Несколько записей имеют одно или несколько полей, таких как имя и адрес, которые содержат одинаковые данные.

Повторяющиеся записи вызывают проблемы. Одной из примеров проблемы является то, что дублирующаяся запись может отправлять несколько копий документов одному и тому же лицу, когда информация базы данных используется при слиянии почты. Во избежание проблем регулярно проверяйте и удаляйте дублирующиеся записи.

Легко выбрать дубликаты записей в небольшом образце, как показано на рисунке выше. Но когда таблицы данных содержат сотни или тысячи записей, становится трудно выбрать дубликаты записей, особенно частично совпадающие записи.

Чтобы упростить выполнение этой задачи, в Excel имеется встроенный инструмент данных, который называется «Удалить дубликаты». Удалить дубликаты находит и удаляет идентичные и частично совпадающие записи.

При использовании команды «Удалить дубликаты» идентичные и частично совпадающие записи должны обрабатываться отдельно. Это связано с тем, что в диалоговом окне «Удалить дубликаты» отображаются имена полей для выбранной таблицы данных, и вы выбираете, какие поля включить в поиск подходящих записей:

  • Для идентичных записей ищите все поля. Оставьте галочки рядом со всеми именами столбцов или полей.
  • Для частично совпадающих записей оставьте галочки рядом с полями для сопоставления.

Имена полей и буквы столбцов

Инструмент «Удалить дубликаты» состоит из диалогового окна, в котором вы выбираете, какие подходящие поля искать, выбирая нужные поля или имена столбцов.

Информация, отображаемая в диалоговом окне, будь то имена полей или буквы столбцов, зависит от того, содержат ли ваши данные строку заголовков или заголовков в верхней части таблицы данных, как показано на рисунке выше.

Если у ваших данных есть заголовки, поставьте галочку рядом с Моими данными с заголовками. Это заставляет Excel отображать имена в этой строке как имена полей в диалоговом окне.

Если в ваших данных нет строки заголовка, в диалоговом окне отображаются соответствующие буквы столбцов для выбранного диапазона данных.

Непрерывный диапазон данных

Для правильной работы инструмента «Удаление дубликатов» таблица данных должна представлять собой непрерывный диапазон данных. Таблица данных не должна содержать пустых строк, столбцов и, если возможно, пустых ячеек.

Отсутствие пробелов в таблице данных является хорошей практикой, когда речь идет об управлении данными, а не только при поиске дублирующих данных. Другие инструменты Excel, такие как сортировка и фильтрация, работают лучше всего, когда таблица данных представляет собой непрерывный диапазон данных.

Пример удаления повторяющихся записей данных

На изображении выше таблица данных содержит две идентичные записи для A. Томпсон и две частично совпадающие записи для Р. Холта. В этом примере все поля совпадают, кроме номера студента.

Шаги, перечисленные ниже, подробно описывают, как использовать инструмент удаления дубликатов данных для:

  • Удалите вторую из двух одинаковых записей для А. Томпсона.
  • Удалите вторую частично совпадающую запись для Р. Холта.

Откройте диалоговое окно «Удалить дубликаты»

  1. Выберите ячейку, содержащую данные в базе данных образца.
  2. Выберите вкладку Данные .
  3. Выберите Удалить дубликаты , чтобы выделить все данные в таблице данных и открыть диалоговое окно «Удалить дубликаты».

Вот что вы найдете в диалоговом окне «Удалить дубликаты»:

  • В диалоговом окне «Удалить дубликаты» отображаются все заголовки столбцов или имена полей из образца данных.
  • Галочки рядом с именами полей указывают, какие столбцы Excel будут совпадать при поиске дубликатов записей.
  • Когда откроется диалоговое окно, будут выбраны все имена полей.

Найти идентичные записи

Этот учебный пример ищет идентичные записи. Выберите все заголовки столбцов и нажмите ОК.

Вот результат:

  • Диалоговое окно закрывается и заменяется сообщением: 1 дубликат значений найден и удален; Осталось 7 уникальных значений .
  • Строка, содержащая дубликат записи А. Томпсона, удаляется из базы данных
  • Для Р. Холта есть две частично совпадающие записи, потому что не все поля совпадают. Номер студента для двух записей отличается. Excel считает каждую запись уникальной записью данных.

Найти и удалить частично совпадающие записи с помощью удаления дубликатов

Отметьте по одному полю за раз

В предыдущем примере Excel удалил записи данных, которые точно соответствуют выбранным полям данных. Чтобы найти частично совпадающие записи данных, снимите флажок только для одного поля за раз, как показано в шагах ниже.

Последующий поиск записей, соответствующих всем полям, кроме имени, возраста или программы, удаляет все возможные комбинации для частично совпадающих записей.

Найти частично совпадающие записи

  1. При необходимости выберите ячейку, содержащую данные в таблице данных.
  2. Выберите Данные .
  3. Выберите Удалить дубликаты , чтобы выделить все данные в таблице данных и открыть диалоговое окно «Удалить дубликаты».
  4. Все имена полей или заголовки столбцов для таблицы данных выбраны.
  5. Чтобы найти и удалить записи, которые не совпадают в каждом поле, снимите флажок рядом с теми именами полей, которые Excel должен игнорировать.
  6. В этом примере снимите флажок рядом с заголовком столбца Student ID.
  7. Excel ищет и удаляет записи с соответствующими данными в полях Фамилия, Начальная буква и Программа.
  8. Выберите ОК .
  9. Диалоговое окно закрывается и заменяется сообщением: 1 дубликат значений найден и удален; 6 уникальных значений остаются .
  10. Строка, содержащая вторую запись для Р. Холта с идентификатором студента ST348-252, удаляется из базы данных.
  11. Выберите ОК , чтобы закрыть окно сообщения.

Пример таблицы данных теперь свободен от всех дублирующих данных.

Оцените статью
Solutics.ru
Добавить комментарий