Что такое пакеты Tidyverse на языке R?

Опубликовано: 16 Июня, 2021

Когда вы имеете дело с Data Science в R, пакеты Tidyverse - ваши лучшие друзья! Эти пакеты Tidyverse были специально разработаны для Data Science с общей философией дизайна. Они включают в себя все пакеты, необходимые для рабочего процесса в области науки о данных, от исследования данных до визуализации данных. Например, readr предназначен для импорта данных, tibble и tidyr помогают упорядочить данные, dplyr и stringr способствуют преобразованию данных, а ggplot2 жизненно важен для визуализации данных.

В этой статье упоминаются восемь основных пакетов Tidyverse, а именно ggplot2, dplyr, tidyr, readr, purrr, tibble, stringr и forcats. Все эти пакеты загружаются автоматически сразу с помощью команды install.packages («tidyverse»). В дополнение к этим пакетам в Tidyverse также есть некоторые специализированные пакеты, которые не загружаются автоматически, но требуют собственного вызова. К ним относятся DBI для реляционных баз данных. httr для веб-API, rvest для веб-скрейпинга и т. д. Теперь давайте посмотрим на основные пакеты Tidyverse и узнаем о них больше!

1. ggplot2

ggplot2 - это библиотека визуализации данных R, основанная на Грамматике графики. ggplot2 может создавать визуализации данных, такие как гистограммы, круговые диаграммы, гистограммы, диаграммы рассеяния, диаграммы ошибок и т. д., используя высокоуровневый API. Он также позволяет добавлять различные типы компонентов или слоев визуализации данных в одну визуализацию. После того, как ggplot2 было сказано, какие переменные сопоставить с какой эстетикой на графике, он выполняет остальную работу, чтобы пользователь мог сосредоточиться на интерпретации визуализаций и тратить меньше времени на их создание. Но это также означает, что в ggplot2 невозможно создавать сильно настраиваемую графику. Но в сообществе RStudio и Stack Overflow есть много ресурсов, которые могут помочь в ggplot2, когда это необходимо. Если вы хотите установить ggplot2, лучший способ - установить tidyverse с помощью install.packages («tidyverse») . Или вы можете просто установить ggplot2 с помощью install.packages («ggplot2») . Вы также можете установить версию для разработки с GitHub, используя devtools :: install_github («tidyverse / ggplot2»).

2. dplyr

dplyr - очень популярная библиотека для работы с данными в R. Она имеет пять важных функций, которые естественным образом объединены с функцией group_by (), которая может помочь в выполнении этих функций в группах. Эти функции включают функцию mutate (), которая может добавлять новые переменные, которые являются функциями существующих переменных, функцию select (), которая выбирает переменные на основе их имен, функцию filter (), которая выбирает, выбирает переменные на основе их значений, summarize () функция, которая сокращает несколько значений в сводку, и функция организовать (), которая упорядочивает порядок строк. Если вы хотите установить dplyr, лучший способ - установить tidyverse с помощью install.packages («tidyverse») . Или вы можете просто установить dplyr с помощью install.packages («dplyr») . Вы также можете установить версию для разработки с GitHub, используя devtools :: install_github («tidyverse / dplyr»).

3. приборка

tidyris - библиотека очистки данных в R, которая помогает создавать аккуратные данные. Чистые данные означают, что все ячейки данных имеют одно значение, причем каждый из столбцов данных является переменной, а строки данных - наблюдением. Эти аккуратные данные являются основным продуктом в круговерти и гарантируют, что больше времени будет потрачено на анализ данных и получение ценности из данных, а не на их постоянную очистку и изменение инструментов для обработки неаккуратных данных. Функции в tidyr в целом делятся на пять категорий, а именно: Pivoting, который изменяет данные между длинными и широкими формами, Nesting, который изменяет сгруппированные данные, так что группа представляет собой одну строку с вложенным фреймом данных, Split символьные столбцы, а затем их объединение, Rectangling который преобразует вложенные списки в аккуратные таблицы и преобразует неявные пропущенные значения в явные. Если вы хотите установить tidyr, лучший способ - установить tidyverse с помощью install.packages («tidyverse») . Или вы можете просто установить tidyr с помощью install.packages («tidyr») . Вы также можете установить версию для разработки с GitHub, используя devtools :: install_github («tidyverse / tidyr»).

4. читатель

readris - библиотека, которая предоставляет простой и быстрый метод чтения прямоугольных данных, например, с форматами файлов tsv, csv, delim, fwf и т. д. readr может анализировать множество различных типов данных, используя функцию, которая анализирует весь файл, и другую, которая фокусируется в конкретном столбце. Эта спецификация столбца определяет метод преобразования данных в столбце из вектора символов в наиболее подходящий тип данных. В большинстве случаев это делается автоматически с помощью readr. readr может читать различные типы файловых форматов, используя разные функции, а именно read_csv () для файлов с разделителями-запятыми, read_tsv () для файлов с разделителями табуляции, read_table () для табличных файлов, read_fwf () для файлов фиксированной ширины, read_delim () для файлов с разделителями и read_log () для файлов веб-журнала. Если вы хотите установить readr, лучший способ - установить tidyverse с помощью install.packages («tidyverse») . Или вы можете просто установить readr с помощью install.packages («readr») . Вы также можете установить версию для разработки с GitHub, используя devtools :: install_github («tidyverse / readr»).

5. мурлыкать

purrris подробный набор инструментов для функций и векторов, который в основном используется для управления функциональным программированием в R. Хорошим примером этого являются функции map (), которые используются для замены нескольких циклов for, которые усложняют и портят код inro. более простой код, который легко читать. В дополнение к этому, все функции purrr являются типоустойчивыми, что означает, что они либо возвращают объявленный тип вывода, а если это невозможно, то выдают ошибку. Если вы хотите установить purrr, лучший способ - установить tidyverse с помощью install.packages («tidyverse»). Или вы можете просто установить purrr с помощью install.packages («purrr») . Вы также можете установить версию для разработки с GitHub, используя devtools :: install_github («tidyverse / purrr»).

6. тибл

Тиббл - это форма data.frame, которая включает в себя полезные части и отбрасывает части, которые не так важны. Таким образом, таблицы не меняют имена или типы переменных, такие как data.frames, и не выполняют частичное сопоставление, но они выводят проблемы на первый план гораздо раньше, например, когда переменная не существует. Таким образом, код с таблицами стал намного чище и эффективнее, чем раньше. Таблицы также проще использовать с большими наборами данных, которые содержат более сложные объекты, частично до использования расширенного метода print (). Вы можете создавать новые таблицы из векторов-столбцов с помощью функции tibble (), а также вы можете создавать таблицы построчно, используя функцию tribble (). Если вы хотите установить tibble, лучший способ - установить tidyverse с помощью install.packages («tidyverse») . Или вы можете просто установить tibble с помощью install.packages («tibble») . Вы также можете установить версию для разработки с GitHub, используя devtools :: install_github («tidyverse / tibble»).

7. стрингер

stringr - это библиотека, которая имеет множество функций, используемых для очистки данных и задач подготовки данных. Он также предназначен для работы со строками и имеет множество функций, упрощающих этот процесс. stringr построен на основе stringi, международной библиотеки компонентов для Unicode C. Поэтому, если есть какие-либо функции, которые вы хотите использовать, но не можете найти в stringr, то лучшее место для их поиска - это stringi. Это также означает, что после того, как вы освоите stringr, использовать stringi не так уж сложно, поскольку оба этих пакета имеют схожие соглашения. Все функции в stringr начинаются с str и принимают в качестве первого аргумента строковый вектор. Некоторые из этих функций включают str_detect (), str_extract (), str_match (), str_count (), str_replace (), str_subset () и т. Д. Если вы хотите установить stringr, лучший способ - установить tidyverse с помощью install.packages («Тидиверс») . Или вы можете просто установить stringr из CRAN, используя install.packages («stringr») . Вы также можете установить версию для разработки с GitHub, используя devtools :: install_github («tidyverse / stringr»).

8. коты

forcats - это библиотека R, которая занимается проблемами, связанными с векторами. Эти векторы представляют собой переменные, которые имеют фиксированный набор возможных значений, которые они могут принимать, что уже известно заранее. Таким образом, forecats имеет дело с такими проблемами, как изменение порядка значений в векторах, переупорядочивание векторов и т. Д. Некоторые из функций в forcats - это fct_relevel (), которая переупорядочивает векторы вручную, fct_reorder (), которая переупорядочивает фактор, используя другую переменную, fct_infreq ( ), который переупорядочивает фактор по значениям частоты и т. д. Если вы хотите установить forcats, лучший способ - установить тидиверс с помощью install.packages («tidyverse») . Или вы можете просто установить forcats с помощью install.packages («forcats») . Вы также можете установить версию для разработки с GitHub, используя devtools :: install_github («tidyverse / forcats»).