Без чего нельзя обойтись в датасайенс-проекте? Конечно, без данных!
Именно об этом пойдет речь в сегодняшней статье. Мы поделимся с вами 15 датасетами, которые можно использовать для анализа данных и их визуализации, классификации текстов/изображений, создания системы рекомендаций и многого другого.
Анализ данных
Работать с наборами данных, перечисленными в этом разделе, можно с помощью Pandas и Numpy.
Exam Scores
Набор данных Exam Scores содержит оценки учащихся по различным предметам (математике, чтению, письму), а также другие данные о них, такие как пол, этническая принадлежность и тип ланча. Вы можете провести анализ и получить средний балл по конкретному полу, узнать, сдал/не сдал ученик экзамен и многое другое.
PartImageNet
На основе ImageNet собрали новый датасет, в котором разметили отдельно части разных объектов: лапы/хвост/тело/голову животных, кузов/колеса автомобиля и т.п. В датасете 24k изображений из 158 классов орининального ImageNet’а
Pokemon Dataset
В Pokemon Dataset содержатся статистические данные по 721 покемону. Там указаны их тип, HP, атака, особая атака, особая защита и скорость. Вы можете поиграть с этими данными и провести поиск, чтобы, например, найти покемона с самыми высокими показателями атаки и защиты.
Если вы новичок в Pandas, настоятельно рекомендуем изучить основы работы с этим набором данных, просмотрев этот туториал.
Netflix movies and TV shows
В базе данных Netflix movies and TV shows собраны все фильмы и сериалы, доступные на Netflix на середину 2021 года. Здесь можно найти такие данные, как название, режиссер, рейтинг, год выпуска и продолжительность. Имеются недостающие данные, а некоторые столбцы нуждаются в очистке перед работой с ними в проекте.
Визуализация данных
Следующие датасеты пригодятся для создания визуализаций. В этих целях применяются matplotlib, seaborn и даже pandas.
FIFA 22 player dataset
Набор данных FIFA 22 player dataset содержит данные о футболистах из видеоигры FIFA, такие как дата рождения футболиста, его рост, вес и общий рейтинг. Самое интересное, что на сайте есть данные игроков не только за 2022 год, но и с 2016 по 2022 год, так что вы можете увидеть эволюцию рейтинга каждого игрока с помощью линейных графиков и других средств визуализации.
Population dataset
Population dataset содержит данные о численности населения за каждые 5 лет с 1955 по 2020 год для большинства стран мира. В наборе данных есть 3 столбца: страна, год и численность населения. Данные пригодны для создания простых визуализаций, таких как круговые или столбчатые диаграммы, боксплоты и гистограммы.
The Simpsons и Avatar The Last Airbender
Почему бы немного не развлечься и не научиться создавать визуализации? На Kaggle есть бесплатные наборы данных таких телешоу, как The Simpsons и Avatar The Last Airbender. Там вы найдете все серии и сценарии и сможете создать визуализации, чтобы показать, у кого больше всего реплик, кто с кем говорит, а также составить облако слов и провести анализ настроений.
Автоматизация
Вместо того чтобы повторять такие задачи, как создание отчетов в Excel, можно автоматизировать их с помощью Python.
Supermarket sales
Большинству из нас хоть раз в жизни приходилось создавать отчет в Excel с использованием набора данных о продажах. Почему бы не автоматизировать этот процесс? Датасет Supermarket sales содержит данные о продажах супермаркета за 3 месяца. Вы можете использовать эти данные для создания сводной таблицы и гистограммы в Excel, используя Python.
Регрессионный анализ
Boston House Prices
Это популярный набор данных для составления линейной регрессии. В датасете содержится информация о домах Бостона — уровень преступности на душу населения по городу, среднее количество комнат в жилище, ставка налога на недвижимость в расчете на $10 000 и многое другое.
Скачать этот набор данных можно с помощью библиотеки sklearn:
from sklearn.datasets import load_boston
boston_dataset = load_boston()
Классификация текста
Если вы занимаетесь NLP (обработкой естественного языка), вам пригодятся эти наборы данных. Для работы с ними необходимо использовать такие библиотеки, как sklearn, NLTK, gensim, spaCy и т. д.
IMDB Dataset
IMDB Dataset содержит 50 тысяч отзывов о фильмах с определенным отношением (положительным/отрицательным). Эти данные отлично подходят для построения модели, которая классифицирует текст как положительный или отрицательный, т. е. проводит бинарную классификацию текста.
60k Stack Overflow Questions
Этот набор данных содержит 60 тысяч вопросов на Stack Overflow с 2016 по 2020 год. Есть 3 типа вопросов: HQ (высококачественные сообщения без единой правки), LQ_EDIT (низкокачественные сообщения с отрицательной оценкой и несколькими правками сообщества) и LQ_CLOSE (низкокачественные сообщения, которые были закрыты сообществом без единой правки).
Вы можете использовать этот датасет при прогнозировании тегов для вопроса. Это более сложная задача, чем в предыдущем проекте, поскольку может быть не только 2, но и больше вариантов для тегов. В этом случае необходимо использовать многозначную классификацию.
Классификация изображений
В отличие от других наборов данных, перечисленных в статье, следующие датасеты содержат в основном изображения, которые можно использовать для построения модели классификации. Для этого необходимо использовать Tensor Flow, Open CV и т. д.
Rock Paper Scissors
Если вам нравится игра “камень-ножницы-бумага”, вы не заскучаете с этим набором данных. Rock Paper Scissors содержит 2892 изображения рук в позиции “камень/ножницы/бумага”. Он обычно используется для классификации изображений, но ему можно найти и другие применения.
Face Mask Detection
Этот набор данных состоит из 1376 изображений. На 690 изображениях люди носят маску, а на 686 картинках маски нет.
Вы можете использовать этот датасет для построения модели, которая определяет, носит ли человек маску на лице. В конце работы над проектом наденьте маску и с помощью камеры компьютера самостоятельно протестируйте эту модель.
Система рекомендаций
Вы когда-нибудь задумывались над тем, каким образом такие компании, как Netflix и YouTube, рекомендуют пользователям фильмы и видео? Вы можете использовать приведенный ниже набор данных для создания собственной системы рекомендаций и понять, как она работает.
MovieLens
Эта база данных содержит 20 миллионов оценок и 465 000 случаев использования тегов, примененных 138 000 пользователями к 27 000 фильмов. Идеально подходит для тех, кто хочет создать свою систему рекомендаций фильмов с нуля.
https://t.me/ai_machinelearning_big_data
Просмотры: 1 904
Огромный набор датасетов, которые вы можете скачать и начать пользоваться прямо сейчас.
@bigdatai — еще больше открытых размеченных датасетов в нашем телеграм канале.
Satellite Photograph Order — набор данных спутниковых фотографий Земли — цель состоит в том, чтобы предсказать, какие фотографии были сделаны раньше других.
Manufacturing Process Failures — набор переменных, которые были измерены в ходе производственного процесса. Цель состоит в том, чтобы предсказать сбои в производстве.
Multiple Choice Questions — набор данных из вопросов с множественным выбором и соответствующих правильных ответов. Цель состоит в том, чтобы предсказать ответ на любой заданный вопрос.
В Pokemon Dataset содержатся статистические данные по 721 покемону. Там указаны их тип, HP, атака, особая атака, особая защита и скорость. Вы можете поиграть с этими данными и провести поиск, чтобы, например, найти покемона с самыми высокими показателями атаки и защиты.
60k Stack Overflow Questions Этот набор данных содержит 60 тысяч вопросов на Stack Overflow с 2016 по 2020 год. Есть 3 типа вопросов: HQ (высококачественные сообщения без единой правки), LQ_EDIT (низкокачественные сообщения с отрицательной оценкой и несколькими правками сообщества) и LQ_CLOSE (низкокачественные сообщения, которые были закрыты сообществом без единой правки).
Если вы новичок в Pandas, настоятельно рекомендуем изучить основы работы с этим набором данных, просмотрев этот туториал.
В базе данных Netflix movies and TV shows собраны все фильмы и сериалы, доступные на Netflix на середину 2021 года. Здесь можно найти такие данные, как название, режиссер, рейтинг, год выпуска и продолжительность. Имеются недостающие данные, а некоторые столбцы нуждаются в очистке перед работой с ними в проекте.
Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.
Email Spam — содержит электронные письма вместе с пометкой о том, являются ли они спамом или нет.
Solar Flares — атрибуты солнечных вспышек, полезные для прогнозирования характеристик вспышек.
SOCR data – Heights and Weights Dataset — хороший вариант для старта. Содержит 25 000 записей о росте и весе 18-ти летних людей.
Titanic Dataset — содержит информацию про пассажиров (возраст, пол, родственники на борту и пр) 891 в тренировочном сете и 418 — в тестовом.
Chars74k Dataset — содержит изображения Британских и Канадских символов 64 классов: 0-9, A-Z, a-z. 7700 7.7k естественных изображений, 3400kнаписанных от руки, 62000 синтезированных компьютером шрифтов.
Chatbot Intents Dataset — JSON-файл, который содержит различные тэги: greetings, goodbye, hospital_search, pharmacy_search, и тд. Содержит набор шаблонов «вопрос-ответ». (Вариант применения с исходником на Python: Chatbot Project in Python)
The Yelp Dataset — содержит 1,2 млн. рекомендаций от 1,6 млн. пользователей про 1,2 млн организаций.
Jeopardy Dataset — более 200 000 записей «вопрос-ответ» из популярной телевизионной игры.
Recommender Systems Dataset — портал с коллекцией датасетов от университета UCSD. Содержит записи об отзывах на популярных сайтах (Goodreads, Amazon). Отлично подходит для создания рекомендательных систем. (Вариант применения с исходником на R: Movie Recommendation System Project in R )
UCI Spambase Dataset — датасет для тренировки для обнаружения спама. Содержит 4601 писем с 57 параметрами метаданных.
CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.
Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.
Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.
Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».
Рынок медицинского страхования. Данные о планах в области здравоохранения и стоматологии на рынке медицинского страхования США.
Рентгенография грудной клетки. Более 112 тысяч рентгенограмм грудной клетки от более чем 30 тысяч уникальных пациентов.
Отчеты об убийствах, 1980–2014 годы. Проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.
База данных подержанных автомобилей. Более 370 тысяч подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.
Дом открытых данных правительства США. Данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.
Национальный центр профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.
Крупнейший в Великобритании сборник социальных, экономических и демографических ресурсов.
EconData. Несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и СМИ.
Центр исследования побережья. Интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.
Качество красного вина. Простой и понятный практический набор данных для регрессионного или классификационного моделирования.
MPII human pose dataset — датасет содержит 25 000 изображений человеческих поз с аннотацией по суставам.
Object 365 Dataset — датасет высококачественных изображений с ограничивающими рамками объектов.
CQ500 Dataset — датасет содержит 491 КТ-сканирование головы с 193 317 срезами.
Youtube 8M Dataset — маркированный набор данных видео, который содержит 6,1 миллиона идентификаторов видео Youtube
Food Environment Atlas — содержит данные о том, как выбор местных жителей влияет на рацион питания в США.
Chronic Disease Data — данные о показателях хронических заболеваний в районах по всей территории США.
Urban Sound 8K dataset — набор городских звуковых данных (содержит 8732 городских звука из 10 классов).
LSUN Dataset — набор данных из миллионов цветных изображений сцен и объектов (около 59 миллионов изображений, 10 различных категорий сцен и 20 различных категорий объектов).
Librispeech Dataset — датасет содержит 1000 часов английской речи с разными акцентами.
Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).
IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.
Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.
Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).
Health Data Portal — это портал Министерства здравоохранения и социальных служб США.
Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)
Время на прочтение
5 мин
Количество просмотров 66K
- Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
- Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
- MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
- The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
- Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project )
- Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.
- SOCR data – Heights and Weights Dataset — хороший вариант для старта. Содержит 25 000 записей о росте и весе 18-ти летних людей.
Статья переведена при поддержке компании EDISON Software, которая выполняет «на отлично» заказы из Южного Китая, а также разрабатывает веб-приложения и сайты. - Parkinson Dataset — 195 записей о пациентах с болезнью Паркинсона, с 25 параметрами анализов. Можно использовать для предварительной оценки отличия больных людей от здоровых. (Вариант применения с исходником на Python: Machine Learning Project on Detecting Parkinson’s Disease)
- Titanic Dataset — содержит информацию про пассажиров (возраст, пол, родственники на борту и пр) 891 в тренировочном сете и 418 — в тестовом.
- Uber Pickups Dataset — информация о 4.5 миллионах поездок на Uber 2014 года и 14 млн. 2015 года. (Вариант применения с исходником на R: Uber Data Analysis Project in R)
- Chars74k Dataset — содержит изображения Британских и Канадских символов 64 классов: 0-9, A-Z, a-z. 7700 7.7k естественных изображений, 3400kнаписанных от руки, 62000 синтезированных компьютером шрифтов.
- Credit Card Fraud Detection Dataset — содержит информацию о транзакциях скомпрометированных кредитных картах. (Вариант применения с исходником: Credit Card Fraud Detection Machine Learning Project)
- Chatbot Intents Dataset — JSON-файл, который содержит различные тэги: greetings, goodbye, hospital_search, pharmacy_search, и тд. Содержит набор шаблонов «вопрос-ответ». (Вариант применения с исходником на Python: Chatbot Project in Python)
- Enron Email Dataset — содержит пол миллиона писем от 150 менеджеров Enron.
- The Yelp Dataset — содержит 1,2 млн. рекомендаций от 1,6 млн. пользователей про 1,2 млн организаций.
- Jeopardy Dataset — более 200 000 записей «вопрос-ответ» из популярной телевизионной игры.
- Recommender Systems Dataset — портал с коллекцией датасетов от университета UCSD. Содержит записи об отзывах на популярных сайтах (Goodreads, Amazon). Отлично подходит для создания рекомендательных систем. (Вариант применения с исходником на R: Movie Recommendation System Project in R )
- UCI Spambase Dataset — датасет для тренировки для обнаружения спама. Содержит 4601 писем с 57 параметрами метаданных.
- Flickr 30k Dataset — более 30 000 изображений и подписей к ним. (Flickr 8k Dataset — 8000 изображений. Проект с исходником на Python: Image Caption Generator Python Project)
- IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)
- MS COCO dataset — 1,5 млн размеченных изображений.
- CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
- GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)
- ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
- Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)
- Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
- Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
- MPII human pose dataset — датасет содержит 25 000 изображений человеческих поз с аннотацией по суставам.
- 20BN-something-something dataset v2 — набор высококачественных видео, которые показывают, как человек выполняет какие-то действия.
- Object 365 Dataset — датасет высококачественных изображений с ограничивающими рамками объектов.
- Photo sketching dataset — содержит более 1000 изображений с их контурными чертежами.
- CQ500 Dataset — датасет содержит 491 КТ-сканирование головы с 193 317 срезами.
- IMDB-Wiki dataset — датасет с более чем 5 млн. изображений лиц с пометкой пола и возраста. (Вариант применения с исходником на Gender & Age Detection Python Project)
- Youtube 8M Dataset — маркированный набор данных видео, который содержит 6,1 миллиона идентификаторов видео Youtube
- Urban Sound 8K dataset — набор городских звуковых данных (содержит 8732 городских звука из 10 классов).
- LSUN Dataset — набор данных из миллионов цветных изображений сцен и объектов (около 59 миллионов изображений, 10 различных категорий сцен и 20 различных категорий объектов).
- RAVDESS Dataset — аудиовизуальная база данных эмоциональной речи. (Вариант применения с исходником на Speech Emotion Recognition Python Project)
- Librispeech Dataset — датасет содержит 1000 часов английской речи с разными акцентами.
- Baidu Apolloscape Dataset — датасет для развития технологий самостоятельного вождения.
- Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).
- The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.
- IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.
- American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.
- Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.
- Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.
- Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).
- Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.
- Food environment Atlas Data Portal — содержит данные исследований о питании в США.
- Health Data Portal — это портал Министерства здравоохранения и социальных служб США.
- Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.
- London Datastore Portal — данные о жизни людей в Лондоне.
- Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)
Читать ещё
- 14 open-source проектов для прокачки Data Science мастерства (easy, normal, hard)
- Front-end додзё: проекты для тренировки навыков разработчика (5 новых + 43 старых)
- Топ-12 самых интересных ИТишных динамических инфографик
Хабы:
- Блог компании Edison
- Python
- Программирование
- Машинное обучение
- Учебный процесс в IT
Открытый доступ
Обновлено:
10.02.2022
Российская гуманитарная помощь для борьбы с COVID-19: сведения о поставках в зарубежные страны за 2020-2022 гг.
Вручную собранные сведения из официальных российских и зарубежных источников, а также сообщений СМИ о поставках российской гуманитарной помощи зарубежным странам для борьбы с COVID-19 за период 01.02.2020 — 01.02.2022.
9381
725
XLSX
Открытый доступ
Обновлено:
27.01.2022
База данных показателей муниципальных образований России за 2006 – 2020 гг.
Социально-экономические характеристики муниципальных образований (МО) всех уровней в России за 2006-2020 гг.
22990
1411
CSV
POSTGRESQL
Открытый доступ
Обновлено:
24.12.2021
Международные соглашения России: объединенные исторические данные о двусторонних договорах за 1887—2021 гг.
Сведения о международных договорах, заключенных Российской империей, РСФСР, СССР или Россией. Собраны на основе публичной информации из трех источников: электронной картотеки международных соглашений МИД России, АСОЗД Госдумы и собрания договоров ООН
5100
163
CSV
XLSX
Открытый доступ
Обновлено:
14.12.2021
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Сведения по 70 базовым социально-экономическим показателям для более 200 крупных российских городов за 1985, 1990-1991, 1995-2019 гг. Публикуются как официальная статистическая информация в ежегодных статистических сборниках Росстата.
8278
728
CSV
Открытый доступ
Обновлено:
02.12.2021
«Работа в России»: обработанные и объединенные сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru
Архивные и актуальные сведения о резюме, вакансиях, откликах соискателей и приглашениях на собеседование, размещенные на портале Роструда «Работа России». Сведения публикуются в разделе «Открытые данные» в формате многоуровневых структур XML.
14026
488
CSV
Открытый доступ
Обновлено:
30.11.2021
Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств
Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг.
6400
511
CSV
Открытый доступ
Обновлено:
25.11.2021
История изменений муниципалитетов в России: наименования, коды ОКТМО и входящие в состав населенные пункты
Датасет позволяет отследить изменения, происходившие с муниципалитетами в 2015-2021 гг.: состав населенных пунктов, код ОКТМО и название МО.
3405
133
CSV
Открытый доступ
Обновлено:
18.11.2021
Показатели валового регионального продукта в России: объединенные данные за 1998—2019 гг.
Ежегодные показатели валового регионального продукта (в субъектах РФ) за период с 1998 по 2019 г. Публикуются как официальная статистическая информация на сайте Росстата.
4374
320
CSV
Открытый доступ
Обновлено:
16.11.2021
Динамика ключевой ставки и процентной ставки рефинансирования в России за 1992—2021 гг.
Ежедневные сведения о ключевой ставке и процентной ставке рефинансирования на территории России за период с 01.01.1992 по 01.11.2021. Публикуются на официальном сайте Банка России.
3114
174
CSV
Открытый доступ
Обновлено:
12.11.2021
Валютные курсы: архивные и текущие данные о стоимости иностранных валют по отношению к рублю
Ежедневные и ежемесячные сведения о валютных курсах в России за период с 1924 по 2021 г. Публикуются на официальном сайте Банка России. В ходе подготовки датасета сведения были спарсены и преобразованы в панельные данные в машиночитаемом формате.
4091
259
CSV
Spreadsheet Sample Data in Excel & CSV Formats
I have put this page together to provide everyone with data that you would come across in the REAL WORLD. Whether you are looking for some Pivot Table practice data or data that you can flow through an Excel dashboard you are building, this article will hopefully provide you with a good starting point.
All the example data is free for you to use any way you’d like. I have saved the data in both an Excel format (.xlsx) and a comma-separated values format (.csv).
What Can This Data Be Useful For?
-
Feeding Dashboards
-
Manipulating in Power Query
-
Feeding into Power BI
-
Practicing Excel Formulas (VLOOKUP Practice Data)
-
Testing Spreadsheet Solutions
-
Example Data for Articles or Videos You Are Making
Which Spreadsheet/BI Programs Can I Use This Data With?
-
Power BI
-
Tableau
-
LibreOffice (OpenOffice)
-
Tell me in the comments if there are others!
-
Microsoft Excel
-
Google Sheets
-
Apple Numbers
-
Excel’s Power Query
Company Employee Example Data
Folks in Human Resources actually deal with a lot of data. This data can be great for creating dashboards and summarizing various aspects of a company’s workforce. In this database, there are 1,000 rows of data encompassing popular data points that HR professionals deal with on a regular basis.
You can use this data to practice popular spreadsheet features including Pivot Table, Vlookups, Xlookups, Power Query automation, charts, and Dashboards.
Columns in this Data Set:
Below is a list of all the fields of data included in the sample data.
-
Employee ID
-
Full Name
-
Job Title
-
Gender
-
Ethnicity
-
Age
-
Hire Date
-
Annual Salary (USD)
-
Bonus %
-
Department
-
Business Unit
-
Country
-
City
-
Exit Date
Data Preview (Employee Records)
Download This Sample Data
If you would like to download this data instantly and for free, just click the download button below. The download will be in the form of a zipped file (.zip) and include both a Microsoft Excel (.xlsx) and CSV file version of the raw data.
Sales Force Example Data (Coming Soon!)
Columns in this Data Set:
Below is a list of all the fields of data included in the sample data.
-
YTD Sales
-
Commission Rate
-
Phone Number
-
Leader Name
-
Units Sold
-
Avg. Price Per Unit
-
Employee Name
-
Region
-
Office
-
Prospecting
-
Negotiating
-
Orders
Data Preview (Sales Team Data)
Company Financial Results Example Data
Columns in this Data Set:
Below is a list of all the fields of data included in the sample data.
-
Month
-
Year
-
Scenario (Actuals/Forecast/Budget)
-
Currency
-
Account
-
Department
-
Business Unit
-
Amount
Data Preview (Financial Data)
Website Traffic Example Data (Coming Soon!)
Columns in this Data Set:
Below is a list of all the fields of data included in the sample data.
-
Users
-
Bounce Rate
-
Keywords
-
Avg. SERP
-
Avg. Time on Page
-
Page URL
-
Page Title
-
Pageviews
-
Sessions
-
Social Media Traffic
Data Preview (Web Traffic)
I Hope This Microsoft Excel Article Helped!
Hopefully, you were able to find 1 or more data sets that you can use for your spreadsheet project. If you have any questions about the data I’ve compiled or suggestions on more datasets that would be useful, please let me know in the comments section below.
About The Author
Hey there! I’m Chris and I run TheSpreadsheetGuru website in my spare time. By day, I’m actually a finance professional who relies on Microsoft Excel quite heavily in the corporate world. I love taking the things I learn in the “real world” and sharing them with everyone here on this site so that you too can become a spreadsheet guru at your company.
Through my years in the corporate world, I’ve been able to pick up on opportunities to make working with Excel better and have built a variety of Excel add-ins, from inserting tickmark symbols to automating copy/pasting from Excel to PowerPoint. If you’d like to keep up to date with the latest Excel news and directly get emailed the most meaningful Excel tips I’ve learned over the years, you can sign up for my free newsletters. I hope I was able to provide you with some value today and I hope to see you back here soon!
— Chris
Founder, TheSpreadsheetGuru.com