Лирическое отступление, требующее быть озвучено сразу, а не где-то затеряно в тексте
😢
- GitHub не позволяет увидеть сгенереные библиотекой plotly графики в Yupiter Notebook😇 Но можно воспользоваться следующей ссылкой, и утонуть в интеракивности подсказок прямо с браузера
или скачать NoteBook локально к себе
также все графики сгенерены в html формат и доступны в папке plotly_graphs
1. Описание проекта
2. Решаемая задача?
3. Информация о данных
4. Этапы работы над проектом
5. Результаты
Проект, относящийся к зачетному проекту под названием "PROJECT-1. Анализ резюме из HeadHunter" блока 1-го. Знакомство с данными. Python для анализа данных,
учебной платформы SkillFactory, Профессия Data Science.
Задача проекта показать знания в следующих областях:
- базовый анализ структуры данных,
- преобразование данных,
- исследование и очистка данных,
- построение графиков,
используя только:
* Python (numpy, Pandas)
* Jupyter Notebook
* Библиотеки для построения графиков на выбор (seaborn, matplotlib, plotly)
Компания HeadHunter столкнулась с проблемой, что часть соискателей не указывает желаемую заработную плату, когда составляет своё резюме, или же указывает некорректные цифры, такие как суммы в другой валюте, или же просто 1, исключительно чтобы заполнить поле с желаемой зарплатой хоть какими-то данными. Чтобы минимизировать такие ситуации, компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе.
- Файл dst-3.0_16_1_hh_database.csv
- Содержит базу данных резюме выгруженную с сайта ваканский hh.ru
- Данные охватывают период с 10 Апреля 2018 по 15 Мая 2019 по всем городам РФ.
- Содержит около 45К записей
- Данный файл доступен для скачивания по ссылке
- Файл ExchangeRates.csv
- Содержит данные о всех кросс курсах валют, встречающихся в разделе ожидаемая зарплата, за весь период данных о вакансиях
- Используется в процессе преобразования данных с целью привести Зарплату к одной валюте (Руб)
- Данный файл находится в папке data
- Сгенерировать новый файл можно на сайте MDF.RU
- Исследование структуры данных
- Преобразование данных
- Исследование зависимостей в данных
- Очистка данных
- Финальное оформление проекта на GitHub
Исследование показало наличие выбросов и некорректно поданных данных в признаке ожидаемой зарплаты сосискателя. Явные выбросы были удалены, также были удалены дубликаты. Пропуски в зарплатах заменены на определенные суммы. Более подробно в комментариях в Notebook.