Как правильно оформить ноутбук в Jupiter Notebook при анализе данных из Excel

При анализе данных из Excel в Python с использованием ноутбуков Jupiter Notebook, важно корректное их оформление с использованием нескольких базовых принципов, о которых мы поговорим ниже. Эти принципы позволят вам структурировать работу, быстрее возвращаться к ней после перерыва, повысят общую эффективность деятельности.

Перед тем, как мы рассмотрим основные правила, хотел бы обратить ваше внимание на то, что структура файлов в проекте также должна быть правильно организована. Об этом есть отдельная статья на портале: "Как правильно создать структуру файлов проекта при анализе данных из Excel в Python", если вы ее еще не читали, настоятельно рекомендую ознакомиться.

Принцип 1. Название ноутбука Jupiter Notebook должно описывать проект

Никогда не сохраняйте ноутбуки с названиями по умолчанию, вам потом будет очень сложно разобраться что же храниться в этом файле не открывая его. Давайте осмысленные названия, постарайтесь в два-три слова описать что именно вы будет делать в этом ноутбуке, например если вы анализируете закупки, то файл можно назвать purchases_data_analysis.

Принцип 2. В начале файла опишите, что вы хотите сделать.

Описание должно содержать как общую характеристику предстоящей работы, так и перечень источников, откуда вы получили данные для анализа. К примеру в случае отчета по закупкам вы можете написать, что это анализ закупок для отдела поставок, который они запросили, а источником информации является выгрузка из бухгалтерской базы.

Принцип 3. Ведите лог изменений вашего проекта

Лог изменений поможет вам понять что, когда и зачем вы делали. К примеру если вы только создали файл, напишите текущую дату и то, что вы начали работу над проектом.

Принцип 4. Импорт библиотек

В первую ячейку проекта пропишите импорт всех нужных вам для работы библиотек, это позволит не отвлекаться на эту подзадачу потом, а также избежать путаницы в названии переменных импорта. К примеру мы хотим импортировать Pandas и Numpy, как одни из основных библиотек для анализа данных, а также pathlib для определения адресов файлов.

import pandas as pd
import numpy as np
from pathlib import Path

Принцип 5. Определение переменных для исходных и итоговых файлов

В следующей ячейке пропишите, какие файлы у вас будут в качестве источников. Напомню, что они должны быть расположены в подпапке raw. Файл с результатами должен быть расположен в папке reports. Присвоив имена в этой ячейке вы сможете во время всего проекта обращаться к ним по присвоенным именам, не вспоминая как же на самом деле называются файлы, а названия бывают временами сложные. Также вы можете сразу прочитать данные из Excel файла в Dataframe.

src_file=Path.cwd()/'data'/'raw'/'purchase_data.xlsx'
report_file=Path.cwd()/'reports'/'purchase_report.xlsx'
df=pd.read_excel(src_file)

Принцип 6. Сохраняйте результат вашего проекта в конце ноутбука

После того как вы проделали какие либо манипуляции с данными при помощи Pandas, Numpy и других библиотек Python, сохраните итоговый результат в отчетный файл, адрес которого мы определили в предыдущем этапе. Для примера просто скопируем исходный датафрейм в итоговый датафрейм и сохраним результат

df_out=df
df_out.to_excel(report_file)

Супер. Это все основные принципы, о которых я хотел рассказать вам сегодня. Если вы будете их придерживаться, то тогда ваша работа будет более понятной, структурированной и эффективной. Спасибо за внимание.