day2 intermediate code2

2025-07-16 14:03:00 +02:00 · 2025-07-16 14:03:00 +02:00 · 331e55f987
commit 331e55f987
parent 7d515e7032
4 changed files with 178 additions and 2 deletions
--- a/src/T09_GroupBy.py
+++ b/src/T09_GroupBy.py
@ -35,6 +35,11 @@ print(grouped_donations.loc["Student"].loc[["Hamburg", "Köln"]])
 # zeile students ist wieder ein dataframe
 students = grouped_donations.loc["Student"]
 print(students.loc["Hamburg"])
+print(grouped_donations)
+print(grouped_donations.idxmin())
+print(grouped_donations.loc[grouped_donations.idxmin()])
+print(grouped_donations.loc["Student"].loc["Hamburg"])
+
 print("-"*100)
 # doppelte indizes
 info = grouped_donations.unstack()
--- a/src/T10_ex_Energy.py
+++ b/src/T10_ex_Energy.py
@ -7,10 +7,60 @@ print(energy_df.columns)
 # Green, Non-Green

 # 1) Wiewiel erneuerbare bzw nicht-erneuerbare energie wurde insgesamt produziert
+total_energy_production = energy_df[["Generation_TWh", "Energy_Type"]].groupby("Energy_Type").sum()
+print(total_energy_production)
+
 # 2) Pro Jahr  (unstack)
+yearly_production = energy_df[["Year", "Generation_TWh", "Energy_Type"]].groupby(["Year", "Energy_Type"]).sum()
+yearly_production = yearly_production.unstack()
+print(yearly_production)
+

 # 3) jährlich nach Energy_Source angeben
+yearly_production = energy_df[["Year", "Generation_TWh", "Energy_Source"]].groupby(["Year", "Energy_Source"]).sum()
+yearly_production = yearly_production.unstack()
+print(yearly_production)
+
 # 4) welche energiequelle hat den größten/kleinsten wachstum (idxmax)
+yearly_production = yearly_production["Generation_TWh"]
+print(yearly_production)
+# a = yearly_production["Biomass"]
+# a.sort_values(inplace=True)  Verboten, da a eine View auf yearly_production ist!
+print("-"*100)
+diff = yearly_production.loc[2024] - yearly_production.loc[2019]
+sorted_diffs = diff.sort_values()
+print(diff)
+print(sorted_diffs)
+
+# gößter wachtumg
+print(f"Größter Wachstum: {diff.idxmax()}, {diff.max()}")
+print(f"Größter Wachstum: {sorted_diffs.index[-1]}, {sorted_diffs.iloc[-1]}")
+print(f"Kleinster Wachstum: {diff.idxmin()}, {diff.min()}")
+print(f"Kleinster Wachstum: {sorted_diffs.index[0]}, {sorted_diffs.iloc[0]}")
+
 # 5) Prozentual
+percentages = yearly_production.divide(yearly_production.sum(axis=1), axis=0)
+print(percentages)
+print(percentages.mean(axis=0))
+perc_diff = percentages.loc[2024] - percentages.loc[2019]
+perc_diff.sort_values(inplace=True)
+print(perc_diff)
 #  Monatlichen Verlauf (Jan 2019 und Jan 2020 sind verschiedene)
+verlauf = energy_df[["Year", "Month", "Energy_Type", "Generation_TWh"]].groupby(["Year", "Month", "Energy_Type"]).sum().unstack()
+print(verlauf)
+
 # In welchen monaten wurde mehr grüner als nicht-grüner strom produziert
+print(verlauf[verlauf["Generation_TWh", "Green"] > verlauf["Generation_TWh", "Non-Green"]])
+
+verlauf = verlauf["Generation_TWh"]
+print(verlauf["Green"] > verlauf["Non-Green"])
+
+#        Biomass, CoalHard,
+#2019-1    100,   2321,
+#2019-2    100,   2321,
+
+#        Green, NonGreen,
+#2019-1    100,   2321,
+#2019-2    110,   2121,
+#         ....
+#2024-2   2313,   111,
--- a/src/T11_Pivotieren.py
+++ b/src/T11_Pivotieren.py
@ -0,0 +1,76 @@
+import pandas as pd
+from pandas.core.dtypes.missing import construct_1d_array_from_inferred_fill_value
+
+data = {
+    'Product': ['Fancy Chair', 'Fancy Chair', 'Luxury Sofa', 'Designer Table', 'Luxury Sofa'],
+    'Color': ['Blue', 'Green', 'Blue', 'Green', 'Red'],
+    'Customer Price': [2345.89, 2390.50, 1820.00, 3100.00, 2750.00],
+    'Non-Customer Price': [2445.89, 2495.50, 1980.00, 3400.00, 2850.00]
+}
+
+df = pd.DataFrame(data)
+print(df)
+
+# pivot erlaubt keine Duplikate!
+pivoted_df = df.pivot(index="Product",
+                      columns="Color",
+                      values="Non-Customer Price")
+
+print(pivoted_df)
+
+pivoted_df = df.pivot(index="Product",
+                      columns="Color",
+                      values=["Non-Customer Price", "Customer Price"])
+
+print(pivoted_df)
+
+beverages = pd.read_csv("../data/beverages.csv")
+beverages["Day"] = (["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"] * 35)[:103]
+print(beverages)
+
+# eine aggfunc für duplikate mitgeben
+#   pivot_table ~= gorupby().aggfunc().unstack()
+coffe_pivot = beverages.pivot_table(
+    index="Name",
+    columns="Day",
+    values="Coffee",
+    aggfunc="mean",
+    fill_value=0
+).round(1)
+print(coffe_pivot)
+# als groupby
+coffees = beverages[["Name", "Day", "Coffee"]].groupby(["Name", "Day"]).mean().unstack().round(1)
+print(coffees)
+coffees[coffees.isna()] = 0.0
+print(coffees)
+# 1. Energiedaten
+# ["Year_Quarter"] = ["Year"].astype(str) + ["Quarter"]  # 2019 + "Q1"
+# Pro Type für jedes Quartal die Produktion gruppieren
+# Pivot -> Zeilen: (Jahr, Q1) Spalten: Biomass, WInd
+
+# df.index <- name der index-spalte
+print("\n"*3)
+energy_df = pd.read_csv("../data/germany_energy_mix_2019_2024.csv")
+# 1) Neue spalte
+energy_df["Year Quarter"] = energy_df["Year"].astype(str) + " " + energy_df['Quarter']
+# drop: axis=0 die zeilen  namens [Year, quarter] gelöscht
+#       axis=1 die spalten namens [Year, quarter] gelöscht
+energy_df.drop(["Year", "Quarter"], axis=1, inplace=True)
+print(energy_df)
+
+# 1) Mit 'Year Quarter' gruppieren
+quarterly_data = energy_df[["Year Quarter", "Energy_Source", "Generation_TWh"]].groupby(
+    ["Year Quarter", "Energy_Source"]).sum().unstack()
+print(quarterly_data)
+
+# 2) Pivot_table
+quarterly_data = energy_df.pivot_table(
+    index="Year Quarter",
+    columns="Energy_Source",
+    values="Generation_TWh",
+    aggfunc="sum",
+    fill_value=0, # für jeden energietyp in jedem quartal ein wert existiert
+)
+print(quarterly_data)
+
+
--- a/src/T12_Datetimes.py
+++ b/src/T12_Datetimes.py
@ -0,0 +1,45 @@
+import pandas as pd
+
+# jahr-monat-tag
+# monat/tag/jahr  (us-schreibweise)
+
+beverages_by_date = pd.read_csv("../data/beverages_by_date.csv",
+                                index_col=0)
+
+# zum datum konvertiert
+beverages_by_date.index = pd.to_datetime(
+    beverages_by_date.index,
+    format="%Y-%m-%d"  # normalerweise nicht
+)
+
+print(beverages_by_date)
+print(beverages_by_date.index.dtype)
+print()
+sampler = beverages_by_date.resample("2W")
+for el in sampler:
+    print(el)
+print(sampler)
+
+print(beverages_by_date.loc["2024-02-8":"2024-02-14"])
+
+by_weekly = beverages_by_date.resample("2W").agg({
+    'coffee': ["sum", "mean", "std", "count"]
+})
+print(by_weekly)
+
+# bfill und ffill
+# interploate  = linear
+#
+daily = beverages_by_date.resample("8h").bfill()
+print(daily.loc["2024-02-8":"2024-02-14"])
+
+# übung mit zeiten
+solar_df = pd.read_csv("../data/Balkonkraftwerk.csv", index_col=0)
+solar_df.index = pd.to_datetime(solar_df.index)
+print(solar_df)
+print(solar_df.columns)
+
+# 1) Wie sieht es im durchschnitt jeden Tag aus (D)
+# 2) An welchen Tagen war die effizientz > 35%
+# 3) Stündliche Werte interpolieren  (h)  (1h), (3h)
+#    - Komisch