!pip install pandas
!pip install ydata-profiling

Requirement already satisfied: pandas in /usr/local/lib/python3.10/dist-packages (2.0.3)
Requirement already satisfied: python-dateutil>=2.8.2 in /usr/local/lib/python3.10/dist-packages (from pandas) (2.8.2)
Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.10/dist-packages (from pandas) (2023.4)
Requirement already satisfied: tzdata>=2022.1 in /usr/local/lib/python3.10/dist-packages (from pandas) (2024.1)
Requirement already satisfied: numpy>=1.21.0 in /usr/local/lib/python3.10/dist-packages (from pandas) (1.25.2)
Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.10/dist-packages (from python-dateutil>=2.8.2->pandas) (1.16.0)
Collecting ydata-profiling
  Downloading ydata_profiling-4.8.3-py2.py3-none-any.whl (359 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 359.5/359.5 kB 7.7 MB/s eta 0:00:00
Requirement already satisfied: scipy<1.14,>=1.4.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (1.11.4)
Requirement already satisfied: pandas!=1.4.0,<3,>1.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (2.0.3)
Requirement already satisfied: matplotlib<3.9,>=3.2 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (3.7.1)
Requirement already satisfied: pydantic>=2 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (2.7.2)
Requirement already satisfied: PyYAML<6.1,>=5.0.0 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (6.0.1)
Requirement already satisfied: jinja2<3.2,>=2.11.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (3.1.4)
Collecting visions[type_image_path]<0.7.7,>=0.7.5 (from ydata-profiling)
  Downloading visions-0.7.6-py3-none-any.whl (104 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 104.8/104.8 kB 12.2 MB/s eta 0:00:00
Requirement already satisfied: numpy<2,>=1.16.0 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (1.25.2)
Collecting htmlmin==0.1.12 (from ydata-profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py) ... done
Collecting phik<0.13,>=0.11.1 (from ydata-profiling)
  Downloading phik-0.12.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (686 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 686.1/686.1 kB 41.8 MB/s eta 0:00:00
Requirement already satisfied: requests<3,>=2.24.0 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (2.31.0)
Requirement already satisfied: tqdm<5,>=4.48.2 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (4.66.4)
Requirement already satisfied: seaborn<0.14,>=0.10.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (0.13.1)
Collecting multimethod<2,>=1.4 (from ydata-profiling)
  Downloading multimethod-1.11.2-py3-none-any.whl (10 kB)
Requirement already satisfied: statsmodels<1,>=0.13.2 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (0.14.2)
Collecting typeguard<5,>=3 (from ydata-profiling)
  Downloading typeguard-4.3.0-py3-none-any.whl (35 kB)
Collecting imagehash==4.3.1 (from ydata-profiling)
  Downloading ImageHash-4.3.1-py2.py3-none-any.whl (296 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 296.5/296.5 kB 26.8 MB/s eta 0:00:00
Requirement already satisfied: wordcloud>=1.9.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (1.9.3)
Collecting dacite>=1.8 (from ydata-profiling)
  Downloading dacite-1.8.1-py3-none-any.whl (14 kB)
Requirement already satisfied: numba<1,>=0.56.0 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (0.58.1)
Requirement already satisfied: PyWavelets in /usr/local/lib/python3.10/dist-packages (from imagehash==4.3.1->ydata-profiling) (1.6.0)
Requirement already satisfied: pillow in /usr/local/lib/python3.10/dist-packages (from imagehash==4.3.1->ydata-profiling) (9.4.0)
Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.10/dist-packages (from jinja2<3.2,>=2.11.1->ydata-profiling) (2.1.5)
Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (1.2.1)
Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (0.12.1)
Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (4.52.4)
Requirement already satisfied: kiwisolver>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (1.4.5)
Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (24.0)
Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (3.1.2)
Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (2.8.2)
Requirement already satisfied: llvmlite<0.42,>=0.41.0dev0 in /usr/local/lib/python3.10/dist-packages (from numba<1,>=0.56.0->ydata-profiling) (0.41.1)
Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.10/dist-packages (from pandas!=1.4.0,<3,>1.1->ydata-profiling) (2023.4)
Requirement already satisfied: tzdata>=2022.1 in /usr/local/lib/python3.10/dist-packages (from pandas!=1.4.0,<3,>1.1->ydata-profiling) (2024.1)
Requirement already satisfied: joblib>=0.14.1 in /usr/local/lib/python3.10/dist-packages (from phik<0.13,>=0.11.1->ydata-profiling) (1.4.2)
Requirement already satisfied: annotated-types>=0.4.0 in /usr/local/lib/python3.10/dist-packages (from pydantic>=2->ydata-profiling) (0.7.0)
Requirement already satisfied: pydantic-core==2.18.3 in /usr/local/lib/python3.10/dist-packages (from pydantic>=2->ydata-profiling) (2.18.3)
Requirement already satisfied: typing-extensions>=4.6.1 in /usr/local/lib/python3.10/dist-packages (from pydantic>=2->ydata-profiling) (4.12.0)
Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests<3,>=2.24.0->ydata-profiling) (3.3.2)
Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests<3,>=2.24.0->ydata-profiling) (3.7)
Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests<3,>=2.24.0->ydata-profiling) (2.0.7)
Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests<3,>=2.24.0->ydata-profiling) (2024.2.2)
Requirement already satisfied: patsy>=0.5.6 in /usr/local/lib/python3.10/dist-packages (from statsmodels<1,>=0.13.2->ydata-profiling) (0.5.6)
Requirement already satisfied: attrs>=19.3.0 in /usr/local/lib/python3.10/dist-packages (from visions[type_image_path]<0.7.7,>=0.7.5->ydata-profiling) (23.2.0)
Requirement already satisfied: networkx>=2.4 in /usr/local/lib/python3.10/dist-packages (from visions[type_image_path]<0.7.7,>=0.7.5->ydata-profiling) (3.3)
Requirement already satisfied: six in /usr/local/lib/python3.10/dist-packages (from patsy>=0.5.6->statsmodels<1,>=0.13.2->ydata-profiling) (1.16.0)
Building wheels for collected packages: htmlmin
  Building wheel for htmlmin (setup.py) ... done
  Created wheel for htmlmin: filename=htmlmin-0.1.12-py3-none-any.whl size=27080 sha256=28b05d0254387fb0f72e8dfdea69043d2bb291fa0d90f1f17ceb07e1c16bfae2
  Stored in directory: /root/.cache/pip/wheels/dd/91/29/a79cecb328d01739e64017b6fb9a1ab9d8cb1853098ec5966d
Successfully built htmlmin
Installing collected packages: htmlmin, typeguard, multimethod, dacite, imagehash, visions, phik, ydata-profiling
Successfully installed dacite-1.8.1 htmlmin-0.1.12 imagehash-4.3.1 multimethod-1.11.2 phik-0.12.4 typeguard-4.3.0 visions-0.7.6 ydata-profiling-4.8.3

# Cargo las bibliotecas necesarias
import numpy as np
import pandas as pd
import seaborn as sns
import random
import matplotlib.pyplot as plt
from ydata_profiling import ProfileReport

# Importo mi base de datos

df=pd.read_csv('/content/BD Bosque Secundario Florencia.csv')
print(df)

      Identificador de experimento        Nombre del experimento  \
0                                8  Bosque secundario Florencia    
1                                8  Bosque secundario Florencia    
2                                8  Bosque secundario Florencia    
3                                8  Bosque secundario Florencia    
4                                8  Bosque secundario Florencia    
...                            ...                           ...   
9072                             8  Bosque secundario Florencia    
9073                             8  Bosque secundario Florencia    
9074                             8  Bosque secundario Florencia    
9075                             8  Bosque secundario Florencia    
9076                             8  Bosque secundario Florencia    

     Nombre del bosque  Area_bosque_ha  Registro de la parcela  Parcela  \
0                CATIE              30                     118        1   
1                CATIE              30                     118        1   
2                CATIE              30                     118        1   
3                CATIE              30                     118        1   
4                CATIE              30                     118        1   
...                ...             ...                     ...      ...   
9072             CATIE              30                     129       12   
9073             CATIE              30                     129       12   
9074             CATIE              30                     129       12   
9075             CATIE              30                     129       12   
9076             CATIE              30                     129       12   

             Nombre de la parcela  Altitud de la parcela      y_WGS     x_WGS  \
0     Bosque secundario Florencia                    715 -83.671481  9.881741   
1     Bosque secundario Florencia                    715 -83.671481  9.881741   
2     Bosque secundario Florencia                    715 -83.671481  9.881741   
3     Bosque secundario Florencia                    715 -83.671481  9.881741   
4     Bosque secundario Florencia                    715 -83.671481  9.881741   
...                           ...                    ...        ...       ...   
9072  Bosque secundario Florencia                    598 -83.661325  9.874750   
9073  Bosque secundario Florencia                    598 -83.661325  9.874750   
9074  Bosque secundario Florencia                    598 -83.661325  9.874750   
9075  Bosque secundario Florencia                    598 -83.661325  9.874750   
9076  Bosque secundario Florencia                    598 -83.661325  9.874750   

      ...   Especie  Forma de vida Identificador  subparcela numero_arbol eje  \
0     ...  meiantha              7         46196           0            1   1   
1     ...  elastica              7         46197           0            2   1   
2     ...  lucidula              7         46198           0            3   1   
3     ...  pubivena              7         46199           0            4   1   
4     ...   pinnata              7         46200           0            5   1   
...   ...       ...            ...           ...         ...          ...  ..   
9072  ...  insignis              2         50343          44            7   1   
9073  ...  koschnyi              7         50344          44            8   1   
9074  ...  koschnyi              7         50345          44            9   1   
9075  ...  insignis              2         50346          44           10   1   
9076  ...  pubivena              7         50347          44           11   1   

     Identificador de fecha de medicion numero_medicion       Fecha  dap (mm)  
0                                   574               1  14/02/2018     570.0  
1                                   574               1  14/02/2018     157.0  
2                                   574               1  14/02/2018      57.0  
3                                   574               1  14/02/2018      90.0  
4                                   574               1  14/02/2018     103.0  
...                                 ...             ...         ...       ...  
9072                                678               3  23/11/2020      54.0  
9073                                678               3  23/11/2020      11.0  
9074                                678               3  23/11/2020      35.0  
9075                                678               3  23/11/2020      32.0  
9076                                678               3  23/11/2020      59.0  

[9077 rows x 27 columns]

# Selecciono solo las columnas que me sean útiles

print("Antes:", df.columns, "\n")

df = df[['Parcela', 'Genero', 'Especie', 'Forma de vida', 'subparcela','numero_arbol', 'eje', 'numero_medicion', 'dap (mm)']]

print("Después:", df.columns)
print(df)

Antes: Index(['Identificador de experimento', 'Nombre del experimento',
       'Nombre del bosque', 'Area_bosque_ha', 'Registro de la parcela',
       'Parcela', 'Nombre de la parcela', 'Altitud de la parcela', 'y_WGS',
       'x_WGS', 'lat_CRTM05', 'long_CRTM05', 'Tratamiento', 'Area_parcela_ha',
       'Cod_sp', 'Familia', 'Genero', 'Especie', 'Forma de vida',
       'Identificador', 'subparcela', 'numero_arbol', 'eje',
       'Identificador de fecha de medicion', 'numero_medicion', 'Fecha',
       'dap (mm)'],
      dtype='object') 

Después: Index(['Parcela', 'Genero', 'Especie', 'Forma de vida', 'subparcela',
       'numero_arbol', 'eje', 'numero_medicion', 'dap (mm)'],
      dtype='object')
      Parcela      Genero   Especie  Forma de vida  subparcela  numero_arbol  \
0           1  Goethalsia  meiantha              7           0             1   
1           1    Castilla  elastica              7           0             2   
2           1      Cordia  lucidula              7           0             3   
3           1     Sorocea  pubivena              7           0             4   
4           1      Amyris   pinnata              7           0             5   
...       ...         ...       ...            ...         ...           ...   
9072       12      Ruagea  insignis              2          44             7   
9073       12      Virola  koschnyi              7          44             8   
9074       12      Virola  koschnyi              7          44             9   
9075       12      Ruagea  insignis              2          44            10   
9076       12     Sorocea  pubivena              7          44            11   

      eje  numero_medicion  dap (mm)  
0       1                1     570.0  
1       1                1     157.0  
2       1                1      57.0  
3       1                1      90.0  
4       1                1     103.0  
...   ...              ...       ...  
9072    1                3      54.0  
9073    1                3      11.0  
9074    1                3      35.0  
9075    1                3      32.0  
9076    1                3      59.0  

[9077 rows x 9 columns]

# Modificar las columas

# Creo un identificador único por individuo

df['ID'] = 'IND' + '_' + df['Parcela'].astype(str) + '_' + df['subparcela'].astype(str) + '_' + df['numero_arbol'].astype(str)

# Creo un identificador único por eje

df['ID_eje'] = 'IND' + '_' + df['Parcela'].astype(str) + '_' + df['subparcela'].astype(str) + '_' + df['numero_arbol'].astype(str) + '_' + df['eje'].astype(str)

# Uno las columnas de género y especie para tener el nombre completo

df['nombre_cientifico'] = df['Genero'] + ' ' + df['Especie']

print(df)

      Parcela      Genero   Especie  Forma de vida  subparcela  numero_arbol  \
0           1  Goethalsia  meiantha              7           0             1   
1           1    Castilla  elastica              7           0             2   
2           1      Cordia  lucidula              7           0             3   
3           1     Sorocea  pubivena              7           0             4   
4           1      Amyris   pinnata              7           0             5   
...       ...         ...       ...            ...         ...           ...   
9072       12      Ruagea  insignis              2          44             7   
9073       12      Virola  koschnyi              7          44             8   
9074       12      Virola  koschnyi              7          44             9   
9075       12      Ruagea  insignis              2          44            10   
9076       12     Sorocea  pubivena              7          44            11   

      eje  numero_medicion  dap (mm)            ID          ID_eje  \
0       1                1     570.0     IND_1_0_1     IND_1_0_1_1   
1       1                1     157.0     IND_1_0_2     IND_1_0_2_1   
2       1                1      57.0     IND_1_0_3     IND_1_0_3_1   
3       1                1      90.0     IND_1_0_4     IND_1_0_4_1   
4       1                1     103.0     IND_1_0_5     IND_1_0_5_1   
...   ...              ...       ...           ...             ...   
9072    1                3      54.0   IND_12_44_7   IND_12_44_7_1   
9073    1                3      11.0   IND_12_44_8   IND_12_44_8_1   
9074    1                3      35.0   IND_12_44_9   IND_12_44_9_1   
9075    1                3      32.0  IND_12_44_10  IND_12_44_10_1   
9076    1                3      59.0  IND_12_44_11  IND_12_44_11_1   

        nombre_cientifico  
0     Goethalsia meiantha  
1       Castilla elastica  
2         Cordia lucidula  
3        Sorocea pubivena  
4          Amyris pinnata  
...                   ...  
9072      Ruagea insignis  
9073      Virola koschnyi  
9074      Virola koschnyi  
9075      Ruagea insignis  
9076     Sorocea pubivena  

[9077 rows x 12 columns]

# Identifico los DAP con valores igual a cero en mi base de datos
valores_cero = df['dap (mm)'] == 0
conteo_cero = df.loc[valores_cero, ['ID_eje', 'numero_medicion']].value_counts()

print(conteo_cero)

ID_eje          numero_medicion
IND_10_10_3_1   2                  1
IND_2_31_8_2    2                  1
IND_6_24_7_1    2                  1
IND_6_24_3_1    2                  1
IND_6_23_5_1    1                  1
                                  ..
IND_11_43_11_1  3                  1
IND_11_43_10_1  3                  1
IND_11_42_3_1   2                  1
IND_11_42_1_1   2                  1
IND_9_4_9_1     2                  1
Name: count, Length: 417, dtype: int64

# Identifico los DAP con valores NA en mi base de datos
valores_nulos = df['dap (mm)'].isna()
conteo_nulos = df.loc[valores_nulos, ['ID_eje', 'numero_medicion']].value_counts()

print(conteo_nulos)

ID_eje         numero_medicion
IND_1_10_2_1   2                  1
IND_1_13_3_2   2                  1
IND_1_1_1_2    1                  1
IND_1_1_7_1    2                  1
IND_1_23_3_1   2                  1
IND_1_30_1_1   2                  1
IND_1_3_6_1    1                  1
IND_7_41_6_1   3                  1
IND_8_0_3_4    2                  1
IND_8_3_12_1   2                  1
IND_8_41_6_1   3                  1
IND_9_10_21_1  2                  1
IND_9_33_10_1  2                  1
Name: count, dtype: int64

# Elimino los registros con DAP igual a cero, ya que son indicativos de que el árbol murió

df = df[df['dap (mm)'] != 0]

# Crear una columna "reparado" para almacenar los resultados reparados
df['reparado'] = None

# Aplicamos las condicionales para establecer las reglas o decisiones que establecimos anteriormente
for index, row in df[valores_nulos].iterrows():
    ID_eje = row['ID_eje']
    num_medicion = row['numero_medicion']     # Especifico que quiero que tome en cuenta las columnas de ID_eje y numero_medicion

    if num_medicion in [1, 3]:
        df.at[index, 'reparado'] = False    # Primera regla
    elif num_medicion == 2:
        # Segunda regla: verificar si hay valores en numero_medicion 1 y 3 para el mismo ID_eje
        valor_1 = df[(df['ID_eje'] == ID_eje) & (df['numero_medicion'] == 1)]['dap (mm)'].values
        valor_3 = df[(df['ID_eje'] == ID_eje) & (df['numero_medicion'] == 3)]['dap (mm)'].values

        if len(valor_1) > 0 and not pd.isna(valor_1[0]) and len(valor_3) > 0 and not pd.isna(valor_3[0]):
            df.at[index, 'reparado'] = True
        else:
            df.at[index, 'reparado'] = False   # Tercera regla

<ipython-input-9-8b19e9b31009>:5: UserWarning: Boolean Series key will be reindexed to match DataFrame index.
  for index, row in df[valores_nulos].iterrows():

# Verificamos la columna "reparado" en los ID que tenían NA en la columna dap (mm)
conteo_reparados = df.loc[valores_nulos, ['ID_eje', 'numero_medicion', 'reparado']].value_counts()

print(conteo_reparados)

ID_eje         numero_medicion  reparado
IND_1_10_2_1   2                True        1
IND_1_13_3_2   2                True        1
IND_1_1_1_2    1                False       1
IND_1_1_7_1    2                True        1
IND_1_23_3_1   2                False       1
IND_1_30_1_1   2                True        1
IND_1_3_6_1    1                False       1
IND_7_41_6_1   3                False       1
IND_8_0_3_4    2                False       1
IND_8_3_12_1   2                False       1
IND_8_41_6_1   3                False       1
IND_9_10_21_1  2                False       1
IND_9_33_10_1  2                False       1
Name: count, dtype: int64

# Reparados los valores NA que hayan tenido "True" en la columna de reparado
for index, row in df[valores_nulos].iterrows():
    ID_eje = row['ID_eje']
    num_medicion = row['numero_medicion']

    if num_medicion in [1, 3]:
        df.at[index, 'reparado'] = False
    elif num_medicion == 2:
        # Verificar si hay valores en numero_medicion 1 y 3 para el mismo id_eje
        valor_1 = df[(df['ID_eje'] == ID_eje) & (df['numero_medicion'] == 1)]['dap (mm)'].values
        valor_3 = df[(df['ID_eje'] == ID_eje) & (df['numero_medicion'] == 3)]['dap (mm)'].values

        if len(valor_1) > 0 and not pd.isna(valor_1[0]) and len(valor_3) > 0 and not pd.isna(valor_3[0]):
            df.at[index, 'reparado'] = True
            # Calcular el promedio
            promedio = (valor_1[0] + valor_3[0]) / 2
            df.at[index, 'dap (mm)'] = promedio
        else:
            df.at[index, 'reparado'] = False

# Eliminamos los registros que obtuvieron "False" en la columna 'reparado'
df = df[df['reparado'] != False]

<ipython-input-11-c2cb66d34907>:2: UserWarning: Boolean Series key will be reindexed to match DataFrame index.
  for index, row in df[valores_nulos].iterrows():

# Mostrar los registros corregidos
corregidos = df[df['reparado'] == True][['ID_eje', 'numero_medicion', 'dap (mm)']]
print("Registros corregidos:")
print(corregidos)

Registros corregidos:
            ID_eje  numero_medicion  dap (mm)
3061   IND_1_1_7_1                2      22.5
3098  IND_1_10_2_1                2     101.0
3120  IND_1_13_3_2                2     103.0
3192  IND_1_30_1_1                2     455.0

# Verifico si la corrección fue correctamente aplicada a uno de los individuos corregidos
filtro_individual = df[df['ID_eje'] == 'IND_1_1_7_1'][['numero_medicion', 'dap (mm)']]
print(filtro_individual)

      numero_medicion  dap (mm)
1445                1      22.0
3061                2      22.5
6307                3      23.0

# Crear la columna dap_total con ceros iniciales
df['dap_total'] = 0

# Agrupar por las columnas ID y número de medicion y sumar los ejes
grouped = df.groupby(['ID', 'numero_medicion'])['dap (mm)'].sum().reset_index()
grouped.rename(columns={'dap (mm)': 'dap_total'}, inplace=True)

# Merge con el df original
df = df.merge(grouped, on=['ID', 'numero_medicion'], how='left', suffixes=('', '_total'))

# Muestro el resultado de un individuo con más de un eje para comprobar que los resultados están bien
ind_multiples_ejes = df[df['ID'] == 'IND_3_22_1']
print(ind_multiples_ejes)

      Parcela  Genero    Especie  Forma de vida  subparcela  numero_arbol  \
231         3  Ocotea  rivularis              7          22             1   
232         3  Ocotea  rivularis              7          22             1   
233         3  Ocotea  rivularis              7          22             1   
234         3  Ocotea  rivularis              7          22             1   
3581        3  Ocotea  rivularis              7          22             1   
3582        3  Ocotea  rivularis              7          22             1   
3583        3  Ocotea  rivularis              7          22             1   
3584        3  Ocotea  rivularis              7          22             1   
6563        3  Ocotea  rivularis              7          22             1   
6564        3  Ocotea  rivularis              7          22             1   
6565        3  Ocotea  rivularis              7          22             1   
6566        3  Ocotea  rivularis              7          22             1   

      eje  numero_medicion  dap (mm)          ID        ID_eje  \
231     1                1     256.0  IND_3_22_1  IND_3_22_1_1   
232     2                1     126.0  IND_3_22_1  IND_3_22_1_2   
233     3                1     102.0  IND_3_22_1  IND_3_22_1_3   
234     4                1     101.0  IND_3_22_1  IND_3_22_1_4   
3581    1                2     257.0  IND_3_22_1  IND_3_22_1_1   
3582    2                2     150.0  IND_3_22_1  IND_3_22_1_2   
3583    3                2     133.0  IND_3_22_1  IND_3_22_1_3   
3584    4                2     120.0  IND_3_22_1  IND_3_22_1_4   
6563    1                3     263.0  IND_3_22_1  IND_3_22_1_1   
6564    2                3     164.0  IND_3_22_1  IND_3_22_1_2   
6565    3                3     151.0  IND_3_22_1  IND_3_22_1_3   
6566    4                3     131.0  IND_3_22_1  IND_3_22_1_4   

     nombre_cientifico reparado  dap_total  dap_total_total  
231   Ocotea rivularis     None          0            585.0  
232   Ocotea rivularis     None          0            585.0  
233   Ocotea rivularis     None          0            585.0  
234   Ocotea rivularis     None          0            585.0  
3581  Ocotea rivularis     None          0            660.0  
3582  Ocotea rivularis     None          0            660.0  
3583  Ocotea rivularis     None          0            660.0  
3584  Ocotea rivularis     None          0            660.0  
6563  Ocotea rivularis     None          0            709.0  
6564  Ocotea rivularis     None          0            709.0  
6565  Ocotea rivularis     None          0            709.0  
6566  Ocotea rivularis     None          0            709.0

# Elimino columna de dap_total
df = df.drop(columns=['dap_total'])


# Elimino elementos duplicados basado en el ID, numero_medicion y dap_total_total
df = df.drop_duplicates(subset=['ID', 'numero_medicion', 'dap_total_total'])

# Le cambio el nombre a la columna dap_total_total
df = df.rename(columns={'dap_total_total': 'dap_cm'})

print(df)

      Parcela      Genero   Especie  Forma de vida  subparcela  numero_arbol  \
0           1  Goethalsia  meiantha              7           0             1   
1           1    Castilla  elastica              7           0             2   
2           1      Cordia  lucidula              7           0             3   
3           1     Sorocea  pubivena              7           0             4   
4           1      Amyris   pinnata              7           0             5   
...       ...         ...       ...            ...         ...           ...   
8646       12      Ruagea  insignis              2          44             7   
8647       12      Virola  koschnyi              7          44             8   
8648       12      Virola  koschnyi              7          44             9   
8649       12      Ruagea  insignis              2          44            10   
8650       12     Sorocea  pubivena              7          44            11   

      eje  numero_medicion  dap (mm)            ID          ID_eje  \
0       1                1     570.0     IND_1_0_1     IND_1_0_1_1   
1       1                1     157.0     IND_1_0_2     IND_1_0_2_1   
2       1                1      57.0     IND_1_0_3     IND_1_0_3_1   
3       1                1      90.0     IND_1_0_4     IND_1_0_4_1   
4       1                1     103.0     IND_1_0_5     IND_1_0_5_1   
...   ...              ...       ...           ...             ...   
8646    1                3      54.0   IND_12_44_7   IND_12_44_7_1   
8647    1                3      11.0   IND_12_44_8   IND_12_44_8_1   
8648    1                3      35.0   IND_12_44_9   IND_12_44_9_1   
8649    1                3      32.0  IND_12_44_10  IND_12_44_10_1   
8650    1                3      59.0  IND_12_44_11  IND_12_44_11_1   

        nombre_cientifico reparado  dap_cm  
0     Goethalsia meiantha     None   570.0  
1       Castilla elastica     None   157.0  
2         Cordia lucidula     None    57.0  
3        Sorocea pubivena     None    90.0  
4          Amyris pinnata     None   103.0  
...                   ...      ...     ...  
8646      Ruagea insignis     None    54.0  
8647      Virola koschnyi     None    11.0  
8648      Virola koschnyi     None    35.0  
8649      Ruagea insignis     None    32.0  
8650     Sorocea pubivena     None    59.0  

[8365 rows x 14 columns]

# Verifico nuevamente el ID con ejes múltiples para verificar que no hay duplicados

ind_multiples_ejescm = df[df['ID'] == 'IND_3_22_1']
print(ind_multiples_ejescm)

      Parcela  Genero    Especie  Forma de vida  subparcela  numero_arbol  \
231         3  Ocotea  rivularis              7          22             1   
3581        3  Ocotea  rivularis              7          22             1   
6563        3  Ocotea  rivularis              7          22             1   

      eje  numero_medicion  dap (mm)          ID        ID_eje  \
231     1                1     256.0  IND_3_22_1  IND_3_22_1_1   
3581    1                2     257.0  IND_3_22_1  IND_3_22_1_1   
6563    1                3     263.0  IND_3_22_1  IND_3_22_1_1   

     nombre_cientifico reparado  dap_cm  
231   Ocotea rivularis     None   585.0  
3581  Ocotea rivularis     None   660.0  
6563  Ocotea rivularis     None   709.0

# Divido entre 10 para convertir los milímetros a centímetros
df['dap_cm'] = df['dap_cm'] / 10
print(df)

      Parcela      Genero   Especie  Forma de vida  subparcela  numero_arbol  \
0           1  Goethalsia  meiantha              7           0             1   
1           1    Castilla  elastica              7           0             2   
2           1      Cordia  lucidula              7           0             3   
3           1     Sorocea  pubivena              7           0             4   
4           1      Amyris   pinnata              7           0             5   
...       ...         ...       ...            ...         ...           ...   
8646       12      Ruagea  insignis              2          44             7   
8647       12      Virola  koschnyi              7          44             8   
8648       12      Virola  koschnyi              7          44             9   
8649       12      Ruagea  insignis              2          44            10   
8650       12     Sorocea  pubivena              7          44            11   

      eje  numero_medicion  dap (mm)            ID          ID_eje  \
0       1                1     570.0     IND_1_0_1     IND_1_0_1_1   
1       1                1     157.0     IND_1_0_2     IND_1_0_2_1   
2       1                1      57.0     IND_1_0_3     IND_1_0_3_1   
3       1                1      90.0     IND_1_0_4     IND_1_0_4_1   
4       1                1     103.0     IND_1_0_5     IND_1_0_5_1   
...   ...              ...       ...           ...             ...   
8646    1                3      54.0   IND_12_44_7   IND_12_44_7_1   
8647    1                3      11.0   IND_12_44_8   IND_12_44_8_1   
8648    1                3      35.0   IND_12_44_9   IND_12_44_9_1   
8649    1                3      32.0  IND_12_44_10  IND_12_44_10_1   
8650    1                3      59.0  IND_12_44_11  IND_12_44_11_1   

        nombre_cientifico reparado  dap_cm  
0     Goethalsia meiantha     None    57.0  
1       Castilla elastica     None    15.7  
2         Cordia lucidula     None     5.7  
3        Sorocea pubivena     None     9.0  
4          Amyris pinnata     None    10.3  
...                   ...      ...     ...  
8646      Ruagea insignis     None     5.4  
8647      Virola koschnyi     None     1.1  
8648      Virola koschnyi     None     3.5  
8649      Ruagea insignis     None     3.2  
8650     Sorocea pubivena     None     5.9  

[8365 rows x 14 columns]

# Verifico el registro reparado en cm
ind_multiples_ejescm = df[df['ID'] == 'IND_3_22_1']
print(ind_multiples_ejescm)

      Parcela  Genero    Especie  Forma de vida  subparcela  numero_arbol  \
231         3  Ocotea  rivularis              7          22             1   
3581        3  Ocotea  rivularis              7          22             1   
6563        3  Ocotea  rivularis              7          22             1   

      eje  numero_medicion  dap (mm)          ID        ID_eje  \
231     1                1     256.0  IND_3_22_1  IND_3_22_1_1   
3581    1                2     257.0  IND_3_22_1  IND_3_22_1_1   
6563    1                3     263.0  IND_3_22_1  IND_3_22_1_1   

     nombre_cientifico reparado  dap_cm  
231   Ocotea rivularis     None    58.5  
3581  Ocotea rivularis     None    66.0  
6563  Ocotea rivularis     None    70.9

# Elimino columnas
df = df.drop(columns=['eje', 'ID_eje', 'dap (mm)', 'reparado'])

print('Columnas actuales:', df.columns)

Columnas actuales: Index(['Parcela', 'Genero', 'Especie', 'Forma de vida', 'subparcela',
       'numero_arbol', 'numero_medicion', 'ID', 'nombre_cientifico', 'dap_cm'],
      dtype='object')

# Creamos el informe con pandas-profiling
nombre = "Bosque Florencia"
profile = ProfileReport(df, title=nombre, explorative=True)

# Mostrar el informe en un notebook
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

# Calculamos la frecuencia de las distitns formas de vida en mi df
frecuencia = df['Forma de vida'].value_counts()

# Calculamos los porcentajes para mejor entendimiento
porcentajes = (frecuencia / frecuencia.sum()) * 100

# Gráfico de barras
plt.figure(figsize=(10, 6))
sns.barplot(x=porcentajes.index, y=porcentajes.values, palette='viridis')
plt.title('Frecuencia de las Formas de Vida')
plt.xlabel('Forma de Vida')
plt.ylabel('Porcentaje (%)')
plt.show()

<ipython-input-22-4671fbe296f3>:9: FutureWarning: 

Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `x` variable to `hue` and set `legend=False` for the same effect.

  sns.barplot(x=porcentajes.index, y=porcentajes.values, palette='viridis')

# Riqueza de especies
# Calcular la riqueza de especies por parcela y numero_medicion
riqueza_especies = df.groupby(['Parcela', 'numero_medicion'])['nombre_cientifico'].nunique().reset_index()
riqueza_especies.columns = ['Parcela', 'numero_medicion', 'riqueza_especies']

print(riqueza_especies)

    Parcela  numero_medicion  riqueza_especies
0         1                1                37
1         1                2                36
2         1                3                37
3         2                1                29
4         2                2                30
5         2                3                30
6         3                1                44
7         3                2                43
8         3                3                42
9         4                1                42
10        4                2                40
11        4                3                39
12        5                1                54
13        5                2                54
14        5                3                53
15        6                1                47
16        6                2                46
17        6                3                46
18        7                1                50
19        7                2                52
20        7                3                55
21        8                1                40
22        8                2                39
23        8                3                40
24        9                1                57
25        9                2                57
26        9                3                59
27       10                1                50
28       10                2                42
29       10                3                47
30       11                1                46
31       11                2                46
32       11                3                47
33       12                1                49
34       12                2                48
35       12                3                49

# Riqueza de especies
# Creo diferentes estilos de líneas para diferenciar las parcelas
linestyles = ['-', '--', '-.', ':', '-', '--', '-.', ':', '-', '--', '-.', ':']
markers = ['o', 's', 'D', '^', 'v', '<', '>', 'p', 'h', '8', '*', 'X']

# Defino los colores
palette = sns.color_palette("husl", len(riqueza_especies['Parcela'].unique()))

# Creo el gráfico
plt.figure(figsize=(12, 8))
for i, (parcela, group) in enumerate(riqueza_especies.groupby('Parcela')):
    sns.lineplot(data=group, x='numero_medicion', y='riqueza_especies', marker=markers[i], linestyle=linestyles[i],
                 label=parcela, color=palette[i])

plt.title('Riqueza de especies por parcela a través del tiempo')
plt.xlabel('Número de medición')
plt.ylabel('Riqueza de especies')
plt.legend(title='Parcela')
plt.grid(True)

# Índice de Diversidad de Shannon

# Calcular el índice de Shannon para cada parcela y numero_medicion
def shannon_index(group):
    proportions = group.value_counts(normalize=True)
    return -sum(proportions * np.log(proportions))

shannon_diversity = df.groupby(['Parcela', 'numero_medicion'])['nombre_cientifico'].apply(shannon_index).reset_index()

shannon_diversity.columns = ['Parcela', 'numero_medicion', 'shannon_index']

print(shannon_diversity)

    Parcela  numero_medicion  shannon_index
0         1                1       2.661694
1         1                2       2.672911
2         1                3       2.695538
3         2                1       2.341219
4         2                2       2.367814
5         2                3       2.425674
6         3                1       3.231613
7         3                2       3.228367
8         3                3       3.198772
9         4                1       3.348448
10        4                2       3.297483
11        4                3       3.265917
12        5                1       3.523031
13        5                2       3.533413
14        5                3       3.514452
15        6                1       3.192095
16        6                2       3.159595
17        6                3       3.140759
18        7                1       3.157759
19        7                2       3.223356
20        7                3       3.257773
21        8                1       2.919093
22        8                2       2.904007
23        8                3       2.888724
24        9                1       3.065676
25        9                2       3.085156
26        9                3       3.096669
27       10                1       2.803773
28       10                2       2.853916
29       10                3       2.867757
30       11                1       3.234971
31       11                2       3.165768
32       11                3       3.121807
33       12                1       3.434803
34       12                2       3.382448
35       12                3       3.363404

# Escojo la paleta de colores y diferenciación de líneas
plt.figure(figsize=(12, 8))
for i, (parcela, group) in enumerate(shannon_diversity.groupby('Parcela')):
    sns.lineplot(data=group, x='numero_medicion', y='shannon_index', marker=markers[i], linestyle=linestyles[i],
                 label=parcela, color=palette[i])

# Creo el gráfico
plt.title('Índice de Diversidad de Shannon')
plt.xlabel('Número de medición')
plt.ylabel('Índice de Diversidad de Shannon')
plt.legend(title='Parcela')
plt.grid(True)

# Número de individuos
# Agrupa por parcela y toma el número máximo
max_num_indiviudos = df.groupby('Parcela')['numero_arbol'].max().reset_index()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
sns.barplot(x='Parcela', y='numero_arbol', data=max_num_indiviudos, palette='viridis')
plt.title('Número de individuos por parcela')
plt.xlabel('Parcela')
plt.ylabel('No. Individuos')
plt.show()

<ipython-input-27-2e520ba35725>:7: FutureWarning: 

Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `x` variable to `hue` and set `legend=False` for the same effect.

  sns.barplot(x='Parcela', y='numero_arbol', data=max_num_indiviudos, palette='viridis')

# Vemos los datos del gráfico
max_num_individuos = df.groupby('Parcela')['numero_arbol'].max().reset_index()
print(max_num_individuos)

    Parcela  numero_arbol
0         1            20
1         2            22
2         3            16
3         4            19
4         5            24
5         6            25
6         7            28
7         8            22
8         9            23
9        10            29
10       11            22
11       12            17

# Diámetros en las parcelas
# Calcular el diámetro mínimo, promedio y máximo para cada parcela
diametros = df.groupby('Parcela')['dap_cm'].agg(['min', 'mean', 'max']).reset_index()

# Renombrar las columnas para mayor claridad
diametros.columns = ['Parcela', 'Diámetro mínimo (cm)', 'Diámetro promedio (cm)', 'Diámetro máximo (cm)']

# Mostrar el DataFrame resultante
print(diametros)

    Parcela  Diámetro mínimo (cm)  Diámetro promedio (cm)  \
0         1                   0.7               13.746068   
1         2                   0.5               10.936883   
2         3                   0.6               13.685937   
3         4                   0.1               13.646417   
4         5                   0.5               14.135704   
5         6                   0.1               10.219034   
6         7                   0.6               12.258529   
7         8                   0.7               13.732081   
8         9                   0.5                9.868354   
9        10                   0.6               10.224724   
10       11                   0.6               10.203091   
11       12                   0.5               13.333435   

    Diámetro máximo (cm)  
0                   91.7  
1                   80.0  
2                   79.0  
3                   75.8  
4                   81.7  
5                   60.4  
6                   73.3  
7                  106.1  
8                   61.0  
9                   80.1  
10                  91.0  
11                  94.5

# Encontrar el máximo, mínimo y promedio
# Calcular el valor mínimo del diámetro mínimo, el valor máximo del diámetro máximo y el valor promedio del diámetro promedio
valor_min_diametro_min = diametros['Diámetro mínimo (cm)'].min()
valor_max_diametro_max = diametros['Diámetro máximo (cm)'].max()
valor_prom_diametro_prom = diametros['Diámetro promedio (cm)'].mean()

print(f'Valor mínimo del diámetro mínimo (cm): {valor_min_diametro_min}')
print(f'Valor máximo del diámetro máximo (cm): {valor_max_diametro_max}')
print(f'Valor promedio del diámetro promedio (cm): {valor_prom_diametro_prom:.2f}')

Valor mínimo del diámetro mínimo (cm): 0.1
Valor máximo del diámetro máximo (cm): 106.1
Valor promedio del diámetro promedio (cm): 12.17

# Área basal
# Calcular el área basal para cada árbol
df['area_basal'] = np.pi * (df['dap_cm'] / 200) ** 2

# Calcular el área basal total por parcela y número de medición
area_basal_total = df.groupby(['Parcela', 'numero_medicion'])['area_basal'].sum().reset_index()
area_basal_total.columns = ['Parcela', 'numero_medicion', 'area_basal_total']

print(area_basal_total)

    Parcela  numero_medicion  area_basal_total
0         1                1          6.874764
1         1                2          7.241561
2         1                3          7.337370
3         2                1          6.070906
4         2                2          6.459865
5         2                3          6.622305
6         3                1          5.678742
7         3                2          5.281251
8         3                3          4.955061
9         4                1          5.348217
10        4                2          5.003114
11        4                3          4.732304
12        5                1          6.088758
13        5                2          6.180558
14        5                3          6.197104
15        6                1          4.107674
16        6                2          4.442741
17        6                3          4.627872
18        7                1          6.300415
19        7                2          5.215439
20        7                3          4.490798
21        8                1          7.190916
22        8                2          7.197110
23        8                3          7.485630
24        9                1          5.437246
25        9                2          5.034596
26        9                3          4.480501
27       10                1          5.389372
28       10                2          2.879881
29       10                3          5.258837
30       11                1          6.065030
31       11                2          4.338992
32       11                3          4.048172
33       12                1          6.470091
34       12                2          4.932245
35       12                3          5.236323

# Escojo una paleta de colores
palette = sns.color_palette("tab20", 12)

# Creo distintos estilos para diferenciar las líneas
linestyles = ['-', '--', '-.', ':', '-', '--', '-.', ':', '-', '--', '-.', ':']
markers = ['o', 's', 'D', '^', 'v', '<', '>', 'p', 'h', '8', '*', 'X']

# Crear un gráfico de líneas con la paleta de colores personalizada y estilos
plt.figure(figsize=(12, 8))
for i, (parcela, group) in enumerate(area_basal_total.groupby('Parcela')):
    sns.lineplot(data=group, x='numero_medicion', y='area_basal_total', marker=markers[i], linestyle=linestyles[i],
                 label=parcela, color=palette[i])

# Configuración del gráfico
plt.title('Área basal por parcela')
plt.xlabel('Número de medición')
plt.ylabel('Área basal (m²)')
plt.legend(title='Parcela')
plt.grid(True)

Proyecto final: Dinámica del bosque secundario Florencia, Turrialba, Costa Rica¶

Estudiante: Marcella Sarti Arellano¶

Descripción del proyecto y justificación:¶

1. Antecendentes¶

2. Descripción del problema y objetivo:¶

3. Descripción del conjunto de datos:¶

4. Procesamiento y visualización de datos:¶

Pasos previos¶

Modifico mi base de datos para crear nuevas columnas¶

Visualización de los registros del DAP¶

Corrijo datos faltantes de DAP¶

Observaciones:¶

Suma de los diámetros de los ejes de cada individuo¶

Observaciones:¶

Re ordeno y limpio mi base de datos¶

Convierto el dap de milímetros a centímetros¶

Limpiar la base de datos¶

Creación de Pandas-profiling¶

Indicadores y gráficos¶

Indicadores de biodiversidad¶

1. Formas de vida¶

2. Riqueza¶

3. Índice de diversidad de Shannon¶

Indicadores de estructura¶

Descripción de los resultados obtenidos:¶

1. Indicadores estructurales¶

2. Indicadores de biodiversidad¶

Conclusiones:¶

Bibliografía:¶