# Importar librerías para depuración, análisis exploratorio de datos y representaciones gráficas
!pip install pandas
!pip install ydata-profiling

Requirement already satisfied: pandas in /usr/local/lib/python3.10/dist-packages (2.0.3)
Requirement already satisfied: python-dateutil>=2.8.2 in /usr/local/lib/python3.10/dist-packages (from pandas) (2.8.2)
Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.10/dist-packages (from pandas) (2023.4)
Requirement already satisfied: tzdata>=2022.1 in /usr/local/lib/python3.10/dist-packages (from pandas) (2024.1)
Requirement already satisfied: numpy>=1.21.0 in /usr/local/lib/python3.10/dist-packages (from pandas) (1.25.2)
Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.10/dist-packages (from python-dateutil>=2.8.2->pandas) (1.16.0)
Collecting ydata-profiling
  Downloading ydata_profiling-4.8.3-py2.py3-none-any.whl (359 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 359.5/359.5 kB 4.6 MB/s eta 0:00:00
Requirement already satisfied: scipy<1.14,>=1.4.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (1.11.4)
Requirement already satisfied: pandas!=1.4.0,<3,>1.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (2.0.3)
Requirement already satisfied: matplotlib<3.9,>=3.2 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (3.7.1)
Requirement already satisfied: pydantic>=2 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (2.7.2)
Requirement already satisfied: PyYAML<6.1,>=5.0.0 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (6.0.1)
Requirement already satisfied: jinja2<3.2,>=2.11.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (3.1.4)
Collecting visions[type_image_path]<0.7.7,>=0.7.5 (from ydata-profiling)
  Downloading visions-0.7.6-py3-none-any.whl (104 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 104.8/104.8 kB 4.3 MB/s eta 0:00:00
Requirement already satisfied: numpy<2,>=1.16.0 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (1.25.2)
Collecting htmlmin==0.1.12 (from ydata-profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py) ... done
Collecting phik<0.13,>=0.11.1 (from ydata-profiling)
  Downloading phik-0.12.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (686 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 686.1/686.1 kB 7.8 MB/s eta 0:00:00
Requirement already satisfied: requests<3,>=2.24.0 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (2.31.0)
Requirement already satisfied: tqdm<5,>=4.48.2 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (4.66.4)
Requirement already satisfied: seaborn<0.14,>=0.10.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (0.13.1)
Collecting multimethod<2,>=1.4 (from ydata-profiling)
  Downloading multimethod-1.11.2-py3-none-any.whl (10 kB)
Requirement already satisfied: statsmodels<1,>=0.13.2 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (0.14.2)
Collecting typeguard<5,>=3 (from ydata-profiling)
  Downloading typeguard-4.3.0-py3-none-any.whl (35 kB)
Collecting imagehash==4.3.1 (from ydata-profiling)
  Downloading ImageHash-4.3.1-py2.py3-none-any.whl (296 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 296.5/296.5 kB 8.7 MB/s eta 0:00:00
Requirement already satisfied: wordcloud>=1.9.1 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (1.9.3)
Collecting dacite>=1.8 (from ydata-profiling)
  Downloading dacite-1.8.1-py3-none-any.whl (14 kB)
Requirement already satisfied: numba<1,>=0.56.0 in /usr/local/lib/python3.10/dist-packages (from ydata-profiling) (0.58.1)
Requirement already satisfied: PyWavelets in /usr/local/lib/python3.10/dist-packages (from imagehash==4.3.1->ydata-profiling) (1.6.0)
Requirement already satisfied: pillow in /usr/local/lib/python3.10/dist-packages (from imagehash==4.3.1->ydata-profiling) (9.4.0)
Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.10/dist-packages (from jinja2<3.2,>=2.11.1->ydata-profiling) (2.1.5)
Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (1.2.1)
Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (0.12.1)
Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (4.52.4)
Requirement already satisfied: kiwisolver>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (1.4.5)
Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (24.0)
Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (3.1.2)
Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.10/dist-packages (from matplotlib<3.9,>=3.2->ydata-profiling) (2.8.2)
Requirement already satisfied: llvmlite<0.42,>=0.41.0dev0 in /usr/local/lib/python3.10/dist-packages (from numba<1,>=0.56.0->ydata-profiling) (0.41.1)
Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.10/dist-packages (from pandas!=1.4.0,<3,>1.1->ydata-profiling) (2023.4)
Requirement already satisfied: tzdata>=2022.1 in /usr/local/lib/python3.10/dist-packages (from pandas!=1.4.0,<3,>1.1->ydata-profiling) (2024.1)
Requirement already satisfied: joblib>=0.14.1 in /usr/local/lib/python3.10/dist-packages (from phik<0.13,>=0.11.1->ydata-profiling) (1.4.2)
Requirement already satisfied: annotated-types>=0.4.0 in /usr/local/lib/python3.10/dist-packages (from pydantic>=2->ydata-profiling) (0.7.0)
Requirement already satisfied: pydantic-core==2.18.3 in /usr/local/lib/python3.10/dist-packages (from pydantic>=2->ydata-profiling) (2.18.3)
Requirement already satisfied: typing-extensions>=4.6.1 in /usr/local/lib/python3.10/dist-packages (from pydantic>=2->ydata-profiling) (4.12.0)
Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests<3,>=2.24.0->ydata-profiling) (3.3.2)
Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests<3,>=2.24.0->ydata-profiling) (3.7)
Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests<3,>=2.24.0->ydata-profiling) (2.0.7)
Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests<3,>=2.24.0->ydata-profiling) (2024.2.2)
Requirement already satisfied: patsy>=0.5.6 in /usr/local/lib/python3.10/dist-packages (from statsmodels<1,>=0.13.2->ydata-profiling) (0.5.6)
Requirement already satisfied: attrs>=19.3.0 in /usr/local/lib/python3.10/dist-packages (from visions[type_image_path]<0.7.7,>=0.7.5->ydata-profiling) (23.2.0)
Requirement already satisfied: networkx>=2.4 in /usr/local/lib/python3.10/dist-packages (from visions[type_image_path]<0.7.7,>=0.7.5->ydata-profiling) (3.3)
Requirement already satisfied: six in /usr/local/lib/python3.10/dist-packages (from patsy>=0.5.6->statsmodels<1,>=0.13.2->ydata-profiling) (1.16.0)
Building wheels for collected packages: htmlmin
  Building wheel for htmlmin (setup.py) ... done
  Created wheel for htmlmin: filename=htmlmin-0.1.12-py3-none-any.whl size=27080 sha256=4ec572c83550aed6f22b72ee841ac5d50f6e02e04abdb0f7a15c8e52cb95c408
  Stored in directory: /root/.cache/pip/wheels/dd/91/29/a79cecb328d01739e64017b6fb9a1ab9d8cb1853098ec5966d
Successfully built htmlmin
Installing collected packages: htmlmin, typeguard, multimethod, dacite, imagehash, visions, phik, ydata-profiling
Successfully installed dacite-1.8.1 htmlmin-0.1.12 imagehash-4.3.1 multimethod-1.11.2 phik-0.12.4 typeguard-4.3.0 visions-0.7.6 ydata-profiling-4.8.3

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from ydata_profiling import ProfileReport

# Importar datos como dataframe pandas
df = pd.read_csv('anfibios_spain.csv')

#Ver columnas del dataframe (223 columnas en el dataframe bruto, sin depurar)
df.columns

Index(['gbifID', 'accessRights', 'bibliographicCitation', 'language',
       'license', 'modified', 'publisher', 'references', 'rightsHolder',
       'type',
       ...
       'publishedByGbifRegion', 'level0Gid', 'level0Name', 'level1Gid',
       'level1Name', 'level2Gid', 'level2Name', 'level3Gid', 'level3Name',
       'iucnRedListCategory'],
      dtype='object', length=223)

#EDA inicial con ydata_Profiling
nombre = "Observaciones anfibios en España"
profile = ProfileReport(df, title=nombre, explorative=True)

# Mostrar el informe en un notebook (para Jupyter o similares)
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

profile.to_file("anfibios_España.html")

/usr/local/lib/python3.10/dist-packages/ydata_profiling/profile_report.py:363: UserWarning: Try running command: 'pip install --upgrade Pillow' to avoid ValueError
  warnings.warn(

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

# Se hace una lista con el nombre de las columnas seleccionadas y se seleccionan en 1 nuevo dataframe
headers = [
    "iucnRedListCategory" , "level0Name", "level1Name", "level2Name", "occurrenceID", "decimalLatitude", "decimalLongitude", "georeferencedDate", "species", "kingdom", "phylum", "class", "order", "family", "genus", "genericName", "acceptedScientificName"
    ]
df_seleccion = df[headers]


#Compruebo número columans y número datos antes selección
print("Antes: ", df.shape)

df = df_seleccion
print("Después: ", df.shape)

Antes:  (28716, 223)
Después:  (28716, 17)

#level1Name es la Comunidad Autónoma. La mayor división administrativa de España.
#España consta de 19 CCAA y en el dataframe aparecen más.
df["level1Name"].describe()

count               27954
unique                 34
top       Castilla y León
freq                 5508
Name: level1Name, dtype: object

#Se imprimen los nombres de las comunidades autónomas para comprobar los errores
df["level1Name"].unique()

array(['Andalucía', 'Castilla-La Mancha', 'Extremadura',
       'Castilla y León', 'Comunidad de Madrid', nan, 'Cataluña', 'Faro',
       'Occitanie', 'Comunidad Valenciana', 'Aragón',
       'Comunidad Foral de Navarra', 'Nouvelle-Aquitaine', 'La Rioja',
       'País Vasco', 'Principado de Asturias', 'Cantabria', 'Bragança',
       'Galicia', 'Vila Real', 'Guarda', 'Viana do Castelo',
       'Castelo Branco', 'Región de Murcia', 'Portalegre', 'Braga',
       'Beja', 'Ceuta y Melilla', 'Islas Baleares', 'Islas Canarias',
       'Escaldes-Engordany', 'La Massana', 'Sant Julià de Lòria',
       'Malatya', 'Évora'], dtype=object)

#Se hace un dataframe con los datos que corresponden con nombres que son CCAA de España
ccaa = ['Andalucía', 'Castilla-La Mancha', 'Extremadura', 'Castilla y León',
        'Comunidad de Madrid', 'Cataluña', 'Comunidad Valenciana', 'Aragón',
        'Comunidad Foral de Navarra', 'La Rioja', 'País Vasco',
        'Principado de Asturias', 'Cantabria', 'Galicia', 'Región de Murcia',
        'Ceuta y Melilla', 'Islas Baleares', 'Islas Canarias',
       ]
condition = df["level1Name"].isin(ccaa)
ccaa_df = df[condition]
ccaa_df

df = ccaa_df

# Se comprueba si los datos "level2Name" son correctos. España tiene 52 provincias. Coincide
df["level2Name"].describe()

count       27449
unique         52
top       Badajoz
freq         1340
Name: level2Name, dtype: object

#Se exploran las categorías de vulnerabilidad presentes en los datos
df["iucnRedListCategory"].describe()

count     27449
unique        6
top          LC
freq      23218
Name: iucnRedListCategory, dtype: object

df["iucnRedListCategory"].unique()

array(['NT', 'LC', 'VU', 'EN', 'NE', 'CR'], dtype=object)

# Convertir la variable georeferencedDate a datetime
new_df = df.copy()
new_df['georeferencedDate'] = pd.to_datetime(new_df['georeferencedDate'])

# Extraer el año y crear una nueva columna
new_df['year'] = new_df['georeferencedDate'].dt.year

# Mostrar el DataFrame
display(new_df[['year','georeferencedDate']])

df = new_df

# Información sobre tipos de datos y valores no nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 27449 entries, 0 to 28715
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   iucnRedListCategory     27449 non-null  object        
 1   level0Name              27449 non-null  object        
 2   level1Name              27449 non-null  object        
 3   level2Name              27449 non-null  object        
 4   occurrenceID            27449 non-null  int64         
 5   decimalLatitude         27449 non-null  float64       
 6   decimalLongitude        27449 non-null  float64       
 7   georeferencedDate       27449 non-null  datetime64[ns]
 8   species                 27449 non-null  object        
 9   kingdom                 27449 non-null  object        
 10  phylum                  27449 non-null  object        
 11  class                   27449 non-null  object        
 12  order                   27449 non-null  object        
 13  family                  27449 non-null  object        
 14  genus                   27449 non-null  object        
 15  genericName             27449 non-null  object        
 16  acceptedScientificName  27449 non-null  object        
 17  year                    27449 non-null  int32         
dtypes: datetime64[ns](1), float64(2), int32(1), int64(1), object(13)
memory usage: 4.9+ MB

# Encontrar duplicados, considerando todas las columnas
duplicates = df.duplicated(keep=False)  # keep=False marca todos los duplicados
print("\nFilas duplicadas:")
df[duplicates]

Filas duplicadas:

df["order"].unique()

array(['Caudata', 'Anura'], dtype=object)

df.order.describe()

count     27449
unique        2
top       Anura
freq      21268
Name: order, dtype: object

order_data = df.groupby('order').nunique()
order_data

order_fam = df.groupby('order')['family'].value_counts()

order_fam

order    family       
Anura    Ranidae          9212
         Alytidae         4014
         Bufonidae        3125
         Hylidae          1873
         Pelobatidae      1585
         Pelodytidae      1457
         Dendrobatidae       1
         Pipidae             1
Caudata  Salamandridae    6181
Name: count, dtype: int64

order_sp = df.groupby('order')['species'].value_counts()

order_sp

order    species                
Anura    Pelophylax perezi          8215
         Epidalea calamita          3079
         Alytes obstetricans        1779
         Pelobates cultripes        1585
         Pelodytes punctatus        1094
         Hyla arborea                979
         Hyla meridionalis           894
         Discoglossus galganoi       776
         Alytes cisternasii          684
         Discoglossus jeanneae       547
         Rana temporaria             470
         Rana iberica                463
         Pelodytes ibericus          363
         Alytes dickhilleni          171
         Discoglossus pictus          49
         Bufotes viridis              42
         Rana dalmatina               34
         Rana pyrenaica               25
         Alytes muletensis             6
         Pelophylax saharicus          4
         Sclerophrys mauritanica       4
         Discoglossus scovazzi         2
         Oophaga pumilio               1
         Lithobates catesbeianus       1
         Xenopus laevis                1
Caudata  Salamandra salamandra      1375
         Pleurodeles waltl          1269
         Triturus marmoratus        1015
         Lissotriton boscai          803
         Lissotriton helveticus      589
         Triturus pygmaeus           521
         Calotriton asper            344
         Chioglossa lusitanica       149
         Ichthyosaura alpestris      112
         Cynops pyrrhogaster           2
         Calotriton arnoldi            1
         Salamandra algira             1
Name: count, dtype: int64

# Contar las ocurrencias de cada valor único en la columna 'orden'
order_counts = df['order'].value_counts()
order_counts

order
Anura      21268
Caudata     6181
Name: count, dtype: int64

# Agrupar datos por orden y obtener el número total de observaciones
order_obs = df.groupby('order')['occurrenceID'].nunique()
order_obs

order
Anura      21268
Caudata     6181
Name: occurrenceID, dtype: int64

# Contar las ocurrencias de cada valor único en la columna 'orden'
order_counts = df['order'].value_counts()
order_counts

# Tamaño del gráfico
plt.figure(figsize=(6, 6))

# Crear la gráfica de pastel
plt.pie(order_counts, labels=order_counts.index, autopct='%1.1f%%')

# Título del gráfico
plt.title('Distribución de los ordenes de anfibios en España')

plt.show()

# Tamaño del gráfico
plt.figure(figsize=(6, 6))

# Agrupar datos por orden y obtener el número total de observaciones
order_counts = df.groupby('order')['occurrenceID'].nunique()

# Crear gráfico de barras
# sepal_mean.plot(kind='bar')
order_counts.plot(kind='barh')

# Título del gráfico
plt.title('Número de observaciones por Orden anfibio')

# Etiqueta del eje Y
plt.ylabel('Orden anfibio')

# Etiqueta del eje X
plt.xlabel('Número de observaciones')
plt.grid()
plt.show()

df['family'].unique()

array(['Salamandridae', 'Pipidae', 'Ranidae', 'Pelodytidae',
       'Pelobatidae', 'Hylidae', 'Alytidae', 'Dendrobatidae', 'Bufonidae'],
      dtype=object)

df['family'].describe()

count       27449
unique          9
top       Ranidae
freq         9212
Name: family, dtype: object

# Contar las ocurrencias de cada valor único en la columna 'family'
family_counts = df['family'].value_counts()
family_counts

family
Ranidae          9212
Salamandridae    6181
Alytidae         4014
Bufonidae        3125
Hylidae          1873
Pelobatidae      1585
Pelodytidae      1457
Pipidae             1
Dendrobatidae       1
Name: count, dtype: int64

# Agrupar datos por familia y obtener el número total de observaciones
family_obs = df.groupby('family')['occurrenceID'].nunique()
family_obs

family
Alytidae         4014
Bufonidae        3125
Dendrobatidae       1
Hylidae          1873
Pelobatidae      1585
Pelodytidae      1457
Pipidae             1
Ranidae          9212
Salamandridae    6181
Name: occurrenceID, dtype: int64

# Contar las ocurrencias de cada valor único en la columna 'family'
family_counts = df['family'].value_counts()
family_counts

# Tamaño del gráfico
plt.figure(figsize=(6, 6))

# Crear la gráfica de pastel
plt.pie(family_counts, labels=family_counts.index, autopct='%1.1f%%')

# Título del gráfico
plt.title('Distribución de las familias de anfibios en España')

plt.show()

# Tamaño del gráfico
plt.figure(figsize=(6, 6))

# Agrupar datos por familia y obtener el número total de observaciones
family_obs = df.groupby('family')['occurrenceID'].nunique()

# Crear gráfico de barras
# sepal_mean.plot(kind='bar')
family_obs.plot(kind='barh')

# Título del gráfico
plt.title('Número de observaciones por Familia anfibios')

# Etiqueta del eje Y
plt.ylabel('Familia anfibios')

# Etiqueta del eje X
plt.xlabel('Número de observaciones')
plt.grid()
plt.show()

df['species'].describe()

count                 27449
unique                   37
top       Pelophylax perezi
freq                   8215
Name: species, dtype: object

df['acceptedScientificName'].describe() #coincide

count                                      27449
unique                                        37
top       Pelophylax perezi (López-Seoane, 1885)
freq                                        8215
Name: acceptedScientificName, dtype: object

df['species'].unique()

array(['Triturus pygmaeus', 'Triturus marmoratus',
       'Salamandra salamandra', 'Xenopus laevis', 'Rana temporaria',
       'Salamandra algira', 'Pelophylax perezi', 'Rana pyrenaica',
       'Pelophylax saharicus', 'Rana iberica', 'Rana dalmatina',
       'Pleurodeles waltl', 'Lithobates catesbeianus',
       'Pelodytes punctatus', 'Pelodytes ibericus', 'Pelobates cultripes',
       'Ichthyosaura alpestris', 'Lissotriton helveticus',
       'Lissotriton boscai', 'Hyla meridionalis', 'Hyla arborea',
       'Calotriton asper', 'Discoglossus jeanneae',
       'Discoglossus scovazzi', 'Discoglossus galganoi',
       'Discoglossus pictus', 'Chioglossa lusitanica',
       'Cynops pyrrhogaster', 'Oophaga pumilio', 'Bufotes viridis',
       'Calotriton arnoldi', 'Epidalea calamita',
       'Sclerophrys mauritanica', 'Alytes obstetricans',
       'Alytes muletensis', 'Alytes dickhilleni', 'Alytes cisternasii'],
      dtype=object)

especie_names = df.groupby('genericName')['species'].value_counts()
especie_names

genericName   species                
Alytes        Alytes obstetricans        1779
              Alytes cisternasii          684
              Alytes dickhilleni          171
              Alytes muletensis             6
Bufo          Epidalea calamita          3079
              Bufotes viridis              42
              Sclerophrys mauritanica       4
Calotriton    Calotriton asper            180
              Calotriton arnoldi            1
Chioglossa    Chioglossa lusitanica       149
Cynops        Cynops pyrrhogaster           2
Dendrobates   Oophaga pumilio               1
Discoglossus  Discoglossus galganoi       776
              Discoglossus jeanneae       547
              Discoglossus pictus          49
              Discoglossus scovazzi         2
Euproctus     Calotriton asper            164
Hyla          Hyla arborea                979
              Hyla meridionalis           894
Lissotriton   Lissotriton boscai          803
              Lissotriton helveticus      589
Mesotriton    Ichthyosaura alpestris      112
Pelobates     Pelobates cultripes        1585
Pelodytes     Pelodytes punctatus        1094
              Pelodytes ibericus          363
Pelophylax    Pelophylax perezi          4245
Pleurodeles   Pleurodeles waltl          1269
Rana          Pelophylax perezi          3970
              Rana temporaria             470
              Rana iberica                463
              Rana dalmatina               34
              Rana pyrenaica               25
              Pelophylax saharicus          4
              Lithobates catesbeianus       1
Salamandra    Salamandra salamandra      1375
              Salamandra algira             1
Triturus      Triturus marmoratus        1015
              Triturus pygmaeus           521
Xenopus       Xenopus laevis                1
Name: count, dtype: int64

ccaa_agrupado = df.groupby('level1Name')

# Agrupar datos por provincia y obtener número de species (riqueza)
species_count = ccaa_agrupado['species'].nunique()
species_count

level1Name
Andalucía                     21
Aragón                        15
Cantabria                     11
Castilla y León               21
Castilla-La Mancha            18
Cataluña                      16
Ceuta y Melilla                7
Comunidad Foral de Navarra    18
Comunidad Valenciana           8
Comunidad de Madrid           17
Extremadura                   16
Galicia                       13
Islas Baleares                 6
Islas Canarias                 3
La Rioja                      13
País Vasco                    19
Principado de Asturias        13
Región de Murcia              11
Name: species, dtype: int64

# Crear gráfico de barras
species_count.plot(kind='barh')

# Título del gráfico
plt.title('Nº de especies por Comunidad Autónoma')

# Etiqueta del eje Y
plt.ylabel('Comunidad Autónoma')

# Etiqueta del eje X
plt.xlabel('Número de especies')
plt.grid()
plt.show()

# Comunidad autónoma con mayor número de obervaciones
# Contar las ocurrencias de cada valor único en la columna 'ccaa'
ccaa_counts = df['level1Name'].value_counts()
ccaa_counts

# Tamaño del gráfico
plt.figure(figsize=(6, 6))

# Crear la gráfica de pastel
plt.pie(ccaa_counts, labels= ccaa_counts.index, autopct='%1.1f%%')

# Título del gráfico
plt.title('Distribución de las observaciones por Comunidad Autónoma')

plt.show()

# Año con mayor número de obervaciones
# Contar las ocurrencias de cada valor único en la columna 'año'
year_counts = df['year'].value_counts()
year_counts

# Tamaño del gráfico
plt.figure(figsize=(6, 6))

# Crear la gráfica de pastel
plt.pie(year_counts, labels= year_counts.index, autopct='%1.1f%%')

# Título del gráfico
plt.title('Distribución de las observaciones por año')

plt.show()

# Crear gráfico de barras
year_counts.plot(kind='bar')

# Título del gráfico
plt.title('Nº de observaciones por año')

# Etiqueta del eje Y
plt.ylabel('Número de observaciones')

# Etiqueta del eje X
plt.xlabel('Año')
plt.grid()
plt.show()

year_agrupado = df.groupby('year')
year_agrupado['occurrenceID'].count()

year
1934        1
1965        1
1968        1
1970        1
1971        2
1972        3
1973        1
1974        3
1975        5
1976        1
1977        6
1978        7
1979       10
1980       24
1981       11
1982        5
1983       35
1984       24
1985       35
1986       20
1987       35
1988       44
1989       23
1990      140
1991       27
1992       34
1993      221
1994      186
1995      451
1996       59
1997      246
1998      211
1999      131
2000      318
2001      606
2002    17789
2003      915
2004      586
2005     1223
2006      831
2007      545
2008      393
2009      469
2010      751
2011     1018
2024        1
Name: occurrenceID, dtype: int64

iucn_agrupado = df.groupby('iucnRedListCategory')

# Agrupar datos por código iucn y obtener número de species pertenecientes a cada categoría
iucn_especies = iucn_agrupado['species'].nunique()
iucn_especies

iucnRedListCategory
CR     1
EN     3
LC    24
NE     2
NT     4
VU     3
Name: species, dtype: int64

iucn_especies.sum() #Son 37. Es decir, ninguna especie tiene dos categorías IUCN (correcto)

37

# Agrupar datos por código iunc y obtener lista de especies pertenecientes a cada categoría
species_vulnerability = df.groupby('iucnRedListCategory')['species'].value_counts()
species_vulnerability

iucnRedListCategory  species                
CR                   Calotriton arnoldi            1
EN                   Alytes dickhilleni          171
                     Rana pyrenaica               25
                     Alytes muletensis             6
LC                   Pelophylax perezi          8215
                     Epidalea calamita          3079
                     Alytes obstetricans        1779
                     Salamandra salamandra      1375
                     Pelodytes punctatus        1094
                     Triturus marmoratus        1015
                     Hyla arborea                979
                     Hyla meridionalis           894
                     Lissotriton boscai          803
                     Discoglossus galganoi       776
                     Alytes cisternasii          684
                     Lissotriton helveticus      589
                     Discoglossus jeanneae       547
                     Rana temporaria             470
                     Pelodytes ibericus          363
                     Calotriton asper            344
                     Ichthyosaura alpestris      112
                     Discoglossus pictus          49
                     Bufotes viridis              42
                     Sclerophrys mauritanica       4
                     Discoglossus scovazzi         2
                     Lithobates catesbeianus       1
                     Xenopus laevis                1
                     Oophaga pumilio               1
NE                   Rana dalmatina               34
                     Pelophylax saharicus          4
NT                   Pleurodeles waltl          1269
                     Triturus pygmaeus           521
                     Chioglossa lusitanica       149
                     Cynops pyrrhogaster           2
VU                   Pelobates cultripes        1585
                     Rana iberica                463
                     Salamandra algira             1
Name: count, dtype: int64

especie_vul_names = df.groupby('iucnRedListCategory')['species'].value_counts()
especie_vul_names

iucnRedListCategory  species                
CR                   Calotriton arnoldi            1
EN                   Alytes dickhilleni          171
                     Rana pyrenaica               25
                     Alytes muletensis             6
LC                   Pelophylax perezi          8215
                     Epidalea calamita          3079
                     Alytes obstetricans        1779
                     Salamandra salamandra      1375
                     Pelodytes punctatus        1094
                     Triturus marmoratus        1015
                     Hyla arborea                979
                     Hyla meridionalis           894
                     Lissotriton boscai          803
                     Discoglossus galganoi       776
                     Alytes cisternasii          684
                     Lissotriton helveticus      589
                     Discoglossus jeanneae       547
                     Rana temporaria             470
                     Pelodytes ibericus          363
                     Calotriton asper            344
                     Ichthyosaura alpestris      112
                     Discoglossus pictus          49
                     Bufotes viridis              42
                     Sclerophrys mauritanica       4
                     Discoglossus scovazzi         2
                     Lithobates catesbeianus       1
                     Xenopus laevis                1
                     Oophaga pumilio               1
NE                   Rana dalmatina               34
                     Pelophylax saharicus          4
NT                   Pleurodeles waltl          1269
                     Triturus pygmaeus           521
                     Chioglossa lusitanica       149
                     Cynops pyrrhogaster           2
VU                   Pelobates cultripes        1585
                     Rana iberica                463
                     Salamandra algira             1
Name: count, dtype: int64

# Importar geopandas y geodatasets
!pip install geodatasets
import geopandas as gpd
from matplotlib import pyplot as plt

Collecting geodatasets
  Downloading geodatasets-2023.12.0-py3-none-any.whl (19 kB)
Requirement already satisfied: pooch in /usr/local/lib/python3.10/dist-packages (from geodatasets) (1.8.1)
Requirement already satisfied: platformdirs>=2.5.0 in /usr/local/lib/python3.10/dist-packages (from pooch->geodatasets) (4.2.2)
Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.10/dist-packages (from pooch->geodatasets) (24.0)
Requirement already satisfied: requests>=2.19.0 in /usr/local/lib/python3.10/dist-packages (from pooch->geodatasets) (2.31.0)
Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests>=2.19.0->pooch->geodatasets) (3.3.2)
Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests>=2.19.0->pooch->geodatasets) (3.7)
Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests>=2.19.0->pooch->geodatasets) (2.0.7)
Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests>=2.19.0->pooch->geodatasets) (2024.2.2)
Installing collected packages: geodatasets
Successfully installed geodatasets-2023.12.0

# Convertir las coordenadas a POINTS
df['coord'] = gpd.points_from_xy(df.decimalLongitude, df.decimalLatitude)
df['coord']

0        POINT (-3.97000 38.08000)
1        POINT (-4.09000 38.80000)
2        POINT (-3.29000 38.35000)
3        POINT (-4.70000 40.23000)
4        POINT (-3.40000 38.62000)
                   ...            
28709    POINT (-4.78000 38.43000)
28711     POINT (2.22000 41.77000)
28713    POINT (-4.78000 38.70000)
28714    POINT (-4.78000 38.61000)
28715     POINT (2.22000 41.95000)
Name: coord, Length: 27449, dtype: geometry

#Hago un dataframe para cada especie
df_1 = df[df.species == 'Chioglossa lusitanica']
df_2 = df[df.species == 'Salamandra salamandra']
df_3 = df[df.species == 'Triturus pygmaeus']
df_4 = df[df.species == 'Alytes muletensis']
df_5 = df[df.species == 'Bufotes viridis']
df_6 = df[df.species == 'Rana dalmatina']
df_7 = df[df.species == 'Rana temporaria']

gdfs_ES=[]
for i in range(3):
    gdf_ES = gpd.read_file(f'gadm41_ESP_{i}.shp')
    gdf_ES.plot( figsize = (10, 8))
    gdfs_ES.append(gdf_ES)

es_mapa = gdfs_ES[1]
es_mapa.plot(figsize = (8,8), edgecolor="w", linewidth=0.3)

<Axes: >

#Se incluye la geometría en un objeto
obvs_points = gpd.points_from_xy(df.decimalLongitude, df.decimalLatitude)
obvs_points

<GeometryArray>
[<POINT (-3.97 38.08)>,  <POINT (-4.09 38.8)>, <POINT (-3.29 38.35)>,
  <POINT (-4.7 40.23)>,  <POINT (-3.4 38.62)>, <POINT (-4.09 38.71)>,
 <POINT (-5.76 40.12)>, <POINT (-3.85 37.81)>, <POINT (-4.47 40.42)>,
 <POINT (-2.48 38.35)>,
 ...
  <POINT (2.22 41.86)>,  <POINT (-7.19 39.6)>, <POINT (-7.09 39.24)>,
 <POINT (-4.78 38.79)>,  <POINT (2.09 42.22)>, <POINT (-4.78 38.43)>,
  <POINT (2.22 41.77)>,  <POINT (-4.78 38.7)>, <POINT (-4.78 38.61)>,
  <POINT (2.22 41.95)>]
Length: 27449, dtype: geometry

#Se crea el geodaframe
anfibios_gdf = gpd.GeoDataFrame(df, geometry=obvs_points)

anfibios_gdf['coord']

0        POINT (-3.97000 38.08000)
1        POINT (-4.09000 38.80000)
2        POINT (-3.29000 38.35000)
3        POINT (-4.70000 40.23000)
4        POINT (-3.40000 38.62000)
                   ...            
28709    POINT (-4.78000 38.43000)
28711     POINT (2.22000 41.77000)
28713    POINT (-4.78000 38.70000)
28714    POINT (-4.78000 38.61000)
28715     POINT (2.22000 41.95000)
Name: coord, Length: 27449, dtype: geometry

#Hago un dataframe para cada especie
gdf_1 = anfibios_gdf[anfibios_gdf.species == 'Chioglossa lusitanica']
gdf_2 = anfibios_gdf[anfibios_gdf.species == 'Salamandra salamandra']
gdf_3 = anfibios_gdf[anfibios_gdf.species == 'Triturus pygmaeus']
gdf_4 = anfibios_gdf[anfibios_gdf.species == 'Alytes muletensis']
gdf_5 = anfibios_gdf[anfibios_gdf.species == 'Bufotes viridis']
gdf_6 = anfibios_gdf[anfibios_gdf.species == 'Rana dalmatina']
gdf_7 = anfibios_gdf[anfibios_gdf.species == 'Rana temporaria']

es_mapa.boundary.plot()

<Axes: >

fig, ax = plt.subplots()
es_mapa.boundary.plot(ax=ax, color='k', edgecolor='black')
gdf_1.plot(ax=ax, marker='o', color='red', markersize = 1)
ax.set_title('Distribución de Chioglossa lusitanica')

Text(0.5, 1.0, 'Distribución de Chioglossa lusitanica')

fig, ax = plt.subplots()
es_mapa.boundary.plot(ax=ax, color='k', edgecolor='black')
gdf_2.plot(ax=ax, marker='o', color='red', markersize = 1)
ax.set_title('Distribución de Salamandra salamandra')

Text(0.5, 1.0, 'Distribución de Salamandra salamandra')

fig, ax = plt.subplots()
es_mapa.boundary.plot(ax=ax, color='k', edgecolor='black')
gdf_3.plot(ax=ax, marker='o', color='red', markersize = 1)
ax.set_title('Distribución de Triturus pygmaeus')

Text(0.5, 1.0, 'Distribución de Triturus pygmaeus')

fig, ax = plt.subplots()
es_mapa.boundary.plot(ax=ax, color='k', edgecolor='black')
gdf_4.plot(ax=ax, marker='o', color='red', markersize = 1)
ax.set_title('Distribución de Alytes muletensis')

Text(0.5, 1.0, 'Distribución de Alytes muletensis')

fig, ax = plt.subplots()
es_mapa.boundary.plot(ax=ax, color='k', edgecolor='black')
gdf_5.plot(ax=ax, marker='o', color='red', markersize = 1)
ax.set_title('Distribución de Bufotes viridis')

Text(0.5, 1.0, 'Distribución de Bufotes viridis')

fig, ax = plt.subplots()
es_mapa.boundary.plot(ax=ax, color='k', edgecolor='black')
gdf_6.plot(ax=ax, marker='o', color='red', markersize = 1)
ax.set_title('Distribución de Rana dalmatina')

Text(0.5, 1.0, 'Distribución de Rana dalmatina')

fig, ax = plt.subplots()
es_mapa.boundary.plot(ax=ax, color='k', edgecolor='black')
gdf_7.plot(ax=ax, marker='o', color='red', markersize = 1)
ax.set_title('Distribución de Rana temporaria')

Text(0.5, 1.0, 'Distribución de Rana temporaria')

Proyecto de Investigación:¶

Análisis de la diversidad de anfibios en España a partir de datos de biodiversidad primarios¶

INTRODUCCIÓN¶

MATERIALES Y MÉTODOS¶

RESULTADOS Y DISCUSIÓN¶

Conclusiones¶

	iucnRedListCategory	level0Name	level1Name	level2Name	occurrenceID	decimalLatitude	decimalLongitude	georeferencedDate	species	kingdom	phylum	class	order	family	genus	genericName	acceptedScientificName
0	NT	Spain	Andalucía	Jaén	29607	38.08	-3.97	1/1/2010	Triturus pygmaeus	Animalia	Chordata	Amphibia	Caudata	Salamandridae	Triturus	Triturus	Triturus pygmaeus (Wolterstorff, 1905)
1	NT	Spain	Castilla-La Mancha	Ciudad Real	29606	38.80	-4.09	1/1/2002	Triturus pygmaeus	Animalia	Chordata	Amphibia	Caudata	Salamandridae	Triturus	Triturus	Triturus pygmaeus (Wolterstorff, 1905)
2	NT	Spain	Andalucía	Jaén	29628	38.35	-3.29	1/1/2006	Triturus pygmaeus	Animalia	Chordata	Amphibia	Caudata	Salamandridae	Triturus	Triturus	Triturus pygmaeus (Wolterstorff, 1905)
3	NT	Spain	Castilla-La Mancha	Toledo	29679	40.23	-4.70	1/1/2004	Triturus pygmaeus	Animalia	Chordata	Amphibia	Caudata	Salamandridae	Triturus	Triturus	Triturus pygmaeus (Wolterstorff, 1905)
4	NT	Spain	Castilla-La Mancha	Ciudad Real	29627	38.62	-3.40	1/1/2002	Triturus pygmaeus	Animalia	Chordata	Amphibia	Caudata	Salamandridae	Triturus	Triturus	Triturus pygmaeus (Wolterstorff, 1905)
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
28709	LC	Spain	Andalucía	Córdoba	21	38.43	-4.78	1/1/2002	Alytes cisternasii	Animalia	Chordata	Amphibia	Anura	Alytidae	Alytes	Alytes	Alytes cisternasii Boscá, 1879
28711	LC	Spain	Cataluña	Barcelona	18	41.77	2.22	1/1/2002	Alytes obstetricans	Animalia	Chordata	Amphibia	Anura	Alytidae	Alytes	Alytes	Alytes obstetricans (Laurenti, 1768)
28713	LC	Spain	Castilla-La Mancha	Ciudad Real	23	38.70	-4.78	1/1/2002	Alytes cisternasii	Animalia	Chordata	Amphibia	Anura	Alytidae	Alytes	Alytes	Alytes cisternasii Boscá, 1879
28714	LC	Spain	Castilla-La Mancha	Ciudad Real	22	38.61	-4.78	1/1/2002	Alytes cisternasii	Animalia	Chordata	Amphibia	Anura	Alytidae	Alytes	Alytes	Alytes cisternasii Boscá, 1879
28715	LC	Spain	Cataluña	Barcelona	20	41.95	2.22	1/1/2007	Alytes obstetricans	Animalia	Chordata	Amphibia	Anura	Alytidae	Alytes	Alytes	Alytes obstetricans (Laurenti, 1768)

	year	georeferencedDate
0	2010	2010-01-01
1	2002	2002-01-01
2	2006	2006-01-01
3	2004	2004-01-01
4	2002	2002-01-01
...	...	...
28709	2002	2002-01-01
28711	2002	2002-01-01
28713	2002	2002-01-01
28714	2002	2002-01-01
28715	2007	2007-01-01

	iucnRedListCategory	level0Name	level1Name	level2Name	occurrenceID	decimalLatitude	decimalLongitude	georeferencedDate	species	kingdom	phylum	class	family	genus	genericName	acceptedScientificName	year
order
Anura	4	1	18	52	21268	427	827	43	25	1	1	1	8	13	10	25	43
Caudata	4	1	16	48	6181	386	636	38	12	1	1	1	1	8	9	12	38