DataFrame

Constructor

pd.DataFrame(
    data=None, # ndarray (estructurado u homogéneo), Iterable, dict, o DataFrame
    index=None, # Índice a utilizar para el marco resultante. 
    columns=None, # Etiquetas de columna a utilizar para el marco resultante si no tienen.  RangeIndex(0, 1, 2, ..., n). 
    dtype=None, # Tipo de datos a forzar. Solo se permite un único dtype. Si es None, se inferirá.
    copy=None # Copiar datos de las entradas. Para datos dict, el valor predeterminado de None se comporta como copy=True. 
)

Atributos

  • T: La transposición del DataFrame.
  • at: Accede a un valor único para un par de etiquetas de fila/columna.
  • attrs: Diccionario de atributos globales de este conjunto de datos.
  • axes: Devuelve una lista que representa los ejes del DataFrame.
  • columns: Las etiquetas de las columnas del DataFrame.
  • dtypes: Devuelve los dtypes en el DataFrame.
  • empty: Indicador de si la Serie/DataFrame está vacío.
  • flags: Obtiene las propiedades asociadas con este objeto de pandas.
  • iat: Accede a un valor único para un par de fila/columna por posición entera.
  • iloc: (OBSOLETO) Indexación basada puramente en la ubicación entera para la selección por posición.
  • index: El índice (etiquetas de fila) del DataFrame.
  • loc: Accede a un grupo de filas y columnas por etiqueta(s) o un array booleano.
  • ndim: Devuelve un entero que representa el número de ejes/dimensiones del array.
  • shape: Devuelve una tupla que representa la dimensionalidad del DataFrame.
  • size: Devuelve un entero que representa el número de elementos en este objeto.
  • style: Devuelve un objeto Styler.
  • values: Devuelve una representación de Numpy del DataFrame.

Conversión

  • .astype(dtype[, copy, errors]) : Convierte un objeto de pandas a un tipo de datos especificado dtype.
  • .convert_dtypes[infer_objects, ...]) : Convierte columnas a los mejores tipos de datos posibles, utilizando tipos de datos que soportan pd.NA.
  • .infer_objects([copy]) : Intenta inferir mejores tipos de datos para columnas de tipo objeto.
  • .copy([deep]) : Hace una copia de los índices y datos de este objeto.
  • .bool() : (DEPRECATED) Devuelve el valor booleano de una Serie o DataFrame de un solo elemento.

Indexación e iteración

  • .head([n]) : Devuelve las primeras n filas.
  • .at: Accede a un único valor para un par etiqueta de fila/columna.
  • .iat: Accede a un único valor para un par de posición de fila/columna mediante un índice entero.
  • .loc: Accede a un grupo de filas y columnas por etiqueta(s) o un array booleano.
  • .iloc: (DEPRECATED) Indexación puramente basada en la ubicación entera para la selección por posición.
  • .insert(loc, column, value[, ...]) : Inserta una columna en el DataFrame en la ubicación especificada.
  • .__iter__() : Itera sobre el eje de información.
  • .items() : Itera sobre pares (nombre de columna, Serie).
  • .keys() : Obtiene el ‘eje de información’ (ver Indexación para más detalles).
  • .iterrows() : Itera sobre las filas del DataFrame como pares (índice, Serie).
  • .itertuples([index, name]) : Itera sobre las filas del DataFrame como namedtuples.
  • .pop(item) : Devuelve el item y lo elimina del marco.
  • .tail([n]) : Devuelve las últimas n filas.
  • .xs(key[, axis, level, drop_level]) : Devuelve una sección cruzada de la Serie/DataFrame.
  • .get(key[, default]) : Obtiene un item del objeto para una clave dada (por ejemplo, una columna del DataFrame).
  • .isin(values) : Determina si cada elemento en el DataFrame está contenido en values.
  • .where(cond[, other, inplace, ...]) : Reemplaza valores donde la condición es Falsa.
  • .mask(cond[, other, inplace, axis, ...]) : Reemplaza valores donde la condición es Verdadera.
  • .query(expr, *[, inplace]) : Consulta las columnas de un DataFrame con una expresión booleana.

Aplicación de Funciones, GroupBy y Ventanas

  • .apply(func[, axis, raw, ...]) : Aplica una función a lo largo de un eje del DataFrame.
  • .map(func[, na_action]) : Aplica una función elemento a elemento a un DataFrame.
  • .applymap(func[, na_action]) : (DEPRECATED) Aplica una función elemento a elemento a un DataFrame.
  • .pipe(func, *args, kwargs) : Aplica funciones encadenables que esperan Series o DataFrames.
  • .agg([func, axis]) : Agrega utilizando una o más operaciones sobre el eje especificado.
  • .aggregate([func, axis]) : Agrega utilizando una o más operaciones sobre el eje especificado.
  • .transform(func[, axis]) : Llama a func en sí mismo, produciendo un DataFrame con la misma forma de eje que sí mismo.
  • .groupby([by, axis, level, ...]) : Agrupa el DataFrame usando un mapeador o por una Serie de columnas.
  • .rolling(window[, min_periods, ...]) : Proporciona cálculos de ventana deslizante.
  • .expanding([min_periods, axis, method]) : Proporciona cálculos de ventana expansiva.
  • .ewm([com, span, halflife, alpha, ...]) : Proporciona cálculos ponderados exponencialmente (EW).

Cálculos / Estadísticas Descriptivas

  • .abs() : Devuelve una Serie/DataFrame con el valor numérico absoluto de cada elemento.
  • .all([axis, bool_only, skipna]) : Devuelve si todos los elementos son Verdaderos, potencialmente sobre un eje.
  • .any(*[, axis, bool_only, skipna]) : Devuelve si algún elemento es Verdadero, potencialmente sobre un eje.
  • .clip([lower, upper, axis, inplace]) : Recorta valores en los umbrales de entrada.
  • .corr([method, min_periods, ...]) : Calcula la correlación par a par de columnas, excluyendo valores NA/nulos.
  • .corrwith(other[, axis, drop, ...]) : Calcula la correlación par a par.
  • .count([axis, numeric_only]) : Cuenta celdas no-NA para cada columna o fila.
  • .cov([min_periods, ddof, numeric_only]) : Calcula la covarianza par a par de columnas, excluyendo valores NA/nulos.
  • .cummax([axis, skipna]) : Devuelve el máximo acumulativo sobre un eje de Serie o DataFrame.
  • .cummin([axis, skipna]) : Devuelve el mínimo acumulativo sobre un eje de Serie o DataFrame.
  • .cumprod([axis, skipna]) : Devuelve el producto acumulativo sobre un eje de Serie o DataFrame.
  • .cumsum([axis, skipna]) : Devuelve la suma acumulativa sobre un eje de Serie o DataFrame.
  • .describe([percentiles, include, ...]) : Genera estadísticas descriptivas.
  • .diff([periods, axis]) : Primera diferencia discreta de elemento.
  • .eval(expr, *[, inplace]) : Evalúa una cadena que describe operaciones en columnas de DataFrame.
  • .kurt([axis, skipna, numeric_only]) : Devuelve la curtosis imparcial solicitada sobre el eje.
  • .kurtosis([axis, skipna, numeric_only]) : Devuelve la curtosis imparcial sobre el eje solicitado.
  • .max([axis, skipna, numeric_only]) : Devuelve el máximo de los valores sobre el eje solicitado.
  • .mean([axis, skipna, numeric_only]) : Devuelve la media de los valores sobre el eje solicitado.
  • .median([axis, skipna, numeric_only]) : Devuelve la mediana de los valores sobre el eje solicitado.
  • .min([axis, skipna, numeric_only]) : Devuelve el mínimo de los valores sobre el eje solicitado.
  • .mode([axis, numeric_only, dropna]) : Obtiene la(s) moda(s) de cada elemento a lo largo del eje seleccionado.
  • .pct_change([periods, fill_method, ...]) : Cambio fraccional entre el elemento actual y uno anterior.
  • .prod([axis, skipna, numeric_only, ...]) : Devuelve el producto de los valores sobre el eje solicitado.
  • .product([axis, skipna, ...]) : Devuelve el producto de los valores sobre el eje solicitado.
  • .quantile([q, axis, numeric_only, ...]) : Devuelve valores en el cuantil dado sobre el eje solicitado.
  • .rank([axis, method, numeric_only, ...]) : Calcula los rangos de datos numéricos (1 a n) a lo largo del eje.
  • .round([decimals]) : Redondea un DataFrame a un número variable de lugares decimales.
  • .sem([axis, skipna, ddof, numeric_only]) : Devuelve el error estándar no sesgado de la media sobre el eje solicitado.
  • .skew([axis, skipna, numeric_only]) : Devuelve la asimetría no sesgada sobre el eje solicitado.
  • .sum([axis, skipna, numeric_only, ...]) : Devuelve la suma de los valores sobre el eje solicitado.
  • .std([axis, skipna, ddof, numeric_only]) : Devuelve la desviación estándar de la muestra sobre el eje solicitado.
  • .var([axis, skipna, ddof, numeric_only]) : Devuelve la varianza imparcial sobre el eje solicitado.
  • .nunique([axis, dropna]) : Cuenta el número de elementos distintos en el eje especificado.
  • .value_counts([subset, normalize, ...]) : Devuelve una Serie que contiene la frecuencia de cada fila distinta en el DataFrame.

Reindexación / Selección / Manipulación de Etiquetas

  • .add_prefix(prefix[, axis]) : Prefija las etiquetas con el prefijo de cadena.
  • .add_suffix(suffix[, axis]) : Sufija las etiquetas con el sufijo de cadena.
  • .align(other[, join, axis, level, ...]) : Alinea dos objetos en sus ejes con el método de unión especificado.
  • .at_time(time[, asof, axis]) : Selecciona valores en un momento particular del día.
  • .between_time(start_time, end_time) : Selecciona valores entre momentos particulares del día.
  • .drop([labels, axis, index, ...]) : Elimina las etiquetas especificadas de filas o columnas.
  • .drop_duplicates([subset, keep, ...]) : Devuelve DataFrame con filas duplicadas eliminadas.
  • .duplicated([subset, keep]) : Devuelve Serie booleana que denota filas duplicadas.
  • .equals(other) : Prueba si dos objetos contienen los mismos elementos.
  • .filter([items, like, regex, axis]) : Subconjunto de filas o columnas del dataframe según las etiquetas de índice especificadas.
  • .first(offset) : (DEPRECATED) Selecciona periodos iniciales de datos de series temporales basados en un desplazamiento de fecha.
  • .head([n]) : Devuelve las primeras n filas.
  • .idxmax([axis, skipna, numeric_only]) : Devuelve el índice de la primera ocurrencia del máximo sobre el eje solicitado.
  • .idxmin([axis, skipna, numeric_only]) : Devuelve el índice de la primera ocurrencia del mínimo sobre el eje solicitado.
  • .last(offset) : (DEPRECATED) Selecciona periodos finales de datos de series temporales basados en un desplazamiento de fecha.
  • .reindex([labels, index, columns, ...]) : Conforma DataFrame a nuevo índice con lógica de llenado opcional.
  • .reindex_like(other[, method, ...]) : Devuelve un objeto con índices coincidentes como otro objeto.
  • .rename([mapper, index, columns, ...]) : Renombra columnas o etiquetas de índice.
  • .rename_axis([mapper, index, ...]) : Establece el nombre del eje para el índice o las columnas.
  • .reset_index([level, drop, ...]) : Restablece el índice, o un nivel de este.
  • .sample([n, frac, replace, ...]) : Devuelve una muestra aleatoria de elementos de un eje del objeto.
  • .set_axis(labels, *[, axis, copy]) : Asigna el índice deseado al eje dado.
  • .set_index(keys, *[, drop, append, ...]) : Establece el índice del DataFrame usando columnas existentes.
  • .tail([n]) : Devuelve las últimas n filas.
  • .take(indices[, axis]) : Devuelve los elementos en los índices posicionales dados a lo largo de un eje.
  • .truncate([before, after, axis, copy]) : Trunca una Serie o DataFrame antes y después de algún valor de índice.

Manejo de Datos Faltantes

  • .backfill(*[, axis, inplace, ...]) : (DEPRECATED) Llena valores NA/NaN usando la siguiente observación válida para llenar el hueco.
  • .bfill(*[, axis, inplace, limit, ...]) : Llena valores NA/NaN usando la siguiente observación válida para llenar el hueco.
  • .dropna(*[, axis, how, thresh, ...]) : Elimina valores faltantes.
  • .ffill(*[, axis, inplace, limit, ...]) : Llena valores NA/NaN propagando la última observación válida al siguiente válido.
  • .fillna([value, method, axis, ...]) : Llena valores NA/NaN usando el método especificado.
  • .interpolate([method, axis, limit, ...]) : Llena valores NaN usando un método de interpolación.
  • .isna() : Detecta valores faltantes.
  • .isnull() : DataFrame.isnull es un alias de DataFrame.isna.
  • .notna() : Detecta valores existentes (no faltantes).
  • .notnull() : DataFrame.notnull es un alias de DataFrame.notna.
  • .pad(*[, axis, inplace, limit, ...]) : (DEPRECATED) Llena valores NA/NaN propagando la última observación válida al siguiente válido.
  • .replace([to_replace, value, ...]) : Reemplaza valores dados en to_replace con value.

Reestructuración, Ordenación, Transposición

  • .droplevel(level[, axis]) : Devuelve Series/DataFrame con nivel(es) de índice/columna solicitados eliminados.
  • .pivot(*, columns[, index, values]) : Devuelve DataFrame reorganizado por los valores de índice/columna dados.
  • .pivot_table([values, index, ...]) : Crea una tabla dinámica al estilo de una hoja de cálculo como un DataFrame.
  • .reorder_levels(order[, axis]) : Reorganiza niveles de índice usando el orden de entrada.
  • .sort_values(by, *[, axis, ...]) : Ordena por los valores a lo largo de cualquiera de los ejes.
  • .sort_index(*[, axis, level, ...]) : Ordena el objeto por etiquetas (a lo largo de un eje).
  • .nlargest(n, columns[, keep]) : Devuelve las primeras n filas ordenadas por columnas en orden descendente.
  • .nsmallest(n, columns[, keep]) : Devuelve las primeras n filas ordenadas por columnas en orden ascendente.
  • .swaplevel([i, j, axis]) : Intercambia niveles i y j en un MultiIndex.
  • .stack([level, dropna, sort, ...]) : Apila los niveles prescritos de columnas a índice.
  • .unstack([level, fill_value, sort]) : Desapila un nivel de las etiquetas de índice (necesariamente jerárquicas).
  • .swapaxes(axis1, axis2[, copy]) : (DEPRECATED) Intercambia ejes e intercambia los valores de los ejes apropiadamente.
  • .melt([id_vars, value_vars, ...]) : Desanida un DataFrame de formato ancho a largo, dejando opcionalmente identificadores establecidos.
  • .explode(column[, ignore_index]) : Transforma cada elemento de un tipo lista en una fila, replicando los valores de índice.
  • .squeeze([axis]) : Convierte objetos de eje unidimensional en escalares.
  • .to_xarray() : Devuelve un objeto xarray del objeto pandas.
  • .T: La transposición del DataFrame.
  • .transpose(*args[, copy]) : Transpone índice y columnas.

Combinación / Comparación / Unión / Fusión

  • .assign(kwargs) : Asigna nuevas columnas a un DataFrame.
  • .compare(other[, align_axis, ...]) : Compara con otro DataFrame y muestra las diferencias.
  • .join(other[, on, how, lsuffix, ...]) : Une columnas de otro DataFrame.
  • .merge(right[, how, on, left_on, ...]) : Fusiona objetos DataFrame o Series nombradas con una unión al estilo de bases de datos.
  • .update(other[, join, overwrite, ...]) : Modifica en el lugar usando valores no NA de otro DataFrame.

Relacionado con Series Temporales

  • .asfreq(freq[, method, how, ...]) : Convierte series temporales a la frecuencia especificada.
  • .asof(where[, subset]) : Devuelve la(s) última(s) fila(s) sin ningún NaN antes de where.
  • .shift([periods, freq, axis, ...]) : Desplaza el índice por el número deseado de períodos con una frecuencia de tiempo opcional.
  • .first_valid_index() : Devuelve el índice del primer valor no NA o None, si no se encuentra ningún valor no NA.
  • .last_valid_index() : Devuelve el índice del último valor no NA o None, si no se encuentra ningún valor no NA.
  • .resample(rule[, axis, closed, ...]) : Reorganiza los datos de series temporales.
  • .to_period([freq, axis, copy]) : Convierte DataFrame de DatetimeIndex a PeriodIndex.
  • .to_timestamp[freq, how, axis, copy]) : Convierte a DatetimeIndex de marcas de tiempo, al comienzo del período.
  • .tz_convert(tz[, axis, level, copy]) : Convierte el eje consciente de tz a la zona horaria objetivo.
  • .tz_localize(tz[, axis, level, ...]) : Localiza el índice tz-naive de una Serie o DataFrame a la zona horaria objetivo.

Flags

Flags refer to attributes of the pandas object: Las propiedades del conjunto de datos (como la fecha en que se registró, la URL desde la que se accedió, etc.) deben almacenarse en DataFrame.attrs.

  • Flags(obj, *, allows_duplicate_labels) : Flags que se aplican a objetos pandas.

Metadatos

  • DataFrame.attrs: DataFrame.attrs es un diccionario para almacenar metadatos globales para este DataFrame.
  • Warning: DataFrame.attrs se considera experimental y puede cambiar sin previo aviso.
  • DataFrame.attrs: Diccionario de atributos globales de este conjunto de datos.

Plotting

  • .plot([x, y, kind, ax, ....]) : Accesor y método de plotting de DataFrame.
  • .plot.area([x, y, stacked]) : Dibuja un gráfico de área apilada.
  • .plot.bar([x, y]) : Gráfico de barras vertical.
  • .plot.barh([x, y]) : Crea un gráfico de barras horizontal.
  • .plot.box([by]) : Crea un diagrama de caja de las columnas del DataFrame.
  • .plot.density([bw_method, ind]) : Genera un gráfico de Estimación de Densidad Kernel usando kernels gaussianos.
  • .plot.hexbin(x, y[, C, ...]) : Genera un gráfico de agrupación hexagonal.
  • .plot.hist([by, bins]) : Dibuja un histograma de las columnas del DataFrame.
  • .plot.kde([bw_method, ind]) : Genera un gráfico de Estimación de Densidad Kernel usando kernels gaussianos.
  • .plot.line([x, y]) : Grafica Series o DataFrame como líneas.
  • .plot.pie(kwargs) : Genera un gráfico de tarta.
  • .plot.scatter(x, y[, s, c]) : Crea un gráfico de dispersión con tamaño y color de marcador variable.
  • .boxplot([column, by, ax, ...]) : Crea un diagrama de caja de las columnas del DataFrame.
  • .hist([column, by, grid, ...]) : Crea un histograma de las columnas del DataFrame.

Sparse accessor

Métodos específicos y atributos de dtype sparse se proporcionan bajo el accesor DataFrame.sparse.

  • .sparse.density: Razón de puntos no dispersos a puntos de datos totales (densos).
  • .sparse.from_spmatrix(data[, ...]) : Crea un nuevo DataFrame a partir de una matriz dispersa de scipy.
  • .sparse.to_coo() : Devuelve el contenido del marco como una matriz COO dispersa de SciPy.
  • .sparse.to_dense() : Convierte un DataFrame con valores dispersos a denso.

Serialización / IO / Conversión

  • .from_dict(data[, orient, dtype, ...]) : Construye DataFrame a partir de un diccionario de elementos tipo array o diccionarios.
  • .from_records(data[, index, ...]) : Convierte ndarray estructurado o de registros a DataFrame.
  • .to_orc([path, engine, index, ...]) : Escribe un DataFrame en formato ORC.
  • .to_parquet([path, engine, ...]) : Escribe un DataFrame al formato binario parquet.
  • .to_pickle(path, *[, compression, ...]) : Serializa (pickle) el objeto a archivo.
  • .to_csv([path_or_buf, sep, na_rep, ...]) : Escribe el objeto a un archivo de valores separados por comas (csv).
  • .to_hdf(path_or_buf, *, key[, ...]) : Escribe los datos contenidos en un archivo HDF5 usando HDFStore.
  • .to_sql(name, con, *[, schema, ...]) : Escribe registros almacenados en un DataFrame a una base de datos SQL.
  • .to_dict([orient, into, index]) : Convierte el DataFrame a un diccionario.
  • .to_excel(excel_writer, *[, ...]) : Escribe el objeto a una hoja de Excel.
  • .to_json([path_or_buf, orient, ...]) : Convierte el objeto a una cadena JSON.
  • .to_html([buf, columns, col_space, ...]) : Renderiza un DataFrame como una tabla HTML.
  • .to_feather(path, kwargs) : Escribe un DataFrame al formato binario Feather.
  • .to_latex([buf, columns, header, ...]) : Renderiza el objeto a una tabulación LaTeX, longtable o tabla anidada.
  • .to_stata(path, *[, convert_dates, ...]) : Exporta el objeto DataFrame al formato dta de Stata.
  • .to_gbq(destination_table, *[, ...]) : (DEPRECATED) Escribe un DataFrame en una tabla de Google BigQuery.
  • .to_records([index, column_dtypes, ...]) : Convierte DataFrame a un arreglo de registros NumPy.
  • .to_string([buf, columns, ...]) : Renderiza un DataFrame a una salida tabular amigable para la consola.
  • .to_clipboard(*[, excel, sep]) : Copia el objeto al portapapeles del sistema.
  • .to_markdown([buf, mode, index, ...]) : Imprime DataFrame en formato amigable con Markdown.
  • .style: Devuelve un objeto Styler.
  • .\__dataframe\__([nan_as_null, ...]) : Devuelve el objeto de intercambio de dataframe que implementa el protocolo de intercambio.


Arriba

Copyright © 2024 Fernando Rioseco.