card-image

Series de tiempo en Hopp

La empresa AlixPartners nos propone nuevamente adentrarnos en un caso de negocios. El objetivo es ayudar a una empresa de préstamos al consumo a predecir el flujo de pagos de sus préstamos a futuro. La empresa busca entender la salud de su portafolio, lo que le permitirá tomar decisiones acertadas respecto al flujo de fondos futuro, ¿será posible, utilizando series temporales de flujo de fondos históricos, predecir la dinámica de pagos para los créditos activos?

Foro: Canal de Slack.

Si ya te inscribiste en la competencia, ¡sumate a nuestro workshop virtual para sacarte todas la dudas! Te esperamos el miércoles 6 de julio de 17 a 19 hs, ¡inscribite acá!


¡Quiero participar!

Leaderboard

Rank Usuario Intentos Puntaje Público
1 SLDbacktoF2 2 320.09817

premio-icon Premios

Los premios serán otorgados como gift cards con un valor de:

  • Primer puesto: AR$ 175.000

  • Segundo puesto: AR$ 100.000

  • Tercer puesto: AR$ 50.000

  • Cuarto puesto: AR$ 30.000

  • Quinto puesto: AR$ 20.000

Fechas

La competencia finaliza el 22 de Julio de 2022, quedan aún 15 días para participar.

Introducción

Para cualquier empresa, la previsión financiera es vital, particularmente para pequeñas empresas o empresas en rápido crecimiento, donde el flujo de dinero es crucial para su operación y mantenimiento.

Una empresa de préstamos al consumo como Hopp es una institución comercial o financiera que otorga crédito a individuos, con la expectativa de que se reembolsará el monto total del préstamo, más intereses. La ganancia para la empresa son los intereses generados por el crédito, que constituyen un porcentaje específico del capital total del préstamo otorgado al prestatario. El pago del préstamo ocurre en pagos mensuales o quincenales, con la posibilidad de adelantar cuotas.

Dentro de los tipos de préstamo que ofrece Hopp, uno de sus productos más populares son los préstamos de día de pago (PDL, por su nombre en inglés payday loans). Estos son préstamos de relativamente poco capital (comparado con, por ejemplo, una hipoteca) que se otorgan a una tasa de interés elevada por el riesgo de que el préstamo entre en mora y el monto prestado no sea cobrado. Hopp apostó a este tipo de mercado para crecer rápido ya que se trataba de un grupo de personas que comúnmente no suelen ser atendidas por la banca tradicional. La tasa de interés elevada permite compensar el alto riesgo de pago. En caso de no pagar, el interés acumula deuda y puede perjudicar el puntaje crediticio del prestatario.

Los componentes de un préstamo son:

  • Saldo de principal: monto remanente de capital adeudado del préstamo en cuestión.
  • Saldo de interés: es el interés acumulado remanente sobre la deuda. La tasa de interés suele ser un porcentaje fijo mensual (o anual) sobre el capital original.
  • Saldo de impuestos: una porción de los pagos por parte del prestatario suele estar sujeta a impuestos.

Para cada préstamo, la proporción de cada componente (principal, interés, impuestos) suele seguir una tabla de amortización estricta, dada por el tipo de préstamo y por las reglas que haya establecido la empresa prestamista al momento de otorgarlo.

Con cada pago, el saldo de principal, intereses e impuestos del préstamo disminuyen en proporciones diferentes según la tabla de amortización.

Durante la vida del préstamo pueden ocurrir los siguientes escenarios:

  • El prestatario paga al día la totalidad de cuotas del préstamo y éste se considera pagado.
  • El préstamo entra en mora, cuando se atrasan los pagos consecutivamente y el último pago registrado fue hace menos de 180 días
  • El préstamo se considera perdido luego de 180 días sin pagos registrados.

A medida que un préstamo envejece, la distribución de porcentajes del pago entre capital, intereses e impuestos varía según la tabla de amortización utilizada.


Cualquier consulta se atenderá por el canal de Slack.

Si ya te inscribiste en la competencia, ¡sumate a nuestro workshop virtual para sacarte todas la dudas! Te esperamos el miércoles 6 de julio de 17 a 19 hs, ¡inscribite acá!

Bueno, ya ¡dame la data!

Se entregará un conjunto de archivos (click aquí) CSV (datos tabulares) en los que se encuentra la información necesaria para llevar a cabo la competencia. El conjunto de archivos es:

  • loans_payments_dataset.csv: incluye pagos y dinámica histórica (desde 2019) de las operaciones de Hopp. La creación de créditos fue removida desde 2019 en adelante. Datos hasta junio 2020 inclusive.
  • loan_payments_dataset_scoring.csv: Template con los préstamos y fechas a predecir.
  • loan_agency_productName.csv: Información sobre agencia que agrupa créditos, el tipo de crédito (PDL o BGL, payday loans o business growth loans, respectivamente).
  • loan_funding_origination_info.csv: información sobre a qué agencia pertenece cada crédito y la fecha de creación de cada crédito.
  • loan_dindexedto_dataset.csv: información de tipo de indexación de cada crédito en el portafolio.

Diccionario de datos

loan_payments_dataset:
  • LoanId (Entero): ID único del crédito.

  • PaymentId (Entero): ID único de cada pago.

  • PaymentSource (Categórica): Fuente de Pago (regular, contractor, alternative, additional).

  • PaymentType (Entero): Variable que clasifica distintos mecanismos de pago adicional.

  • PaymentTypeDescription (Categórica): Descripción de los mecanismos de pago adicional.

  • PaymentAmount (Decimal): Total pagado en el pago con PaymentId de la fila.

  • PaymentPrincipalAmount (Decimal): Parte del pago con PaymentId de la fila aplicado al saldo de principal.

  • PaymentInterestAmount (Decimal): Parte del pago con PaymentId de la fila aplicado al saldo de interés.

  • PaymentVATAmount (Decimal): Parte del pago con PaymentId de la fila aplicado al saldo de IVA.

  • PaymentDueDate (Datetime): Fecha de aplicación del pago procesado (no disponible para todas las PaymentSources).

  • PaymentTransferDate (Datetime): Fecha en que Hopp recibió la transferencia bancaria del pago indicado (no disponible para todas las PaymentSources).

  • PaymentProcessingDate (Datetime): Fecha en que Hopp procesó el pago indicado (disponible para todas las PaymentSources).

loan_dindexedto_dataset
  • LoanId (Entero): ID único del crédito.

  • ProductName (Categórica): Tipo de producto (PDL, BGL).

  • Type (Categórica): Variable que indica si el crédito está indexado (Base, D-Indexed).

  • D-IndexedTo (Categórica): Variable que indica a quién indexa el crédito (Hopp, Zoltan, Ringu, Freeman).
loan_agency_productName
  • AgencyId (Entero): ID de agencia (dependencia) de Hopp a la que pertenece el crédito.

  • ProductName (Categórica): Tipo de producto (PDL, BGL).

  • Country (Categórica): País de la operación.

loan_funding_origination_info
  • LoanId (Entero): ID único del crédito.

  • AgencyId (Entero): ID de agencia (dependencia) de Hopp a la que pertenece el crédito.

  • FundingID (Entero): ID de la entidad financiadora.

  • OriginationDate (Datetime): Fecha de originación del crédito.

  • InstallmentAmount (Decimal): Valor del préstamo (valor de la cuota correspondiente = InstallmentAmount/Term).

  • Periodicity (Categórica): Periodicidad del crédito.

  • LoanOperationalStatus (Categórica): Estado operacional del crédito al fin del período (diciembre 2020).

  • VAT (Entero): Porcentaje asignado al IVA.

  • Term (Entero): Cantidad de plazos del crédito.


Cualquier consulta se atenderá por el canal de Slack.

Si ya te inscribiste en la competencia, ¡sumate a nuestro workshop virtual para sacarte todas la dudas! Te esperamos el miércoles 6 de julio de 17 a 19 hs, ¡inscribite acá!

Los datos deben usarse sólo en el marco de esta competencia.

Soluciones tramposas serán detectadas y quedarán descalificadas.

Descripción

El objetivo de la competencia es, utilizando datos históricos de pagos de Hopp (enero 2019 - junio 2020), predecir los pagos de principal para cada préstamo activo.

La competencia presenta un recorte de los datos tal que se elimina la creación de nuevos préstamos y sólo se evalúa la evolución de los préstamos ya entregados hacia enero 2019. De esta manera, el objetivo será obtener la proyección de la serie temporal de pagos de principal para el grupo de préstamos preexistentes.

¡Ayudemos a la empresa!

Al momento del comienzo del proyecto, las características de los préstamos eran las siguientes:

  • Plazo: ~52,9 meses (4,4 años).
  • Tamaño del préstamo: (NAR$ 20k aproximadamente).
  • Tasas de interés: 48.9% anual.

Para simplificar, la actividad propuesta en esta competencia es evaluar la performance de métodos de proyección de flujo de fondos de los préstamos, comparando los resultados de el/los modelo/s elegidos.


Cualquier consulta se atenderá por el canal de Slack.

Si ya te inscribiste en la competencia, ¡sumate a nuestro workshop virtual para sacarte todas la dudas! Te esperamos el miércoles 6 de julio de 17 a 19 hs, ¡inscribite acá!

Evaluación

La métrica que se usará para evaluar será el mean absolute error (MAE) sobre las predicciones realizadas.

Las respuestas de los participantes deberán ser archivos .csv con la proyección de pagos para los préstamos activos estimando el pago de principal para cada fecha.

Para esto, deberán predecir el pago efectivo a principal para cada uno de los créditos correspondiente a las operaciones de la empresa en el país de Naboo en la base de datos para los siguientes seis meses.

Las columnas deberían ser (en el CSV a entregar no debe figurar el nombre de las columnas, ie, al exportar el CSV, hacerlo con header=False):

PaymentCode, PaymentPrincipal

022102049402357, 0.0

00201030668519, 2140.83

002011249339435, 74.33

002104209148631, 57.01

00210607131505, 0.0

002104099375486, 372.23

002007149136519, 0.0

002009159172196, 139.52

002010289414965, 25.07

La columna PaymentCode es un identificador único compuesto de la siguiente manera:

0PAAMMDDXXXXXX

P: PaymentTypeId

AAMMDD: Año (2 últimos dígitos), Mes (2 dígitos), Día (2 dígitos)

XXXXXX: LoanId (todos los dígitos necesarios)

No todos los préstamos tienen la misma cantidad de fechas de pago en el periodo de seis meses siguiente.

El archivo .csv, loan_payments_dataset_scoring.csv contiene todas las entradas que son necesarias predecir.

Sobre todas las predicciones, se reportará el MAE promedio de entre todos los MAE obtenidos para cada crédito. El jurado podrá requerir reproducir el puntaje correspondiente al último intento registrado en la competencia. Los créditos indexados por otros (D-Indexed) podrán ser considerados de manera diferencial respecto a los créditos en control directo de Hopp (Type “Base”).

Las soluciones finales se deberán desarrollar de forma obligatoria en la plataforma Google Colaboratory. Cada notebook deberá tomar como entrada los archivos antes mencionados y generar un archivo de nombre ‘predicciones.csv’ con las predicciones.

Para la presentación final, cada notebook deberá contener comentarios sobre el procedimiento y los participantes deben explicar qué tratamiento hicieron de los datos y qué decisiones tomaron para el modelado, utilizando gráficas donde sea necesario. La calificación final de la competencia está dada en un 65% por el resultado obtenido y en un 35% por la presentación y detalle de la notebook. Se leerán todos los informes presentados, incluso aquellos con bajo puntaje en la clasificación. ¡A no desalentarse!


Cualquier consulta se atenderá por el canal de Slack.

Si ya te inscribiste en la competencia, ¡sumate a nuestro workshop virtual para sacarte todas la dudas! Te esperamos el miércoles 6 de julio de 17 a 19 hs, ¡inscribite acá!

Al enviar una solución acepta que puedan usarse sus datos de contacto por parte de la organización.

Escribinos