Predicción de Clicks

La competencia ya fue finalizado el 1 de Agosto de 2018.

Introducción

La subasta de avisos en tiempo real (Real-Time Bidding en inglés) es la técnica más relevante de los últimos años en cuanto a publicidad en línea, cualquiera sea el dispositivo. Miles de millones de impresiones de anucios se compran diariamente en subastas públicas llevadas a cabo por martilleros virtuales. La subasta es por cada impresión, independientemente, y todo el proceso ocurre en menos de 100 milisegundos. En este contexto, plataformas de demanda como Jampp, tienen la tarea de ayudar a sus clientes a administrar y optimizar las campañas en estas subastas. Para esto, es central poder predecir la probabilidad de que un anuncio sea activado y poder así asignarle un valor en la subasta.

En esta competencia, Jampp nos propone trabajar sobre una semana de datos para construir un modelo capaz de predecir si un usuario hará click en un determinado aviso.

Hay tiempo para participar hasta el 31 de Julio y podés ganar un eReader gentileza de Jampp.

Evaluación

Se debe enviar un archivo con las respuestas generadas por el modelo (ver más abajo el formato). Sobre el mismo se computarán dos puntajes, a partir del área debajo de la curva, teniendo en cuenta distintas filas elegidas al azar: uno público y otro privado. El público estará disponible inmediatamente y servirá de orientación a quienes participen.

El puntaje privado dará lugar al 80% de la puntuación final. Para el 20% restante se debe enviar un reporte en PDF describiendo el método utilizado. Un jurado asignará el resto del puntaje teniendo en cuenta originalidad, claridad expositiva y conceptual de la solución propuesta.

El formato para la respuesta deberá ser como en el archivo de ejemplo: dos columnas, la primera con cada uno de los números enteros del 1 al 1139639 y la segunda columna deberá indicar la probabilidad de click para dicho registro.

1,0.02
2,0.96
3,0.83
4,0.33
...
1139638,0.08
1139639,0.11

Observar que el archivo no debe poseer encabezado.

Bueno, ya ¡dame la data!

Datos de entrenamiento:

Datos de prueba:

Ejemplo de Respuesta:

Descripción

  • Entrenamiento. Los archivos de entrenamiento ('ctr_n.csv' files) consisten en una porción de los datos de clicks de Jampp en el transcurso de una semana. Estos registros no están necesariamente en orden cronológico. Sin embargo, hay una columna que refiere al tiempo en el que ocurren los mismos.

  • test. En el conjunto de prueba ('ctr_test.csv') se tiene una muestra del tráfico recibido por Jampp en la siguiente semana, obtenidos de forma similar al conjunto de entrenamiento. No se tiene para estos la columna "Label". Sobre estos registros es que se deberá predecir el valor de esta columna faltante. Contiene además una columna "id" que identifica el registro y será necesaria para la entrega

  • ejemploRespuesta.csv. Un ejemplo de archivo de respuesta con los valores generados aleatoriamente.

Campos

Las variables categoricas fueron transformadas vía hash para anonimizarlas. Notar que puede haber, además, archivos faltantes.

  • Label. Variable objetivo que indica si dicho aviso fue clickeado (1) o no (0).

  • action_categorical_0: Identificador de unidad de Negocio, nivel 1. A cada unidad de nivel uno puede corresponderles varias unidades de nivel 2 (pero no al revés).

  • action_categorical_1: Identificador de unidad de Negocio, nivel 2.

  • action_categorical_2: Identificador de unidad de Negocio, nivel 3.

  • action_categorical_3: Identificador de unidad de Negocio, nivel 4.

  • action_categorical_4: Identificador de unidad de Negocio, nivel 5.

  • action_categorical_5: Una variable categórica.

  • action_categorical_6: Una variable categórica.

  • action_categorical_7: Una variable categórica.

  • action_list_0: Lista de categorías relacionadas con la subasta.

  • action_list_1: Lista de categorías relacionadas con la subasta.

  • action_list_2: Lista de categorías relacionadas con la subasta.

  • auction_time: Tiempo en el que ocurrió la subasta. El tiempo está en formato unix (o sea, epoch time).

  • auction_age: Edad del usuario/a

  • auction_bidfloor: Mínimo valor de entrada a la subasta.

  • auction_boolean_0: Atributo de la subasta, codificado en una variable binaria.

  • auction_boolean_1: Atributo de la subasta, codificado en una variable binaria.

  • auction_boolean_2: Atributo de la subasta, codificado en una variable binaria.

  • auction_categorical_0: El identificador de una entidad relacionada con la subasta.

  • auction_categorical_1: El identificador de una entidad relacionada con la subasta.

  • auction_categorical_2: Una variable categórica.

  • auction_categorical_3: Una variable categórica.

  • auction_categorical_4: Una variable categórica.

  • auction_categorical_5: Una variable categórica.

  • auction_categorical_6: Una variable categórica.

  • auction_categorical_7: El identificador de una entidad relacionada con la subasta.

  • auction_categorical_8: El identificador de una entidad relacionada con la subasta.

  • auction_categorical_9: El identificador de una entidad relacionada con la subasta.

  • auction_categorical_10: Una variable categórica.

  • auction_categorical_11: El identificador de una entidad relacionada con la subasta.

  • auction_categorical_12: Una variable categórica.

  • auction_list_0: Lista de categorías relacionadas con la subasta.

  • creative_categorical_0: Unidad de negocio.

  • creative_categorical_1: Una variable categórica.

  • creative_categorical_10: Una variable categórica.

  • creative_categorical_11: Una variable categórica.

  • creative_categorical_12: Una variable categórica.

  • creative_categorical_2: Una variable categórica.

  • creative_categorical_3: Una variable categórica.

  • creative_categorical_4: Una variable categórica.

  • creative_categorical_5: Unidad de negocio.

  • creative_categorical_6: Una variable categórica.

  • creative_categorical_7: Una variable categórica.

  • creative_categorical_8: Una variable categórica.

  • creative_categorical_9: Una variable categórica.

  • creative_height: Altura (en pixels) del espacio del aviso.

  • creative_width: Ancho (en pixels) del espacio del aviso.

  • device_id: Identificador único (o casi) del dispositivo.

  • device_id_type: Tipo de identificador de dispositivos. Hay muchos tipos de identificadores e incluso un dispositivo puede tener varios tipos distintos.

  • gender: género.

  • has_video: Una variable que indica si el banner contiene un video.

  • timezone_offset: Diferencia horaria (timezone offset) en horas respecto al país y región de la subasta.