card-image

Clasificación de preguntas de clientes

Santander nos propone un desafío basado en NLP, donde lo que se busca es entender las preguntas que hacen los clientes con el fin de ser más asertivos en las respuestas, esto es fundamental para brindar una mejor experiencia al usuario.


¡Quiero participar!

Leaderboard

Rank Usuario Intentos Puntaje Público
1 fran.dorr 31 0.88300
2 jpadillamontani3168c65286e04435 69 0.87574
3 jeffersonlicet 114 0.86639
4 nicovaras22 72 0.86067
5 LautaroEst 39 0.85849
6 nicoperetti.16 33 0.85673
7 lbugnonbd284ad8b39e4310 3 0.85569
8 amiune 9 0.85338
9 cyones77 3 0.85274
10 daleman 29 0.84453
11 damianealeman 13 0.84113
12 julianlopezba 16 0.83665
13 calasius 78 0.83610
14 joaquinbarotto 8 0.83432
15 baslaleandro 64 0.82550
16 patbal98 1 0.82464
17 soldado.chamame2020 4 0.82176
18 fmcurti 49 0.81085
19 ianshalaga 9 0.77559
20 nicobernasconi 12 0.77333
21 nachofabre 2 0.77082
22 merrecalde 3 0.76678
23 mjgu819 7 0.76477
24 gpiotti 7 0.76357
25 gonzalopiotti 12 0.76060
26 sebastian_incicco 53 0.75715
27 thompsonrn12 5 0.75284
28 xavierign 16 0.75165
29 matisyo 17 0.74164
30 bruno.rrizzo 10 0.73758
31 lucianoch 2 0.73304
32 battox 4 0.73178
33 el.cansado 88 0.72794
34 camiloamadio57 11 0.72785
35 federicobaiocco 20 0.72685
36 comp.sadov 10 0.72458
37 brainblockpna 3 0.72272
38 julifgo 48 0.72255
39 pipi.santos92 11 0.71503
40 axelstraminsky 7 0.71477
41 nataliaallmi 2 0.70490
42 JonathanLoscalzo 10 0.70375
43 eugenioclrc 1 0.69652
44 fedecarlesc04a0f434b824e5e 7 0.69319
45 f41420a451dd36c60e4fcf20574624 1 0.68975
46 __martinafv_ 8 0.68673
47 bconstanzo 22 0.67740
48 ivansadofschi 8 0.66553
49 aladaspalabras 6 0.66212
50 taljuk01 7 0.65425
51 joseferrercba 11 0.65311
52 melfernandez 2 0.64553
53 tom.iaquinta 1 0.64330
54 nicoteiz 5 0.63490
55 cnexans 7 0.62970
56 thvadora 10 0.62594
57 erdavidsson 8 0.62584
58 dgraselli 12 0.62336
59 hernanbari 2 0.62276
60 lbellomo 1 0.61783
61 fdmartin.92 1 0.61165
62 santinoacco 5 0.61039
63 funezdario 8 0.60548
64 nikolayevichmyshkin68 3 0.59542
65 rios.mauro 2 0.59276
66 lucas.ramirez1616 3 0.57091
67 lrargerich 4 0.55951
68 romancastellarin 2 0.55373
69 btochi 1 0.55010
70 dieguito1331 1 0.53906
71 martinehman90 2 0.53338
72 santiagodrossi 1 0.51614
73 chudichudichudi 1 0.51614
74 Tralicef 1 0.51138
75 jgranda 4 0.49365
76 juan.delafuente 3 0.46083
77 carinalifschitz 53 0.42854
78 sebamariof 8 0.40531
79 belaikiteiru 9 0.39727
80 GraffignaBracco 9 0.36381
81 federicoalvarez.puan 6 0.05318
82 fabriborghini 1 0.00496
83 luciocuestameyer 1 0.00298
84 hellocoldworld 1 0.00298
85 marama70132786 1 0.00298
86 fernandocuccorese 1 0.00292
87 pablolp99 1 0.00130

premio-icon Premios

  1. ARS 50.000

  2. ARS 30.000

  3. ARS 10.000

  4. ARS 5.000

  5. ARS 5.000

Los premios se entregarán en forma de tarjetas prepagas.

Fechas

La competencia ha finalizado el July 11, 2020

Introducción

Novedades:

  • Entrega de premios: el evento será el viernes 24/7 a las 19:00 hs. Para participar inscribirse en el siguiente formulario, también se transmitirá en vivo por la cuenta de Youtube de ECI.

  • Informes, fechas y formatos: ver sección evaluación.

  • La gente de Santander Tecnología nos compartío un baseline para que puedan seguir explorando o tengan un punto de partida para esta competencia.


En Santander tenemos por misión contribuir al progreso de las personas y las empresas. Debido a ello buscamos constantemente nuevas formas de entender al cliente, con el objetivo de consolidar vínculos a largo plazo.

Nuestro equipo de Advanced Analytics & Machine Learning se encuentra en continua mejora de sus algoritmos y modelos. Basándonos en esta premisa, decidimos abrir nuestros datos e invitar a la comunidad a identificar nuevas formas de entender las preguntas y reclamos de nuestros clientes, utilizando un motor de NLU (Natural Language Understanding).

Esta competencia tiene como objetivo desarrollar un algoritmo de clasificación que, utilizando técnicas de NLP (Natural Language Processing), sea capaz de entender la intención de un cliente (target) al momento de realizar una pregunta (predictor) en alguno de los canales del Banco.

Bueno, ya ¡dame la data!

training.csv

test.csv

primer_submit.csv

Descripción

Se disponen de tres datasets:

  1. training.csv: reúne la información del caso, el mismo tiene dos columnas
  • Pregunta: pregunta realizada por el cliente. (String)

  • Intención: intención de la pregunta realizada, contiene 350 intenciones aproximadamente. (String)

  1. test.csv: solo contiene la pregunta realizada por el cliente.

  2. primer_submit.csv: este archivo tiene el formato en el que se deben enviar las predicciones.

Evaluación

La evaluación consta de dos partes:

1 - Score de predicciones: los resultados serán medidos utilizando la métrica Balance Accuracy. En el leaderboard se puede ver el mejor score público del total de submits de cada participante. El mismo se calcula con una porción de los datos de test. Metadata se reserva el score privado para la evaluación final.

El archivo con predicciones que se debe submitear debe esta en formato csv sin encabezado y debe contar de dos columnas. La primer columna corresponde al 'id' de la pregunta hecha por el cliente en el archivo de test. La segunda a la categoría predicha en formato de entero, es decir, si la predicción es cat_101 (string) debe reportar solamente 101 (int). Para ver un ejemplo puede mirar el archivo primer_submit en las solapa Datos.

2 - Informe: Al finalizar la competencia se pedirá a los primeros 10 competidores en el ranking de predicciones un informe adicional, donde se explique el modelo y la metodología aplicada. La nota la otorgará un jurado ad-hoc de especialistas en el tema evaluando el informe sobre el trabajo realizado con el análisis de contrastación entre los datos reales y los datos generados por los modelos.

Finalmente, el score total que determinará los ganadores se compondrá en un 70% por el score privado conseguido con la predicción medida con la métrica especificada y el 30% restante se sumará con el informe.

Importante: tanto Santander como Metadata se reservan el derecho a pedir el código para poder evaluar el modelo y evitar soluciones tramposas. En caso de que se le requiera el código a un participante y no lo envíe, será descalificado de forma inmediata.


Informe

Los primeros 10 participantes en el ranking deben entregar un informe para definir los ganadores. El período para entregar el informe es del 11/7/2020 al 17/7/2020 (inclusive). Se debe enviar un mail a metadata@fundacionsadosky.org.ar que contenga:

  • Encabezado: competencia SANTANDER 2020 informe.
  • Un archivo adjunto con el informe. El nombre del archivo debe ser su nombre de usuario, por ejemplo "datosky.zip". En caso de necesitar mandar más de un archivo utilizar algún sistema de compresión.
  • En el cuerpo del mail pueden escribir lo que gusten, aunque si quieren expresar alguna cuestión relacionada al informe ponerlo en el informe o crear un archivo "readme.txt".

Por favor les pedimos que respeten el formato

Guía

Pueden entregar el informe en el formato que gusten. Es obligatorio entregar el código que valide su solución. A continuación les dejamos una guía que seguramente los ayudará a sumar más puntos:

De más deseable a menos deseable:

  • Notebook (Jupyter).
  • PDF.

Contenido

  • Descripción del proceso, desde que ingresan hasta que salen los datos (¿Se hizo limpieza de datos?, ¿En base a qué?, ¿Qué usaron?, etc).
  • Principales hallazgos del proceso analítico
  • Algoritmos utilizados y ¿Por qué la elección de los mismos?
  • ¿Qué métodos utilizaron para lograr la mejor selección de hyperparametros?
  • Próximos pasos / posibles mejoras / si hubieras tenido más tiempo/recursos, ¿Qué hubieras hecho diferente?
  • ¿Qué valor agrega tu solución?

Escribinos