Nombre de connexions E-Mail Statistiques du site
Bio

mercredi 16 août 2017
Nombre de visites : 89

La vie du serveur - De Bano à Ban

J’ai un serveur solr (ou plutot 2, qui fonctionnent en shard) sur des raspberry pi depuis mon changement de serveur. Ce serveur solr me sert à faire des recherches d’adresses pour deux applications :
- Banoscadia version android
- Banoscadia version Web
Tout ça tournait sur la base Bano d’OSM.

Il y a 16 millions d’adresses et les recherches étaient un peu lentes à partir de 2-3 mots dans la recherche mais depuis l’installation du jdk Oracle, ça fonce à mach 2 !!!

Aussi, je me suis dit, pourquoi pas installer la base Ban qui elle comprend 26 millions d’adresses...

Évidemment, les fichiers ne sont pas aussi propres que Bano : ils sont issus de la fusion des bases de la Poste , de l’IGN et OSM. Et comme La Poste ne voulait pas diffuser les lignes 3 (nom de résidence par ex), on a des adresses qui apparaissent en doublons. Des données venant de l’IGN, on a des adresses avec des "/" pour différencier les différents noms de rues synonymes. Bref, il a fallut faire un petit script pour dépatouiller tout ça. Ça m’a permis d’apprendre à me servir de awk, beaucoup plus rapidement que mes traitements batch ligne à ligne.

Maintenant, j’ai donc plus de 25 millions d’adresses dans ma base (et oui, il y à eu de la perte : les adresses sans libellé de voie, les adresses en doublons ...)

Et ça va toujours aussi vite !!!

Bon, c’est plus dans l’esprit OSM (voir l’article d’OSM sur le projet BAN), mais au moins, j’ai un max d’adresses...




Répondre à cet article