De nieuwe, nieuwe Google

Persoonlijk vind ik niet altijd meer wat ik zoek via onze grote vriend Google. Reden te meer om verder te gaan met het ontwikkelen van een eigen zoekmachine. Maar dat brengt toch problemen met zich mee.

Ik ben in de paar vrije uurtjes die ik zo nu en dan heb, toch bezig gegaan met het ontwikkelen van een ‘nieuwe’ zoekmachine. En met succes, want de meeste algemene zoekopdrachten die ik intik hebben hele goede, relevante zoekresultaten. Het probleem zit hem in de capaciteit.

Het verwerken van de websites is een proces dat goed te automatiseren is. Aan de hand van de onderliggende HTML kun je distilleren wat relevant is aan de pagina en wat niet. Het nadeel is echter dat het ‘lezen’ van de pagina een bepaalde tijd kost en het opslaan van alle relevante elementen in de database ook. Met andere woorden: lastig verhaal.

Geparkeerd

Op dit moment heb ik ongeveer 2 miljoen geïndexeerde websites, waarvan er ongeveer 1,6 .nl domeinnamen zijn. Er zijn ongeveer 4,4 miljoen Nederlandse domeinnamen in gebruik volgens de domeinteller van de SIDN. Dan begin ik al een beetje op weg te komen zou je zeggen!

Op zich zit daar wel wat in. Een hoop domeinnamen zijn ‘geparkeerd’ en worden helemaal niet gebruikt, een ander deel is simpelweg een kopie van een andere website. Misschien blijven er dan maar 2 miljoen over. Of misschien zelfs wel 1,6.

Uitdaging

Hoe dan ook is het een langdurig proces om een goede zoekmachine te ontwikkelen. Het is niet de bedoeling dat ik Google eruit concurreer (laten we reëel blijven), maar wat kwaliteit betreft mag ik er niet voor onder doen. Een ongelooflijk leuke uitdaging, zeker nu ik de zoekmachine vorm zie krijgen!

De toepassingen zijn legio. Met het indexeren van pagina’s kun je ook andere informatie over de domeinnamen verzamelen. Gemiddelde laadtijd, ip-adressen, et cetera. Daarmee vorm ik eigenlijk een database met enorm veel gegevens over, van en uit ‘het internet’. En hoe gaaf is dat!

Lees hier mijn eerdere blog 'De nieuwe Google'.

Tip de redactie