yAro Le 15/11/2007 à 16:16 J'ai pris le script que TU m'as envoyé et je l'ai executé en local et je n'ai jamais pu terminer l'indexation vu :
1- le temps que ca prennait
2- la taille de la base qui explosait
Tu réponds quoi à ces 2 arguments ?

Webmaster et
développeur du site. Pour tout probleme ou question envoyez un mini message ou mail.
Suivez l'actualité de tous vos site préférés sur yAronews :
http://ns.yaronet.com =)
onur Le 15/11/2007 à 16:19 Je réponds: file moi la base , du moins la partie à laquelle j'ai accès, ce qui doit être relativement representatif je pense, et on va voir. Ca m'évitera de parser tout le yN.
As-tu joué sur le paramètre que je viens de te dire? Non. Tu as fait comme à ton habitude, "je colle la solution géniale qu'on me donne et je réfléchis pas".
Tout ce qui passe pas par le port 80, c'est de la triche.
yAro Le 15/11/2007 à 16:42 je viens de re regarder tes scripts et y'a pas de parametre pour choisir la taille min d'un mot ...

Webmaster et
développeur du site. Pour tout probleme ou question envoyez un mini message ou mail.
Suivez l'actualité de tous vos site préférés sur yAronews :
http://ns.yaronet.com =)
onur Le 15/11/2007 à 16:52
* y a pas de fonction toute prete, c'est quelque chose dont je t'ai parlé en mmsg. Il faut éliminer le nombre de champs de la table ffs_word, et modifier le script en conséquence. "10 champs" était un choix arbitraire, cest pour ca que je parle de "paramètre", ce n'est pas un argument des fonctions que je t'ai donné.
* C'est pas la "taille min d'un mot", c'est plutot "le nombre de lettres qui vont etre indexées pour un mot"
Tout ce qui passe pas par le port 80, c'est de la triche.
yAro Le 15/11/2007 à 16:53 Alors ca changera rien au principal problème, le nombre de lignes dans la base.

Webmaster et
développeur du site. Pour tout probleme ou question envoyez un mini message ou mail.
Suivez l'actualité de tous vos site préférés sur yAronews :
http://ns.yaronet.com =)
onur Le 15/11/2007 à 17:49 et puis google trouve des mots avec < 4 lettres.
Tout ce qui passe pas par le port 80, c'est de la triche.
(et puis ils n'utilisent pas mysql, mais un truc qui a mis des années à être développé ...)
yAro Le 15/11/2007 à 20:07 Bon, je viens de relancer le script d'onur pour avoir des chiffres frais. J'ai lancé l'indexation sur 100 000 posts, voici les résultats :
1- j'ai mis un max execution time à 3600s, le script a pas fini de s'executer, il n'a reussi à indexer que 62 241 posts. (=> 50ms par post, sachant que les perfs vont se dégrader à force et à mesure que la table va contenir plus d'enregistrements)
2- la table contenant les mots a 69 971 lignes, ca ca va encore
3- la table assoc a 1 499 671 enregistrements
4- la table assoc fait 37 732 Ko
5- recherche ET exclusive, sans scoring
Maintenant mon systeme :
1- indexe 266 027 posts en environ 2min (=> moins d'1ms par post)
2- pese 125,6Mo pour ce nombre de posts
3- recherche booléenne avec scoring
Si on extrapole les résultats du truc d'onur on aura du coup, pour 266 027 posts, une table d'assoc qui va contenir 5 701 690 .. ca tient dans une table ca ???
Maintenant qui peut m'expliquer, point par point en quoi le systeme d'onur est meilleur ?

Webmaster et
développeur du site. Pour tout probleme ou question envoyez un mini message ou mail.
Suivez l'actualité de tous vos site préférés sur yAronews :
http://ns.yaronet.com =)
Je crois que le seul probleme est/etait l'utilisabilité de la recherche (un peu contraignante a une epoque il me semble) mais pas la pertinance

Proud to be CAKE©®™
GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.
yAro Le 15/11/2007 à 20:29 bah là ca me semble bon non ?

Webmaster et
développeur du site. Pour tout probleme ou question envoyez un mini message ou mail.
Suivez l'actualité de tous vos site préférés sur yAronews :
http://ns.yaronet.com =)
Je suis d'accord avec vous. J'essayais juste de comprendre tout ça. Je me tais.
onur Le 15/11/2007 à 21:01
1° le temps n'est pas important franchement, entre 1ms et 50ms on va pas chipotter quoi. Ce temps va augmenter avec le nombre de post, oui. Mais que très peu. A mon avis on arrivera difficilement à 60ms vu le nombre de posts qu'il y a déjà. C'est de la mauvaise foi j'ai l'impression.
2° donc en extrapolant, mon "algo" (c'est prétentieux de l'appeler ainsi mais bon) prendrait 145 Mo contre 125Mo pour le tiens? On est loin des rapports annoncés dans les posts assassins précedents par tes potes.
3° Le scoring n'a pas vraiment de sens avec un "ET" puisque la recherche ne te trouve pas "ce qu'il peut" mais "exactement ce que tu veux".
4° Oui les mots de moins de 4 lettres sont importants, parce qu'il y en a toujours au moins un dans un bout de phrase dont on se souvient. exemple "cdg contre les ...."
Tout ce qui passe pas par le port 80, c'est de la triche.
kim Le 15/11/2007 à 21:05 ça représente grosso modo temps actuel * 4.

Il n'a pas de mots
Décrire son mépris
Perdre les rênes
Il a perdu la foi
onur Le 15/11/2007 à 21:06 Tu sens la différence entre 1ms et 50ms quand tu posts? Les aléas du réseau impliquent beaucoup plus de différence je pense.
En plus, pour une insertion séparé, je pense pas que ca prenne 50ms, ca m'étonne un peu, mais je peux pas dire, j'ai pas fait de bench à ce point.
Tout ce qui passe pas par le port 80, c'est de la triche.
sauf qeu ce n'set pas quand tu poste mais poru indexer, et c'est quand meme bcp ! (c'est comme si tu mettait 50h pour faire un truc qui prend 1h..)

Proud to be CAKE©®™
GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.
kim Le 15/11/2007 à 21:08 moi non (quoique), mais le serveur, lui, tu lui multiplies d'autant la charge.

Il n'a pas de mots
Décrire son mépris
Perdre les rênes
Il a perdu la foi
onur Le 15/11/2007 à 21:09 exemple de suxage:
"Un bon sac de voyage" renvoie par hasard le bon résultat en troisième place... mais avant il trouve "voyage voyage" et je ne sais quoi d'autre..
Si ca sortait le bon résultat, tu tiendrais pas tant à ton "score". (Et encore pour mysql "voyage voyage" a plus de ou autant de score que "Un bon sac de voyage")
Tout ce qui passe pas par le port 80, c'est de la triche.