Je suis curieux de savoir si quelqu'un comprend, sait ou peut me diriger vers une littérature complète ou un code source sur la façon dont Google a créé sa fonctionnalité de blocs de passage populaires. Cependant, si vous connaissez d'autres applications qui peuvent faire la même chose, veuillez également poster votre réponse.Comment la fonctionnalité de passages populaires de Google Livres a-t-elle été développée?
Si vous ne savez pas ce que j'écris à propos de here is a link to an example de Passages populaires. Quand vous regardez la vue d'ensemble du livre Modélisation du processus de décision de justice pour les applications de technologies de l'information ... Par Georgios N. Yannopoulos vous pouvez voir quelque chose comme:
passages populaires
.. direction, indéterminée. Nous avons pas réglé, parce que nous n'avons pas prévu, la question qui sera être soulevée par le cas non prévu lorsque il se produit; si un certain degré de paix dans le parc doit être sacrifié à, ou défendu contre, ces enfants dont le plaisir ou l'intérêt est d'utiliser ces choses. Lorsque le carton ne se présente pas, nous affronter les enjeux et pouvons puis régler la question en choisissant entre les différents concurrents faisant partie de la catégorie qui nous satisfait le mieux. En font ... Page 86
Appears in 15 books from 1968-2003
Ce serait un monde digne de jurisprudence "mécanique". Il est clair que ce monde n'est pas notre monde; humain législateurs ne peuvent avoir aucune connaissance de toutes les combinaisons possibles de circonstances que l'avenir peut apporter. Cette incapacité à anticiper apporte avec elle un relatif indétermination de visée. Quand nous osons assez pour encadrer une règle générale de conduite (par exemple, une règle qu'aucun véhicule peut être pris dans le parc), la langue utilisée dans ce contexte fixe conditions nécessaires qui doivent satisfaire tout ... Page 86
Il doit y avoir un procédé de correspondance de motif intensive. Je ne peux penser qu'aux modèles n-gram, au corpus de texte, à la détection automatique du plagiat. Mais, parfois n-grammes sont des modèles probabilistes pour prédire l'élément suivant dans une séquence et le corpus de texte (à ma connaissance) sont créés manuellement. Et, dans ce cas particulier, passages populaires, il peut y avoir beaucoup de mots.
Je suis vraiment perdu. Si je voulais créer une telle fonctionnalité, comment ou où devrais-je commencer? En outre, incluez dans votre réponse quels langages de programmation sont les mieux adaptés pour ce genre de choses: F # ou tout autre langage fonctionnel, PERL, Python, Java ...(Je deviens fan F # moi-même)
PS: quelqu'un peut-il inclure la balise automatique plagiat détection, parce que je ne peux pas
J'ai essayé d'ajouter la balise, mais il semble que les balises SO soient limitées à 25 caractères. – outis
* automatique-plagiat-détection * comme une étiquette, semble ésotérique. Je doute que quelqu'un puisse l'utiliser comme critère de recherche. Vous voudrez peut-être proposer quelque chose de plus général. – ichiban
Eh bien, c'est comme ça que j'ai vu l'industrie marquer les choses. Je ne pense pas avoir l'autorité pour le changer. Allez-y et essayez une recherche et vous trouverez quelques résultats sur: ieee.org et acm.org et le projet MOSS à stanford, pour n'en nommer que quelques-uns. – dde