1

Je suis curieux de savoir si quelqu'un comprend, sait ou peut me diriger vers une littérature complète ou un code source sur la façon dont Google a créé sa fonctionnalité de blocs de passage populaires. Cependant, si vous connaissez d'autres applications qui peuvent faire la même chose, veuillez également poster votre réponse.Comment la fonctionnalité de passages populaires de Google Livres a-t-elle été développée?

Si vous ne savez pas ce que j'écris à propos de here is a link to an example de Passages populaires. Quand vous regardez la vue d'ensemble du livre Modélisation du processus de décision de justice pour les applications de technologies de l'information ... Par Georgios N. Yannopoulos vous pouvez voir quelque chose comme:

passages populaires

.. direction, indéterminée. Nous avons pas réglé, parce que nous n'avons pas prévu, la question qui sera être soulevée par le cas non prévu lorsque il se produit; si un certain degré de paix dans le parc doit être sacrifié à, ou défendu contre, ces enfants dont le plaisir ou l'intérêt est d'utiliser ces choses. Lorsque le carton ne se présente pas, nous affronter les enjeux et pouvons puis régler la question en choisissant entre les différents concurrents faisant partie de la catégorie qui nous satisfait le mieux. En font ... Page 86

Appears in 15 books from 1968-2003

Ce serait un monde digne de jurisprudence "mécanique". Il est clair que ce monde n'est pas notre monde; humain législateurs ne peuvent avoir aucune connaissance de toutes les combinaisons possibles de circonstances que l'avenir peut apporter. Cette incapacité à anticiper apporte avec elle un relatif indétermination de visée. Quand nous osons assez pour encadrer une règle générale de conduite (par exemple, une règle qu'aucun véhicule peut être pris dans le parc), la langue utilisée dans ce contexte fixe conditions nécessaires qui doivent satisfaire tout ... Page 86

Appears in 8 books from 1968-2000

more

Il doit y avoir un procédé de correspondance de motif intensive. Je ne peux penser qu'aux modèles n-gram, au corpus de texte, à la détection automatique du plagiat. Mais, parfois n-grammes sont des modèles probabilistes pour prédire l'élément suivant dans une séquence et le corpus de texte (à ma connaissance) sont créés manuellement. Et, dans ce cas particulier, passages populaires, il peut y avoir beaucoup de mots.

Je suis vraiment perdu. Si je voulais créer une telle fonctionnalité, comment ou où devrais-je commencer? En outre, incluez dans votre réponse quels langages de programmation sont les mieux adaptés pour ce genre de choses: F # ou tout autre langage fonctionnel, PERL, Python, Java ...(Je deviens fan F # moi-même)

PS: quelqu'un peut-il inclure la balise automatique plagiat détection, parce que je ne peux pas

+0

J'ai essayé d'ajouter la balise, mais il semble que les balises SO soient limitées à 25 caractères. – outis

+0

* automatique-plagiat-détection * comme une étiquette, semble ésotérique. Je doute que quelqu'un puisse l'utiliser comme critère de recherche. Vous voudrez peut-être proposer quelque chose de plus général. – ichiban

+0

Eh bien, c'est comme ça que j'ai vu l'industrie marquer les choses. Je ne pense pas avoir l'autorité pour le changer. Allez-y et essayez une recherche et vous trouverez quelques résultats sur: ieee.org et acm.org et le projet MOSS à stanford, pour n'en nommer que quelques-uns. – dde

Répondre

6

Lisez this ACM paper de Kolak et Schilit, les chercheurs de Google qui ont développé les Passages populaires. Il ya aussi a few relevant slides de ce cours de MapReduce enseigné par Baldridge et Lease à l'Université du Texas à Austin.

0

Dans le petit échantillon que je regardais, il ressemble à tous les passages cueillis étaient des citations en ligne ou en bloc. Juste une supposition, mais peut-être Google Books cherche des marques de citation/différences dans le formatage et une citation, puis utilise une version analysée de la bibliographie pour associer la citation à la source. Hourra pour les manuels de style. Cette approche n'est évidemment d'aucune aide pour détecter le plagiat et n'aide pas si le corpus n'est pas dans un format qui préserve le formatage du texte.

0

Si vous savez quels livres citent ou référencent d'autres livres, vous n'avez pas besoin de regarder tous les livres possibles seulement les livres qui se citent les uns les autres. Si c'est une référence scientifique, les numéros de ligne et de page sont souvent inclus dans la citation ou peuvent être trouvés dans la bibliographie à la fin du livre, donc peut-être google ne traite que ces informations?

Google scholar a certainement l'information sur la citation de papier à papier peut-être de livre en livre aussi.

Questions connexes