Si vous avez 1000 phrases, et vous recherchez une chaîne d'entrée pour trouver de ces phrases sont des sous-chaînes, vous allez probablement pas être heureux avec les performances que vous obtenez d'utiliser une grande expression régulière. Un trie est un peu plus de travail à implémenter, mais c'est beaucoup plus efficace: l'expression régulière a|b|c|d|e
fait cinq tests sur chaque caractère dans une chaîne d'entrée donnée, alors qu'un trie n'en fait qu'un. Vous pourriez également utiliser un lexeur, comme Plex, qui produit un DFA.
Edit:
Je semble être temporisant ce matin. Essayez ceci:
class Trie(object):
def __init__(self):
self.children = {}
self.item = None
def add(self, item, remainder=None):
"""Add an item to the trie."""
if remainder == None:
remainder = item
if remainder == "":
self.item = item
else:
ch = remainder[0]
if not self.children.has_key(ch):
self.children[ch] = Trie()
self.children[ch].add(item, remainder[1:])
def find(self, word):
"""Return True if word is an item in the trie."""
if not word:
return True
ch = word[0]
if not self.children.has_key(ch):
return False
return self.children[ch].find(word[1:])
def find_words(self, word, results=None):
"""Find all items in the trie that word begins with."""
if results == None:
results = []
if self.item:
results.append(self.item)
if not word:
return results
ch = word[0]
if not self.children.has_key(ch):
return results
return self.children[ch].find_words(word[1:], results)
Un test rapide (words.txt
est le fichier de mots BSD, une chose très pratique d'avoir autour - il contient environ 240 000 mots):
>>> t = Trie()
>>> with open(r'c:\temp\words.txt', 'r') as f:
for word in f:
t.add(word.strip())
qui prend environ 15 secondes sur mon machine. Ceci, cependant, est presque instantanée:
>>> s = "I played video games in a drunken haze."
>>> r = []
>>> for i in range(len(s)):
r.extend(t.find_words(s[i:]))
>>> r
['I', 'p', 'play', 'l', 'la', 'lay', 'a', 'ay', 'aye', 'y', 'ye', 'yed', 'e', 'd', 'v', 'video', 'i', 'id', 'ide', 'd', 'de', 'e', 'o', 'g', 'ga', 'gam', 'game', 'a', 'am', 'ame', 'm', 'me', 'e', 'es', 's', 'i', 'in', 'n', 'a', 'd', 'drunk', 'drunken', 'r', 'run', 'u', 'un', 'unken', 'n', 'k', 'ken', 'e', 'en', 'n', 'h', 'ha', 'haze', 'a', 'z', 'e']
Oui, unken
est en words.txt. Je ne sais pas pourquoi.
Oh, et j'ai essayé de comparer avec des expressions régulières:
>>> import re
>>> with open(r'c:\temp\words.txt', 'r') as f:
p = "|".join([l.strip() for l in f])
>>> p = re.compile(p)
Traceback (most recent call last):
File "<pyshell#250>", line 1, in <module>
p = re.compile(p)
File "C:\Python26\lib\re.py", line 188, in compile
return _compile(pattern, flags)
File "C:\Python26\lib\re.py", line 241, in _compile
p = sre_compile.compile(pattern, flags)
File "C:\Python26\lib\sre_compile.py", line 529, in compile
groupindex, indexgroup
OverflowError: regular expression code size limit exceeded
bien-genre de. J'ai un bloc de texte et de phrases que je cherche dans ce bloc. Je le fais actuellement via une expression régulière comme ceci: >>> text_input = "Ceci est quelque chose avec la première phrase et la troisième phrase" >>> regex = "première phrase | deuxième phrase | troisième phrase" > >> p = re.compile (regex, re.I) >>> p.findall (text_input) ['première phrase', 'deuxième phrase'] –
FWIW, la syntaxe de compréhension est définie sur python 3.0 et supérieur. – hughdbrown
@hughdbrown: Je n'utilisais pas la compréhension ensemble, j'utilisais un nouveau style set littéraux http://docs.python.org/3.1/whatsnew/3.0.html#new-syntax Tout ici pourrait être accompli dans py 2. x en utilisant 'set (lst)' – SilentGhost