我试图从葡萄酒的名称中分析年份我期待得到大约50%的准确性与下面的代码,但希望改善这一点,如果可能的话有人知道我能做些什么来提高准确性吗?
示例标题及其解析年份返回:
Quinta dos Avidagos 2011 Avidagos Red (Douro) -> 0 incorrect
Rainstorm 2013 Pinot Gris (Willamette Valley) -> 2011 incorrect
Louis M. Martini 2012 Cabernet Sauvignon -> 2012 correct
Mirassou 2012 Chardonnay (Central Coast) -> 2012 correct
我正在执行的代码:
from dateutil.parser import parse
from datetime import datetime, timezone
df = "my pandas dataframe with wine titles"
dt = datetime.now()
dt.replace(tzinfo=timezone.utc)
year_parse = []
for i in range(len(df['title'])):
try:
ans = parse(df.title[i], fuzzy=True).year
year_parse.append(int(ans))
except:
ans = 0
year_parse.append(int(ans))
非常感谢您的建议!
最佳答案
你可以用regex来做这个我希望葡萄酒的名字有同样的模式。
import re
exp = re.compile(r'\d{4}')
year_parse = list()
for name in df['title']:
year = exp.findall(name)[0]
year_parse.append(year)
年度分析将全年都列在一个列表中。