我有一个包含许多列的Pandas数据框,下面是其中的一个子集:

df.info()

SQLDATE                  datetime64[ns]
SOURCEURL                object

df['SQLDATE', 'SOURCEURL'].sample()

SQLDATE    SOURCEURL
2017-01-08 http://www.huffingtonpost.co.uk/a/abc
2018-09-25 http://www.taiwannews.com.tw/a/news/123
2016-03-19 https://www.theguardian.com/a/2016/a/1/ab-bc
2015-12-12 https://nz.news.yahoo.com/world/a/3/a/
2017-04-07 https://www.thelocal.fr/2122/jkl
2019-02-21 http://today.az/news/a/123.html
2018-05-13 The BBC World News Report


我正在寻找一个可以提取域名的列,以便获得一个新的列,如下所示:

df.sample()

SQLDATE    SOURCEURL                               DOMAINNAME
2017-01-08 http://www.huffingtonpost.co.uk/a/abc   www.huffingtonpost.co.uk
2018-09-25 http://www.taiwannews.com.tw/a/news/123 www.taiwannews.com.tw
2016-03-19 https://www.theguardian.com/a...        www.theguardian.com
2015-12-12 https://nz.news.yahoo.com/world/a/3/a/  nz.news.yahoo.com
2017-04-07 https://www.thelocal.fr/2122/jkl        www.thelocal.fr
2019-02-21 http://today.az/news/a/123.html         today.az
2018-05-13 The BBC World News Report               The BBC World News Report


数据框确实看起来很乱,其中几个SOURCEURL字段仅包含文本,没有URL。我只想将这些值复制到DOMAINNAME列中。我对正则表达式不太熟悉,但这可能适用于这种情况。

感谢您的审核!

最佳答案

我们可以在正则表达式中使用正向后向?<=和正向前向?=,以获取http://https://与第一个/之间的所有内容:

m = df['SOURCEURL'].str.extract('(?<=http://)(.*?)(?=/)|(?<=https://)(.*?)(?=/)')
m = m[0].fillna(m[1]).fillna(df['SOURCEURL'])

df['DOMAINNAME'] = m


      SQLDATE                                     SOURCEURL                 DOMAINNAME
0  2017-01-08         http://www.huffingtonpost.co.uk/a/abc   www.huffingtonpost.co.uk
1  2018-09-25       http://www.taiwannews.com.tw/a/news/123      www.taiwannews.com.tw
2  2016-03-19  https://www.theguardian.com/a/2016/a/1/ab-bc        www.theguardian.com
3  2015-12-12        https://nz.news.yahoo.com/world/a/3/a/          nz.news.yahoo.com
4  2017-04-07              https://www.thelocal.fr/2122/jkl            www.thelocal.fr
5  2019-02-21               http://today.az/news/a/123.html                   today.az
6  2018-05-13                     The BBC World News Report  The BBC World News Report

关于python - 如何提取域名并将其插入新的Pandas列?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56842004/

10-12 00:43