C#清除HTML样式

需求说明:

网站开发时我们经常用一个富文本控件让用户自己编辑新闻内容和新闻格式,然后将HTML代码一并保存到数据库中。

然后显示文章列表的时候只需要显示一个文章摘要,所以我们就计划将文章内容截取前面50个字符作为摘要,不过这个摘要需要去除文章里面的HTML样式,所以最后我们采用正则表达式处理,使用方式如下:

public string striphtml(string strhtml)
{
string stroutput = strhtml;
Regex regex = new Regex(@"<[^>]+>|</[^>]+>");
stroutput = regex.Replace(stroutput, "");
stroutput = new Regex(@"(&nbsp;)+").Replace(stroutput, " ");
return stroutput;
}
05-11 13:08