我正在编写一些反XSS代码,并希望列出常见的HTML标记及其相应的属性。
我在PostgresSQL数据库中有一个客户输入的HTML的大型数据库,我想挖掘这些数据,找出在不同列中常用的标记。
我正在考虑将数据库转储为纯文本,并使用grep或shell脚本来查找公共标记。做这件事的好方法是什么?我对在UNIX(OSX)或PostgreSQL中工作的任何东西都持开放态度。
最佳答案
查看OWASP java HTML序列化程序、OWASP AntiSamy或Jsoup
https://www.owasp.org/index.php/OWASP_Java_HTML_Sanitizer
https://www.owasp.org/index.php/Category:OWASP_AntiSamy_Project
http://jsoup.org/