昨天下午,测试反映trunk测试环境的数据库CPU一直100%,一开始以为是病毒,内网这段时间老是有个挖矿的病毒,查了一下被隔离了,但是数据库还是慢,停掉SQL server的服务CPU降下来,启动SSQL server的服务器就CPU就到100%,按照正常情况,

SQL Server导致CPU爆高,一般是异常SQL引起,但查询了监控:

   SQL Server服务器CPU爆高解决-LMLPHP

   查询是RiskControlAnalysis,TaskTrunk库的sql比较多,先分离RiskControlAnalysis看看是否是这个库的原因,分离后CPU还是很高,再分离TaskTrunk库,报错,无法分离,这时怀疑是服务器的磁盘性能问题,停SQL服务,用

CrystalDiskMark 6.0测试一下磁盘的性能,磁盘性能的确不怎样,但是也没差到这样的地步。

    后面只能进一步分离TaskTrunk库,分离后,在看服务器CPU,发现正常了,原因就出在TaskTrunk库,后来在看看监控的sql,发现一条查询SQL:     

select count(1) from tb_log E where 1=1  and E.taskid=@taskid

 这个tb_log 有3亿条,查询taskid字段没有索引,导致查询IO很慢,进而影响CPU爆高。后重建一张新的tb_log表,并在taskid字段加上索引,以前的表做历史数据。性能问题解决。

  

   现在想想,就一个简单的SQL查询,用DMV性能视图和实时监控的SQL,为何查不出来,这个监控查SQL,他的CPU和时间都不是特别高,并没有特殊异常的情况,而且查数据库也没有未提交的事务在运行。

  如果这样的情况出现在线上,解决的时间这么长,肯定会问题。想想有没有简单的方法发现这个SQL,突发灵感,以前查询正在执行的SQL就可以发现这个问题,测试了一下,的确可用:

    这个SQL:  查询正在执行的SQL

                    优势:  1,以前的DMV是查已经执行完毕的SQL,如果这个SQL一直假死,性能视图就查不出来

                               2,和[sp_WhoIsActive]监控出来的sql相比,能很清晰的显示正在执行的sql和等待事件,定位更精准,特别是正在运行的。

--数据库CPU很高,查询问题的SQL,根据时间“等待毫秒”,查出问题的SQL
SELECT   spid,
         blocked,
         DB_NAME(sp.dbid) AS DBName,
         program_name,
         waitresource,
         sp.waittime 等待毫秒,
         sp.stmt_start,
         lastwaittype,
         sp.loginame,
         sp.Status,
         sp.hostname,
         a.[Text] AS [TextData],
         SUBSTRING(A.text, sp.stmt_start / 2,
         (CASE WHEN sp.stmt_end = -1 THEN DATALENGTH(A.text) ELSE sp.stmt_end
         END - sp.stmt_start) / 2) AS [current_cmd]
FROM     sys.sysprocesses AS sp OUTER APPLY sys.dm_exec_sql_text (sp.sql_handle) AS A
WHERE    spid > 50 --and lastwaittype='HADR_SYNC_COMMIT'
AND Status<>'sleeping'
ORDER BY sp.waittime desc;

  

02-19 23:02