python版本py3
tail -f file是打印最后10行,然后跟踪文件追加的内容打印出来。
python3 以为本方式打开的话,不能回退(f.seek(-1,1)),所有以'rb'方式打开文件。
思路是f.seek(-n,2)从文件末尾回退n字节,然后f.readlines()读取文件,如果读到的少于10行,则再往前移动n字节,直到读到11行,然后打印出来,再跟踪打印文件追加的内容,并打印。
知识点:
f.tell()返回当前的文件位置
f.seek(n,m),m=0从文件开头往前或往后移到n字节,负数表示像文件头方向移动,正数表示向文件尾移动,m=1表示从文件指针当前位置移动,m=2表示从文件末尾开始移动,指针超出边界会报错。
f.seek(0,2)移到文件末尾
open(file,'r')以文本方式打开,open(file,'rb')以二进制方式打开。
由于文档是utf8或gbk编码保存的文件,以二进制方式打开文件读取到的是uft8或gbk编码(字节),所有打印是需要解码。
个人觉得在py2中,
"我”是str类型,utf8或gbk编码保存在内存中,只能进行解码成unicode操作:
py3中
‘我’是str类型,以unicode编码放在内存中,只能解码成bytes操作:
具体代码实现:
#! -*- coding:utf-8 -*-
# runing on python3
import os,sys
from time import sleep
COUDING=sys.getfilesystemencoding() class tail(object): def __init__(self,n,filename,callback):
self._n = n
self.filename= filename
self.callback = callback
self.track() def track(self):
if os.path.exists(self.filename):
if os.path.isfile(self.filename):
try:
with open(self.filename,'rb') as f:
self._file = f
# 文件内部指针移到末尾
f.seek(0, os.SEEK_END)
self._len = f.tell()
self.showline()
while True:
line = f.readline()
self.callback(line)
sleep(0.5)
except Exception as e:
print(e)
else:
sys.stdout.write("tail: %s: cannot follow end of this type of file; giving up on this name"%self.filename)
else:
sys.stdout.write("tail: cannot open `%s' for reading: No such file or directory"%self.filename) def showline(self):
# 假设每行100个字节
line_len = 100
n = self._n
# 文件字节数小于500,直接从头读文件,然后取后5行
if self._len < n * line_len:
self._file.seek(0)
lines = self._file.readlines()[-self._n:]
self.callback(lines)
else:
# 指针总文件末尾往文件头移动n * line-len个字节
while True:
self._file.seek(-n*line_len,os.SEEK_END)
lines = self._file.readlines()
# 读n+1行,因为seek是以字节为单位移到的,如果移到一个中文字符的编码的中间,会出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte
if len(lines) > self._n:
self.callback(lines[-self._n:])
return
else:
n += 1 def printline(lines):
if isinstance(lines,list):
for line in lines:
sys.stdout.write(line.decode(COUDING))
elif isinstance(lines,bytes):
sys.stdout.write(lines.decode(COUDING)) if __name__ == "__main__":
if len(sys.argv) < 2:
print("xxx")
else:
# 可加参数解析模块来获取文件名和显示最后多少行
tail(10,sys.argv[1],printline)