我有一个python(如果需要的话,为3.1)应用程序,该程序可以腌制数据以供其他进程使用,并通过网络连接交换它们。由于某些原因,某些交换异常大...我可以理解一些腌制数据并弄清楚传输了什么,但是仍然存在大量的二进制数据,这些二进制数据我无法向自己解释,例如冗余字符串或大块的二进制数据。

您是否知道是否有一个Wireshark插件可以帮助我完成该任务,或者您是否建议其他人尝试找出在通过连接传输对象之前应该=None执行的其他处理?

RouteDirect
q.).q.}q.(X...._RouteDirect__dst_nodeq.cnode
Node
q.).q.}q.(X...._Node__status_upq.NX...._Node__neighbourhoodq.NX...._Node__sendq.NX
..._Node__cpeq
cequation
CPE
q.).q.}q^M(X...._CPE__dim_countq.}q.X...._CPE__internal_nodesq.]q.ubX...._Node__major_stateq.NX...._Node__partition_idq.G?.$:..4.    X...._Node__name_idq.cnodeid
NameID
q.).q.}q.X^M..._NameID__nameq.X....checkq.sbX...._Node__dispatcherq.NX...._Node__pendingq.]q.cmessages


^我可以理解这一点:RouteDirect,CPE和NameID是程序中的类。

v我对此感到更加惊讶:交换中应该没有那么多“普通二进制”数据,尽管Iproto,Tflags,Isrc和Idst是包含在这些数据中的字符串

 q0).q1}q2(X...._Range__maxq3X....1f40q4X...._Range__min_includedq5.X...._Range__max_includedq6.X...._
 Range__minq7h4ubX...._Component__dimensionq8h'ubh&).q9}q:h)X....Tflagsq;sbh+).q<}q=(h..h/h0).q>}q?
 (h3X....02q@h5.h6.h7h@ubh8h9ubh&).qA}qBh)X....IprotoqCsbh+).qD}qE(h..h/h0).qF}qG(h3X...

 .06qHh5.h6.h7hHubh8hAubh&).qI}qJh)X....IsrcqKsbh+).qL}qM(h..h/h0).qN}qO(h3X....7d59d8faqPh5.h6.
 h7hPubh8hIubh&).qQ}qRh)X....IdstqS
 sbh+).qT}qU(h..h/h0).qV}qW(h3X....00001011qXh5.h6.h7hXubh8hQubh&).qY}qZh)X....Tsrcq[sbh+).q\}q]
 (h..h/h0).q^}q_(h3X....0bcfq`h5.h6.h7h`ubh8hYubusbX....


v,这确实令人困惑。

qt).qu}qv(X...._LookupRequest__keyqwh!).qx}qyh$}qz(h&).q{}q|h)h*sbh+).q}}q~(h..h/h0).q.}q.
(h3h4h5.h6.h7h4ubh8h{ubh&).q.}q.h)h;sbh+).q.}q.(h..h/h0).q.}q.(h3h@h5.h6.h7h@ubh8h.ubh&).q.}q.h)hCsbh+).q.}q.(h..h/h0).q.}q.
(h3hHh5.h6.h7hHubh8h.ubh&).q.}q.h)hKsbh+).q.}q.(h..h/h0).q.}q.(h3hPh5.h6.h7hPubh8h.ubh&).q.}q.h)hSsbh+).q.}q.(h..h/h0).q.}q.
(h3hXh5.h6.h7hXubh8h.ubh&).q.}q.h)h[sbh+).q.}q.(h..h/h0).q.}q.
(h3h`h5.h6.h7h`ubh8h.ubusbX...._LookupRequest__nonceq.G?...u...X...._LookupRequest__fromq.h.).q.}q.(h.Nh.Nh.Nh
h.).q.}q.(h.}q.


最让我困惑的是,似乎太规律了,例如仅以二进制形式浮点/整数。它对数字和[shub]以及许多'isolated'q的...具有一定的亲和力,这使我更想起机器代码。还是我的眼睛?

Node类中的酸洗支持示例,
    #
    #定义特殊的酸洗行为。

def __getstate__(self):
    """Indicate witch fields should be pickled."""
    state = copy.copy(self.__dict__)

    # 'state' is a shallow copy: don't modify objects' content
    # Make transients fields point to nothing
    state['_Node__dispatcher'] = None
    state['_Node__send'] = None
    state['_Node__neighbourhood'] = None
    state['_Node__status_up'] = None
    state['_Node__data_store'] = None
    state['_Node__running_op'] = None
    state['_Node__major_state'] = None

    return state


许多其他对象(例如CPERouteDirect)没有__getstate__方法。当然,如果有某种技术不需要我遍历所有类的所有构造函数,我会喜欢它。

最佳答案

嗯,阅读/usr/lib/python3.1/pickle.py代码至少要少一点点:腌制的输出确实是某些解释器的某些字节码,而push / pop对则解释了所看到的常规模式。

BINPUT         = b'q'   # store stack top in memo; index is 1-byte arg
BINGET         = b'h'   # push item from memo on stack; index is 1-byte arg
EMPTY_TUPLE    = b')'   # push empty tuple
MARK           = b'('   # push special markobject on stack


等等

按照@Alfe的评论,我使用wireshark的“遵循TCP流”和“另存为...”功能捕获了原始流量,然后使用了

x=pickle.load(open("wirecapture.bin","rb"))


并使用Python评估程序更好地了解其中的内容。 Esp。使用

len(pickle.dump(x.my_field))


对于dir(x)报告的所有字段,我可以查明超大字段。不幸的是,我无法

for y in dir(x):
   print("%s: %iKb"%(y,len(pickle.dumps(x[y])/1024))


正常工作(当y == x[y]> _ x.my_field不是提取'my_field'的有效方法)

关于python - 我怎么能找到为什么我的 pickle 数据这么大?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/12368760/

10-12 21:57
查看更多