使用expect+python拉取数据并生成报表

虽然脚本周一的时候就写好了，但是昨天才是第一次正式使用。加上昨天写了第二篇shell的tips，所以expect+python的脚本gen_report今天才写。

首先说一下背景。由于工作需要，有时我需要ssh到服务器上拉取运行数据生成报表。整个过程很枯燥，就是登录服务器，输入密码，运行二三十条很像的命令，把数据复制到microsoft excel或者libre office calc中计算。一言以蔽之：整个人肉操作。

很明显，如果让我天天干，我肯定不愿意。但是即使不是天天干，一周干一次，我也不愿意，因为命令执行很慢，来回弄肯定要半天。按照《时间管理给系统管理员》，这种时候最适合写脚本了。

常规策略是在服务器上写好一个脚本，ssh上去执行一下，再使用scp把结果下载下来，最后使用比如python来解析生成csv等报表。但是，不行。首先遇到的问题就是服务器貌似不支持publickey，其次服务器上命令有限制（很常见，你不是管理员），不支持publickey的直接后果是ssh后执行命令和scp无法使用，只能另外寻找方法。

由于某些原因，我知道expect。虽然交互式的命令很好，但是如果你要让交互式的命令自动化的话，却很麻烦，比如ssh，ftp。这个时候expect可以帮助你解决问题。证明是网上搜索expect ssh login一抓一大把。所以我现在的考虑是通过expect代替ssh登录服务器执行命令。因为不能用scp，所以考虑把expect通过重定向或者tee放入某个文件中，最后让python解析这个日志文件即可。（最近重新看了点expect的书，貌似expect可以直接设置日志文件，不用tee之类的重定向，之后有空可以尝试下。）

基本策略确定了，方向基本也清楚了。由于涉及expect和python两种语言和程序，所以我选择shell做总控制的脚本。以下是总控制脚本即gen_report的内容（部分和工作相关的内容已经做了修改）：

#!/bin/sh

FETCH_LOG=./fetch_log
PARSE_LOG=./parse_log
TODAY=`date +%Y-%m-%d`
LOG_FILE=foo-$TODAY.log
CSV_FILE=foo-$TODAY.csv

# $1 is password
$FETCH_LOG $1 2>&1 | tee $LOG_FILE
$PARSE_LOG $LOG_FILE | tee $CSV_FILE
rm $LOG_FILE

解释一下，fetch_log是expect脚本，parse_log是python脚本，中间文件是LOG_FILE，最后生成的是CSV_FILE。
脚本需要输入的是$1，即注释中的密码。考虑到有人不知道tee这个命令，解释一下tee是一个把内容输出到文件和标准输出的命令。其次2>&1含义是把错误输出到标准输出中，否则你的日志文件中可能看不到错误信息。
脚本逻辑很简单，如果之前的解释看懂了的话，三行脚本的内容很容易理解。就是expect获取输出，python解析，最后删除中间文件。

fetch_log即expect脚本由于和工作相关的内容比较多，这里只列出部分：

#!/usr/bin/expect -f

set timeout -1
set prompt "*$ "

proc stat {a b c d} {
  // omit
}

set password [lindex $argv 0]

spawn ssh user@server
expect "*Password:*" {
  send "$password\n"
}

stat "1" "2" "3" "4"
stat "2" "2" "3" "4"
stat "3" "2" "3" "4"
stat "4" "2" "3" "4"

expect $prompt {
  exit
}

解释一下，spawn->expect password->enter password是典型的登录服务器的方式。之后的stat是我需要在远程服务器上执行的命令，最后执行完之后exit。需要注意的是expect默认超时是10s，由于服务器命令执行比较耗时，所以我调整为-1。更多的expect资料建议man expect，google expect或者看《exploring expect》。

最后是解析的python脚本parse_log。这个脚本预期的输入格式是这样的：

$prompt $key
command
$result

第一行为提示符+命令关键字，第二行为具体命令，第三行为执行结果（单行）。python解析脚本如下：

#!/usr/bin/env python

import sys

def row(key, count):
	return key.split(',') + [count]

def parse(filepath):
	f = open(filepath)
	rows = []
	while True:
		line = f.readline()
		if not line:
			break
		if line.startswith('prompt:'):
			# pass command
			f.readline()
			count = f.readline()
                        # cut prompt from position 6
			rows.append(row(line.rstrip()[6:], count.rstrip()))
	f.close()
	return rows

if __name__ == "__main__":
	print 'header'
	for row in parse(sys.argv[1]):
		print ','.join(row)

至此，所有脚本介绍完毕。昨天执行的时候运行良好，大概只花了半个多小时，不用自己去关注。结果大致是个csv的表格，这里就不具体列出来了。
最后，感叹了linux果然是开发工程师必学的工具啊，对平时的任务非常有用，相比之下，我还真不知道windows该怎么弄……

箱猫日和

使用expect+python拉取数据并生成报表

One response to “使用expect+python拉取数据并生成报表”