# File: convextract.py
# 文章から発話部分を抜き出す。

lines=[]						# 発話テキストを保持するリスト
with open('text02.txt',encoding='utf-8') as f:	# テキスト読み込み用としてオープン
	for l in f:
		if '「' in l :			# 行の中に'「'がある (発話がある)
			speak=''			# 発話を保持するための文字列
			for e in l:			# 行を文字単位でチェックしていく
				if e == '「':
					speak = speak+e # 文字を加える
					continue		# 次に進む
				if e == '」':		# 発話が終了
					speak = speak+e
					lines.append(speak) # リストに追加
					speak=''			# 次のために初期化
				if speak != '':			# 発話の最中なら文字列に文字を加える
					speak=speak + e

with open('conv.txt','w',encoding='utf-8') as f:	# 書き出しファイルをオープン
	for l in lines:				# リストの要素(発話)を1つ取り出す
		if '《' in l:			# 文字列の中に読みがながあるか
			flag=False			# あればフラグをオフにする
			for e in l:			# 一文字づつチェックする
				if e == '《':	# 読みがな開始
					flag=True	# フラグをオン
					continue	# スキップ
				if e == '》':	# 読みがな終了
					flag=False	# フラグをオフ
					continue	# スキップ
				if flag == False: # フラグが立っていない（読みがなではない）
					f.write(e)	  # ファイルに書き出し
			else:
				f.write('\n')	# 一行終わると改行を加える
		else:
			f.write(l+'\n')		# 文字列の中に読みがながなかったので書き出す