chemical_equation_balancer/parser.py

159 lines
4.9 KiB
Python
Raw Normal View History

2022-12-10 16:30:23 +08:00
import re
from validity_check import check_atom
def parse_atom(atom):
"""
将化学式中的原子转化为字典
:param atom: 原子的字符串表示
:return: 原子的字典表示{'元素名称': 元素个数}
"""
if len(atom) == 1:
check_atom(atom)
return {atom: 1}
elif len(atom) == 2:
if atom[1].isdigit():
check_atom(atom[0])
return {atom[0]: int(atom[1])}
else:
check_atom(atom)
return {atom: 1}
else:
check_atom(atom[:-1])
return {atom[:-1]: int(atom[-1])}
def combine_same_atom(parsed_molecule):
"""
合并同类原子类型不变数量相加
:param parsed_molecule: 化学式的字典表示
:return: 合并完成后化学式的字典表示
"""
atoms = parsed_molecule['atoms']
new_atoms = []
for atom in atoms:
for new_atom in new_atoms:
if list(atom.keys())[0] == list(new_atom.keys())[0]:
new_atom[list(atom.keys())[0]] += atom[list(atom.keys())[0]]
break
else:
new_atoms.append(atom)
return {
'atoms': new_atoms,
'coefficient': parsed_molecule['coefficient'],
'pretty_name': parsed_molecule['pretty_name']
}
def parse_atomic_clusters(atomic_clusters):
"""
将原子团转化为字典
:param atomic_clusters: 经过parse_molecule处理后的原子团
(ClO)2->['(', 'Cl', 'O', ')2']
:return: 原子团的字典表示
"""
# 去除首括号
atomic_clusters = atomic_clusters[1:]
# 去除尾括号,解析尾括号后的数值作为原子团系数
if atomic_clusters[-1][-1].isdigit():
coefficient = int(atomic_clusters[-1][-1])
atomic_clusters = atomic_clusters[:-1]
elif atomic_clusters[-1] == ')':
coefficient = 1
else:
raise ValueError('无效的原子团系数')
# 解析原子团
atoms = []
for atom in atomic_clusters:
atoms.append(parse_atom(atom))
return {
'atoms': atoms,
'coefficient': coefficient,
'pretty_name': ''.join(atomic_clusters)
}
def parse_molecule(molecule):
"""
将化学式转化为字典以大小写区分不同元素元素的第一个字母大写
注意一个化学式中可能包含多个元素
应当得到一个字典
{
'atoms': [ {'元素名称': 元素个数}, {'元素名称': 元素个数}, ... ],
'coefficient': 系数,
'pretty_name': 化学式的字符串表示
}
:param molecule: 化学式
:return: 化学式的字典表示
"""
pretty_name = ''
if molecule[0].isdigit():
coefficient = int(molecule[0])
pretty_name = molecule = molecule[1:]
else:
coefficient = 1
pretty_name = molecule
# 以大写字母为分隔符,分割化学式
molecule = re.split(r'([A-Z][a-z]*)', molecule)
molecule = [i for i in molecule if i != '']
# 将原子团提取出来单独处理
atomic_clusters = []
for i in range(len(molecule)):
if molecule[i] == '(':
j = i + 1
while molecule[j][0] != ')':
j += 1
if j == len(molecule):
raise ValueError('括号不匹配')
for k in range(i, j + 1):
atomic_clusters.append(molecule[k])
for k in range(i, j + 1):
molecule[k] = ''
# 如果出现单个数字,说明该数字是系数,将其追加到上一个原子/原子团(非空字符串)的后面
if molecule[i].isdigit():
while molecule[i - 1] == '':
i -= 1
if i == 0:
raise ValueError('系数错误')
molecule[i - 1] += molecule[i]
molecule[i] = ''
molecule = [i for i in molecule if i != '']
atoms = []
for i in molecule:
atoms.append(parse_atom(i))
# 解析原子团
if len(atomic_clusters) != 0:
parsed_atomic_clusters = parse_atomic_clusters(atomic_clusters)
for each in parsed_atomic_clusters['atoms']:
quantity = each[list(each.keys())[0]] * parsed_atomic_clusters['coefficient']
each[list(each.keys())[0]] = quantity
atoms.append(each)
parsed_atom = {
'atoms': atoms,
'coefficient': coefficient,
'pretty_name': pretty_name
}
return combine_same_atom(parsed_atom)
def parse_equation(eq):
"""
将化学方程式转化为字典
:param eq: 化学方程式
:return: 化学方程式的字典表示
"""
eq = eq.replace(' ', '')
eq = eq.replace('->', '=')
eq = eq.replace('=', '=>')
eq = eq.split('=>')
left = eq[0]
right = eq[1]
left = left.split('+')
right = right.split('+')
left = [parse_molecule(molecule) for molecule in left]
right = [parse_molecule(molecule) for molecule in right]
return {
'left': left,
'right': right
}