NLP (Natural Language Processing)
Tensorflow-reader.py
os.path.join(data_path, "ptb.train.txt")
#定义文件路径
#join函数为路径拼接函数
>>>os.path.join('a','b','c')
>>>a\\b\\c'
_build_vocab(train_path)
#对输入文本进行排序,首要字段 value(频率),次要字段 key,返回类型为字典(字符:_id)
train_data = _file_to_word_ids(train_path, word_to_id)
#将输入文本按照生成的字典映射为 id 序列
vocabulary = len(word_to_id)
#记录字典大小,未在字典中出现的字符将被忽略
with tf.name_scope(name, "PTBProducer", [raw_data, batch_size, num_steps]):
#定义命名空间,不同命名空间内的 Variable name 属性可以相同
__init__(
name,#域名
default_name=None,#域名未指定时的默认值
values=None#传入的变量列表,可在上下文中操作修改
)
raw_data = tf.convert_to_tensor(raw_data, name="raw_data", dtype=tf.int32)
#将 python 中的数据类型转换为 tensor 张量