杰瑞科技汇

wordsmith使用教程,如何快速上手?

WordSmith 使用教程:从入门到精通

WordSmith Tools 是由 Lexical Analysis Software 公司开发的一款经典的语料库语言学软件,被誉为语料库分析的“瑞士军刀”,它以其功能强大、操作直观而备受语言研究者、教师、翻译和文本分析师的青睐。

wordsmith使用教程,如何快速上手?-图1
(图片来源网络,侵删)

本教程将分为以下几个部分:

  1. 初识 WordSmith:简介、核心优势与适用人群
  2. 安装与界面:如何安装及熟悉主界面
  3. 核心功能详解:六大核心工具的详细用法
  4. 实战案例:一个完整的分析流程示例
  5. 高级技巧与常见问题

第一部分:初识 WordSmith

1 什么是 WordSmith?

WordSmith 是一个软件包,它包含了一系列用于文本分析的工具,你可以把它想象成一个“文本实验室”,你可以把你的文本文件(如小说、新闻稿、学生作文、产品评论等)放进去,通过各种工具进行“解剖”和“化验”,从而揭示文本中隐藏的语言特征。

2 WordSmith 的核心优势

  • 功能全面:集词汇、词组、句子、语境等多种分析于一体。
  • 操作直观:图形化界面,大部分操作只需点击鼠标,无需编程。
  • 结果丰富:分析结果以列表、图表、图表等多种形式直观展示,并可轻松导出。
  • 历史悠久,社区成熟:作为行业标杆,有大量的教程和研究案例可供参考。

3 适用人群

  • 语言研究者:研究作者风格、语言变化、话语分析等。
  • 英语/语文教师:分析学生作文中的词汇丰富度、语法错误、搭配问题。
  • 翻译人员:分析特定领域的术语搭配和行文风格。
  • 市场/品牌分析师:分析消费者评论,了解公众对产品/品牌的情感和关注点。
  • 任何需要深入理解文本特征的人

第二部分:安装与界面

1 安装

  1. 下载:访问 WordSmith 官网 (https://www.lexicalanalysis.com/) 购买并下载安装程序。
  2. 安装:按照向导完成安装,安装过程非常简单,类似于普通软件。
  3. 启动:安装完成后,桌面会出现 WordSmith Tools 的图标,双击即可启动。

2 主界面

启动 WordSmith 后,你会看到一个简洁的主界面,这个界面是所有工具的“指挥中心”。

  • 顶部菜单栏:包含 File (文件)、Tools (工具)、Options (选项) 等。
  • 左侧工具列表:这是核心区域,列出了 WordSmith 的所有工具,我们将重点介绍其中最常用的六个。
  • 中间主要区域:用于显示当前选中的工具的设置界面和结果。
  • 底部状态栏:显示一些状态信息。

第三部分:核心功能详解

WordSmith 的六大核心工具是每个用户都必须掌握的,我们将逐一讲解。

wordsmith使用教程,如何快速上手?-图2
(图片来源网络,侵删)

1 WordList (词表工具)

这是最基础也是最重要的工具,用于生成和分析文本中的词汇列表。

  • 功能:统计一个文本文件(或一组文件)中所有单词的出现频率,并生成一个按频率排序的词表。
  • 如何使用
    1. 在左侧工具栏双击 WordList
    2. 在主界面的 Make a word list from... 部分,点击 Select files 按钮,选择你要分析的文本文件(可以是单个 .txt 文件,也可以是一个文件夹下的所有文件)。
    3. Output 部分,指定保存结果的文件名和位置。
    4. 点击 Start 按钮,WordSmith 开始分析。
  • 关键设置
    • Settings 按钮:这是最重要的设置区域。
      • Ignore case:是否忽略大小写,通常建议勾选,将 "The" 和 "the" 视为同一个词。
      • Ignore list:忽略词表,你可以提供一个包含常见无意义词(如 "the", "a", "in", "is" 等)的文件,WordSmith 在统计时会自动跳过这些词,WordSmith 自带了一个标准的忽略词表。
      • stemming:词形还原,将不同形式的词(如 "running", "ran")还原为词根("run"),这有助于更准确地分析核心词汇。
    • 结果解读:生成的结果文件(通常是 .txt.html 格式)包含三列:Rank (排名)、Word (单词)、Freq (频率)。

2 Concord (语境工具)

Concord 是进行词语语境分析的利器,它可以帮助你看到某个单词在原文中是如何被使用的。

  • 功能:在文本中搜索一个或多个关键词,并将它们所在的句子(或短语)以“关键词在中间,左右为语境”的形式展示出来。
  • 如何使用
    1. 双击 Concord 打开工具。
    2. Show concordance for 输入框中,输入你想搜索的单词(如 "innovation")。
    3. Make concordance from... 部分,选择你之前生成的 WordList 文件(强烈推荐),或者直接选择原始文本文件,使用 WordList 文件可以确保搜索是基于经过清理的词汇列表。
    4. 点击 Start
  • 关键设置
    • Sort (排序):这是 Concord 的精髓所在。
      • Alphabetical:按字母顺序排序。
      • Right:按关键词右边的词排序(分析常用搭配)。
      • Left:按关键词左边的词排序(分析常见主语或介词)。
    • Show (显示):控制每个语境条目显示的字符数。
  • 结果解读:你会得到一个列表,每一行都展示了关键词及其上下文,通过排序,你可以轻松发现词语的搭配模式。

3 Concordance Plot (语境图工具)

这是 Concord 的可视化版本,以图表形式展示词语在文本中的分布情况。

  • 功能:将文本看作一条水平线,每个关键词出现的位置用一条竖线标记,通过观察竖线的疏密,可以判断词语在文本中是均匀分布还是集中在某些部分。
  • 如何使用
    1. 双击 Concordance Plot
    2. 输入关键词,选择源文件(同 Concord)。
    3. 点击 Start
  • 结果解读:生成的图表中,X轴代表文本的进度,Y轴没有实际意义,只是为了让竖线不重叠,如果竖线在某个区域非常密集,说明该部分文本大量使用了该词。

4 Keywords (关键词工具)

这是一个非常强大的对比分析工具,用于找出两个文本集之间的“关键词”。

wordsmith使用教程,如何快速上手?-图3
(图片来源网络,侵删)
  • 功能:比较两个语料库(如“新闻语料库”和“学术语料库”),找出在一个语料库中显著高频,而在另一个语料库中显著低频的词,这些词就是“关键词”。
  • 如何使用
    1. 双击 Keywords
    2. Reference corpus (参照语料库) 中,选择作为基准的文本集(如学术语料库)。
    3. Study corpus (研究语料库) 中,选择你想分析的文本集(如新闻语料库)。
    4. 点击 Start
  • 结果解读:结果会列出所有“关键词”,并给出它们在两个语料库中的频率、频率比、卡方值等统计指标,排在最前面的词,就是最能代表“研究语料库”特征的词。

5 Split Viewer (文本分割工具)

用于将一个长文本文件分割成多个小文件,便于后续分析。

  • 功能:可以根据字符数、行数或段落数,将一个大文件切分成若干个小文件。
  • 如何使用
    1. 双击 Split Viewer
    2. 选择要分割的大文件。
    3. 设置分割规则(如每 1000 个字符一个文件)。
    4. 指定保存小文件的文件夹。
    5. 点击 Start

6 Text Converter (文本转换工具)

用于批量处理文本文件,如统一编码、转换大小写、去除格式等。

  • 功能:对多个文本文件进行批量格式化处理。
  • 如何使用
    1. 双击 Text Converter
    2. 选择要处理的文件或文件夹。
    3. 在转换选项中进行设置(如 Convert to lower caseRemove punctuation 等)。
    4. 指定输出文件夹。
    5. 点击 Start

第四部分:实战案例:分析两篇不同风格的新闻稿

假设我们有两篇关于“人工智能”的新闻稿,一篇来自《科技日报》(风格正式、专业),一篇来自《今日头条》(风格通俗、活泼),我们想找出它们在词汇使用上的差异。

分析目标:找出《今日头条》相对于《科技日报》的关键词,以揭示其通俗化、网络化的语言特征。

步骤:

  1. 准备数据

    • 将《科技日报》的多篇文章放在一个文件夹,命名为 Formal
    • 将《今日头条》的多篇文章放在另一个文件夹,命名为 Colloquial
  2. 生成词表

    • 使用 WordList 工具,分别对 FormalColloquial 文件夹生成词表。
    • 设置:勾选 Ignore caseIgnore list,以确保分析是基于有意义的词汇。
    • 得到 Formal_wordlist.txtColloquial_wordlist.txt
  3. 运行关键词分析

    • 打开 Keywords 工具。
    • Reference corpus (参照语料库):选择 Formal_wordlist.txt,我们想看看《今日头条》的报道和《科技日报》的“正式”报道有何不同。
    • Study corpus (研究语料库):选择 Colloquial_wordlist.txt
    • 点击 Start
  4. 解读结果

    • 查看 Keywords 生成的结果列表。
    • 你可能会发现,排在前列的关键词包括:
      • 网络流行语:如 给力, 脑洞, 硬核
      • 口语化词汇:如 大家, 我们, 感觉
      • 感叹词:如 ,
      • 特定领域的非正式表达:如 AI圈, 大佬
    • 相反,在分析《科技日报》相对于《今日头条》的关键词时,你可能会发现 算法, 神经网络, 数据, 模型 等专业术语。
  5. 深入语境分析 (可选)

    • 对于发现的关键词,如 硬核,可以回到 Concord 工具。
    • Concord 中搜索 硬核,并选择 Colloquial 文件夹作为源文件。
    • 观察 硬核 在这些新闻稿中的具体用法和语境,验证你的分析。

第五部分:高级技巧与常见问题

1 高级技巧

  • 工具链串联:WordSmith 的强大之处在于工具可以串联使用。
    • Text Converter -> WordList -> Concord -> Keywords
    • 这个流程代表了:预处理文本 -> 生成基础词表 -> 深入分析词语语境 -> 对比不同文本集
  • 善用 Settings:花时间理解每个工具的 Settings 选项,特别是 WordListConcord 中的设置,它们直接决定了分析的质量。
  • 结果导出:所有结果都可以导出为 .txt, .html, .xls 等格式,方便你在 Word, Excel 或其他分析软件中进行进一步处理和美化。

2 常见问题

  • Q: 为什么我生成的词表里有很多 "the", "a", "is"?

    • A: 因为你没有在 WordListSettings 中加载 Ignore list,请检查并勾选 Ignore list 选项,并确保指向了正确的忽略词表文件。
  • Q: Keywords 分析结果为空,怎么办?

    • A: 通常是因为两个语料库的词汇量差异过大,或者没有足够的共同词汇作为基础,确保两个语料库的文本量和类型具有一定的可比性,检查文件路径是否正确。
  • Q: 如何分析中文文本?

    • A: WordSmith 本身是为英语设计的,对中文的支持有限,因为它默认以空格分词,要分析中文,你需要先将中文文本进行分词处理(使用如 Jieba, THULAC 等分词工具),在每个词之间用空格隔开,然后再导入 WordSmith。
  • Q: WordSmith 和 AntConc 有什么区别?

    • A: 两者都是非常优秀的语料库工具。
      • WordSmith:功能更全面,更像一个“工具箱”,除了基础分析,还有 Keywords 这样的对比工具,商业软件,界面更传统。
      • AntConc:免费开源,界面更现代化,在 ConcordConcordance Plot 功能上非常出色,尤其在词丛和 N-gram 分析上很方便,深受学生和研究者喜爱。
      • 建议:两者可以结合使用,AntConc 做快速检索和可视化,WordSmith 做深度对比和批量处理。

WordSmith 是一款经久不衰的语料分析工具,掌握它的核心工具,特别是 WordList, ConcordKeywords,你就能对文本进行深入的量化分析,从生成一个简单的词表开始,逐步尝试语境分析和对比分析,你会发现一个全新的、数据驱动的文本世界,祝你使用愉快!

分享:
扫描分享到社交APP
上一篇
下一篇