文心一言和讯飞星火深度对比评测

文心一言和讯飞星火深度对比分析

自 OpenAI 发布 ChatGPT 起,人工智能席卷全球。ChatGPT 的自然语言能力毋庸置疑,那么我们国内百度开发的文心一言和讯飞开发的讯飞星火在自然语言能力方面表现又是如何呢?

今天,小编突发奇想地从代码能力、文本生成、数学能力、逻辑推理、知识问答和语言理解等多方面深入测试,以对比两大平台的水平,以供大家参考。

什么是文心一言

文心一言是百度研发的知识增强大语言模型,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。

文心一言具有以下特征:

  1. 中文特色:文心一言根植于中国,更熟练掌握中文,具有中文特色和优点。
  2. 知识增强:文心一言可以提供各种学科知识,能够进行知识推理、数学计算等。
  3. 信息及时:文心一言能够及时获取和提供最新信息。
  4. 可迭代性:文心一言是一个在线AI系统,可以不断学习、迭代和优化。
  5. 高效性:文心一言可以高效地回答用户的问题和提供服务,能够快速响应用户需求。

(注:上述文字是文心一言对自己的描述)

什么是讯飞星火

讯飞星火认知大模型,是由科大讯飞自主研发,基于讯飞最新的认知智能大模型技术,经历了各类数据和知识的充分学习训练,可以和人类进行自然交流,解答问题,高效完成各领域认知智能需求。

讯飞星火是科大讯飞自主研发的认知智能大模型,具有多项特征:

  1. 多语言支持:讯飞星火支持中文和英文等多语言的交互,具有跨文化交流能力。
  2. 知识图谱:讯飞星火拥有完整的知识图谱,能够从大量的文本中自动抽取知识点,形成结构化的知识库。
  3. 深度学习技术:讯飞星火采用深度学习技术进行训练,可以不断地从大量数据中学习新的知识和技能。
  4. 可解释性:讯飞星火可以通过可视化的方式,将模型的推理过程呈现出来,提高模型的可解释性。
  5. 应用广泛:讯飞星火可以应用于多个领域,包括智能客服、智能问答、机器翻译、语音识别等。

(注:上述文字是讯飞星火对自己的描述)

代码能力

一般地,我们考察一个自然语言模型的代码能力,会从代码解释、代码生成、代码纠错和单元测试几个方面进行评估。

代码解释

小编给出AI Art主题里面一段代码,分别要求文心一言和讯飞星火作出解释。

<head>
  <meta charset="<?php bloginfo('charset'); ?>">
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <?php if (is_singular() && pings_open(get_queried_object())) : ?>
    <link rel="pingback" href="<?php bloginfo('pingback_url'); ?>">
  <?php endif; ?>
  <?php wp_head(); ?>
</head>

其中文心一言的回答如下:

这段代码是WordPress主题中的一个典型头部模板。它用于定义网页的元数据和引用其他必要的资源。

  • <meta charset="<?php bloginfo('charset'); ?>"> 这行代码设置了网页的字符集,通过调用 bloginfo('charset') 函数获取站点的字符集信息。
  • <meta name="viewport" content="width=device-width, initial-scale=1"> 这是一个响应式设计的元标签,它告诉浏览器在不同设备上显示页面时应如何缩放和布局。
  • <?php if (is_singular() && pings_open(get_queried_object())) : ?> <link rel="pingback" href="<?php bloginfo('pingback_url'); ?>"> <?php endif; ?> 这段代码检查当前是否为单篇文章页面且评论功能已开启,如果条件满足,则添加一个 pingback 链接,允许其他网站通知你的网站关于新的链接。
  • <?php wp_head(); ?> 这是一个WordPress函数,它负责输出所有头部资源,如样式表、脚本文件等。这些资源是由WordPress主题或插件添加的。

讯飞星火的回答,则是

这段PHP代码是一个WordPress网站的<head>部分的模板。它包含了一些元数据和链接,用于设置网页的字符集、视口和pingback。

  1. <meta charset="<?php bloginfo('charset'); ?>">:这行代码设置了网页的字符集。bloginfo('charset')函数返回当前博客的字符集,例如”UTF-8″。
  2. <meta name="viewport" content="width=device-width, initial-scale=1">:这行代码设置了网页的视口,使其在不同设备上具有响应式布局。width=device-width表示视口宽度等于设备的屏幕宽度,initial-scale=1表示初始缩放比例为1。
  3. <?php if (is_singular() && pings_open(get_queried_object())) : ?>:这是一个条件语句,它检查当前页面是否为单个页面(即非分类或标签页),并且查询对象(通常是文章或自定义帖子类型)的pingback功能是否开启。如果满足条件,则执行以下代码:
    <link rel="pingback" href="<?php bloginfo('pingback_url'); ?>">
    

    这行代码创建了一个指向当前博客的pingback URL的链接。当其他博客链接到这个页面时,它们可以通过pingback通知原始博客。

  4. <?php endif; ?>:这是条件语句的结束标记。
  5. <?php wp_head(); ?>:这行代码调用了wp_head()函数,该函数负责输出所有在<head>部分的元数据,例如标题、样式表链接等。

小结

就代码解释方面,百度文心一言和讯飞星火的能力相当,两者可能在描述文字上有所不同,但意思大体上是一致的。

代码生成

在代码生成能力方面,小编给出的问题是:

我打算开发一个WordPress插件,该插件主要实现的功能为,当访客的IP地址为非中国大陆IP,则重定向至一个固定URL(https://www.domain.com/access-restricted);当访客的IP地址为中国大陆IP地址,则访问正常,同时该插件还能够统计访客的访问IP,访问时间和访问状态(200状态或者Access restricted状态)。

其中百度的文心一言给出的代码解决方案为:

要实现这个功能,你可以使用以下步骤来开发你的WordPress插件:

  1. 设置重定向:你可以使用 $_SERVER['REMOTE_ADDR'] 来获取访问者的 IP 地址,然后使用一个地理定位服务,如 GeoIP,来检查这个 IP 地址是否来自中国大陆。如果不是,则重定向到指定的 URL。你可以使用 wp_redirect() 函数来实现重定向。
    function redirect_non_china_users() {  
        $visitor_ip = $_SERVER['REMOTE_ADDR'];  
          
        // 使用 GeoIP 检查 IP 地址是否来自中国大陆  
        if (!is_china_ip($visitor_ip)) {  
            wp_redirect('https://www.domain.com/access-restricted');  
            exit;  
        }  
    }  
    add_action('template_redirect', 'redirect_non_china_users');
  2. 统计访问信息:你可以使用 $_SERVER['REMOTE_ADDR'] 来获取访问者的 IP 地址,使用 date('Y-m-d H:i:s') 来获取访问时间,然后将这些信息存储到数据库中。你可以使用 wp_insert_post() 函数来创建一个新的文章来存储这些信息。
    function log_visit() {  
        $visitor_ip = $_SERVER['REMOTE_ADDR'];  
        $visit_time = date('Y-m-d H:i:s');  
        $status = $_SERVER['HTTP_HOST'] === 'www.domain.com' ? 'Access restricted' : '200';  
          
        // 将访问信息存储到数据库中  
        $post_id = wp_insert_post(array(  
            'post_title' => $visitor_ip,  
            'post_content' => $visit_time,  
            'post_status' => $status,  
            'post_type' => 'visit_log', // 自定义文章类型  
        ));  
    }  
    add_action('wp_loaded', 'log_visit');
  3. 创建自定义文章类型:在上面的代码中,我们使用了一个名为 ‘visit_log’ 的自定义文章类型。你需要在你的插件中创建这个自定义文章类型。你可以使用 register_post_type() 函数来创建。
    function register_visit_log_post_type() {  
        register_post_type('visit_log', array(  
            'labels' => array(  
                'name' => 'Visit Logs',  
                'singular_name' => 'Visit Log',  
            ),  
            'public' => false, // 不在前台显示  
        ));  
    }  
    add_action('init', 'register_visit_log_post_type');

请注意,上面的代码只是一个基本的示例,你可能需要根据你的具体需求进行修改。例如,你可能需要使用一个更精确的地理定位服务,或者你可能需要创建一个更详细的访问日志。同时,对于重定向的部分,你可能需要考虑一些额外的因素,例如处理重定向循环的问题。

讯飞星火的代码解决方案则是:

要实现这个功能,你需要创建一个WordPress插件,并在插件中添加以下代码:

  1. 注册一个自定义的非阻塞钩子,用于在请求开始时检查访客的IP地址。
  2. 如果访客的IP地址为非中国大陆IP,则重定向至指定的URL。
  3. 如果访客的IP地址为中国大陆IP地址,则继续处理请求。
  4. 在处理请求的过程中,记录访客的访问IP、访问时间和访问状态。

以下是具体的编码解决方案:

  1. 在你的插件文件中,添加以下代码以注册一个名为check_ip的非阻塞钩子:
    add_action('init', 'check_ip');
    
  2. check_ip函数中,使用$_SERVER['REMOTE_ADDR']获取访客的IP地址,并检查其是否为非中国大陆IP。如果是,则执行重定向操作;否则,继续处理请求。
    function check_ip() {
        $allowed_ips = ['x.x.x.x', 'y.y.y.y']; // 在这里添加允许的中国大陆IP地址
        $visitor_ip = $_SERVER['REMOTE_ADDR'];
    
        if (!in_array($visitor_ip, $allowed_ips)) {
            wp_redirect('https://www.domain.com/access-restricted');
            exit;
        }
    }
  3. 在处理请求的过程中,使用$_SERVER['REQUEST_URI']获取请求的URL,以及$_SERVER['REQUEST_TIME']获取访问时间。然后根据请求的状态码($_SERVER['HTTP_ACCEPT'])判断访问状态。
    function process_request() {
        $url = $_SERVER['REQUEST_URI'];
        $time = $_SERVER['REQUEST_TIME'];
        $status = $_SERVER['HTTP_ACCEPT'] == 'text/html' ? 200 : 403;
    
        // 在这里记录访客的访问IP、访问时间和访问状态
    }
  4. 将上述代码片段组合在一起,完整的插件代码如下:
    <?php
    /*
    Plugin Name: IP Access Restriction
    Description: Redirect non-Chinese IP addresses to a specific URL and record their visit information.
    Version: 1.0
    Author: Your Name
    */
    
    add_action('init', 'check_ip');
    
    function check_ip() {
        $allowed_ips = ['x.x.x.x', 'y.y.y.y']; // 在这里添加允许的中国大陆IP地址
        $visitor_ip = $_SERVER['REMOTE_ADDR'];
    
        if (!in_array($visitor_ip, $allowed_ips)) {
            wp_redirect('https://www.domain.com/access-restricted');
            exit;
        }
    }
    
    function process_request() {
        $url = $_SERVER['REQUEST_URI'];
        $time = $_SERVER['REQUEST_TIME'];
        $status = $_SERVER['HTTP_ACCEPT'] == 'text/html' ? 200 : 403;
    
        // 在这里记录访客的访问IP、访问时间和访问状态
    }
    
    add_action('wp_footer', 'process_request');
    ?>
    

将以上代码保存为一个PHP文件,例如ip-access-restriction.php,然后在WordPress后台安装并激活该插件。这样,当访客的IP地址为非中国大陆IP时,将被重定向至指定的URL;当访客的IP地址为中国大陆IP地址时,将正常访问网站,并记录其访问信息。

小结

就上述的测试来而言:

  • 代码整合 – 讯飞星火最终给出完整的插件代码方案,而百度没有;
  • 编码逻辑 – 讯飞星火和问心一言给出的代码思路大体一致,但都不能够直接用,比如他们都没有给出两个状态的统计;
  • 代码完整性 – 讯飞星火并没有给出统计访问信息的代码示例。

因此,对技术开发人员来说,文心一言和讯飞星火生成代码的思路及示例,都能带来一定的帮助。但目前来说,两个平台生成的代码一般都无法直接使用,需要根据项目实际需求进行再加工。

代码纠错

小编把一段涵盖语法错误或分析错误、致命错误、警告错误和通知错误的 PHP 代码分别提交给文心一言和讯飞星火,看看这两个平台分别是如何解答和纠错的。

<?php  
    echo "Alex: Hie! I'm Alex. </br>";  
    echo "Bob: I'm Bob. How are you?"  
    echo "Alex: I'm good! and you?";  
    echo "Bob: I'm also good";  
?>  

<?php  
    function add($f1, $f2) {  
        $sum = $f1 + $f2;  
        echo "Addition:" . $sum;  
    }  
      
    $f1 = 23;  
    $f2 = 56;  
      
    //call the function that is not defined  
    //Generate fatal error  
    catch_fatal_error();  
    //echo "Fatal Error";     
?>  

<?php  
    $cmpny = 'javatpoint';  
    echo "Warning Error: ";  
      
    //include a file in the code  
    include ('jtp.php');      
?>  

<?php  
    $telecom = "Airtel";  
    echo $telecom;  
    echo $automobile;  
?>

文心一言的答案是:

以下是PHP代码的错误类型以及正确的代码:

  1. 在第一组代码中,每个echo语句后面都应该有一个分号(;)。分号是PHP语句的结束符号,如果没有它,PHP会认为下一条语句是当前语句的一部分,从而导致语法错误。以下是正确的代码:
    <?php    
        echo "Alex: Hie! I'm Alex. </br>";    
        echo "Bob: I'm Bob. How are you?";    
        echo "Alex: I'm good! and you?";    
        echo "Bob: I'm also good";    
    ?>
  2. 在第二组代码中,你定义了一个名为add()的函数,但是你没有调用它。相反,你尝试调用一个名为catch_fatal_error()的函数,但是这个函数没有定义,所以会出现致命错误。以下是正确的代码:
    <?php    
        function add($f1, $f2) {    
            $sum = $f1 + $f2;    
            echo "Addition:" . $sum;    
        }    
            
        $f1 = 23;    
        $f2 = 56;    
            
        //call the function that is not defined    
        //Generate fatal error    
        add($f1, $f2);  //调用add()函数    
        //echo "Fatal Error";       
    ?>
  3. 在第三组代码中,你尝试包含一个名为jtp.php的文件,但是这个文件是否存在并没有给出。如果jtp.php文件不存在或者路径不正确,会导致警告错误。以下是正确的代码:
    <?php    
        $cmpny = 'javatpoint';    
        echo "Warning Error: ";    
            
        //include a file in the code    
        include ('jtp.php');      //确保jtp.php文件存在并且路径正确  
    ?>
  4. 在第四组代码中,你尝试输出一个名为$automobile的变量,但是这个变量没有定义,所以会出现警告错误。以下是正确的代码:
    <?php    
        $telecom = "Airtel";    
        echo $telecom;    
        echo $automobile ?? "Automobile not defined"; //使用null合并运算符来避免警告错误,如果$automobile未定义,则输出"Automobile not defined"  
    ?>

     

至于讯飞星火,则直接将所有代码错误解释为语法错误,如下:

//1. 错误类型:语法错误 正确代码:

<?php  
     echo "Alex: Hie! I'm Alex. </br>";  
     echo "Bob: I'm Bob. How are you?";  
     echo "Alex: I'm good! and you?";  
     echo "Bob: I'm also good";  
?>

//2. 错误类型:语法错误 正确代码:

<?php  
     function add($f1, $f2) {  
         $sum = $f1 + $f2;  
         echo "Addition:" . $sum;  
     }  
       
     $f1 = 23;  
     $f2 = 56;  
       
     //call the function that is not defined  
     add($f1, $f2);     
 ?>

//3. 错误类型:语法错误 正确代码:

<?php  
     function catch_fatal_error() {
         throw new Exception('Fatal Error');
     }
   
     try {
         $f1 = 23;
         $f2 = 56;
         $result = add($f1, $f2);
     } catch (Exception $e) {
         catch_fatal_error();
     }
 ?>

//4. 错误类型:语法错误 正确代码:

<?php  
     $cmpny = 'javatpoint';  
     echo "Warning Error: ";        //include a file in the code  
     include 'jtp.php';      
 ?>

//5. 错误类型:语法错误 正确代码:

<?php  
     $telecom = "Airtel";  
     echo $telecom;  
     //echo $automobile; // 删除这一行,因为$automobile未定义
 ?>

小结

如果就代码纠错本身来说,两个平台都能够正确地纠正错误。但是文心一言在错误解析上更加全面和直观,能够方便用户理解。

单元测试

在单元测试能力方面,我给出了下面一段 java 代码,要求编写测试用例:

import java.util.Map;
import java.util.TreeMap;

public class Main {
	public static void main(String[] args) {
		Map<String, Integer> treeMap = new TreeMap<>();

		// Adding elements to the tree map
		treeMap.put("A", 1);
		treeMap.put("C", 3);
		treeMap.put("B", 2);

		// Getting values from the tree map
		int valueA = treeMap.get("A");
		System.out.println("Value of A: " + valueA);

		// Removing elements from the tree map
		treeMap.remove("B");

		// Iterating over the elements of the tree map
		for (String key : treeMap.keySet()) {
			System.out.println("Key: " + key + ", Value: " + treeMap.get(key));
		}
	}
}

文心一言给出的答案如下:

以下是针对您提供的Java代码的测试用例:

import org.junit.Test;  
import java.util.Map;  
import java.util.TreeMap;  
import static org.junit.Assert.*;  
  
public class MainTest {  
    @Test  
    public void testMain() {  
        Main.main(new String[]{});  
        Map<String, Integer> treeMap = new TreeMap<>();  
        treeMap.put("A", 1);  
        treeMap.put("C", 3);  
        treeMap.put("B", 2);  
  
        // Confirm that A's value is 1  
        assertEquals(1, treeMap.get("A"));  
  
        // Confirm that B has been removed  
        assertNull(treeMap.get("B"));  
  
        // Confirm that the map contains the correct key-value pairs  
        assertEquals(2, treeMap.size());  
        assertEquals(1, treeMap.get("A"));  
        assertEquals(3, treeMap.get("C"));  
    }  
}

这个测试类 MainTest 中的 testMain 方法对 Main 类中的 main 方法进行了测试。它首先调用 Main.main(),然后创建一个与 main 方法中相同的 TreeMap 对象,并对其进行操作以确认其状态与预期相同。

讯飞星火则并没有编写测试代码用例,而是一段测试用例文字:

测试用例1: 输入:无 预期输出: Value of A: 1 Key: A, Value: 1 Key: C, Value: 3

测试用例2: 输入:无 预期输出: Value of A: 1 Key: A, Value: 1 Key: C, Value: 3 Key: B, Value: 2

测试用例3: 输入:无 预期输出: Value of A: 1 Key: A, Value: 1 Key: C, Value: 3

测试用例4: 输入:无 预期输出: Value of A: 1 Key: A, Value: 1 Key: C, Value: 3 Key: B, Value: 2 Key: D, Value: 4

测试用例5: 输入:无 预期输出: Value of A: 1 Key: A, Value: 1 Key: C, Value: 3 Key: B, Value: 2

小结

在代码测试能力方面,就上述的结果来看,文心一言给出了完整的测试用例,并进行了概要说明;讯飞星火只是简单列出了5个测试用例,并没有给出测试代码。

对比结果

注意,上述对比测试,仅供参考。单一测试无法见全貌,但就上述测试来看:

测试项 文心一言 讯飞星火
代码解释 平手 平手
代码生成 平手 平手
代码纠错 胜出
代码测试 胜出

文本生成

接下来我们一起来看看两个平台的文本生成能力如何。

小编向两个 AI 平台均提供了一段来自维基百科的关于华为最新的Mate 60手机的材料,要求撰写新闻通稿、英文新闻稿、商业文案和营销方案。

華為Mate 60系列是華為預定2023年9月12日發布的平板手機系列,包括Mate 60、Mate 60 Pro、Mate 60 Pro+。Mate 60系列搭載海思自研的麒麟9000S處理器(軟體識別名),並可實現5G的性能。——维基百科

新闻通稿生成对比

其中百度文心一言的新闻通稿:

华为Mate60系列手机引领潮流,配备前沿科技与精良设计

2023年9月,华为Mate60系列手机正式在华为商城上架预售,引发了消费者和业界的广泛关注。这一系列手机不仅在设计和性能上有所突破,更是在摄像、屏幕、芯片等方面实现了质的飞跃,将华为的技术实力推向了新的高度。

华为Mate60系列手机引领了摄像技术的新潮流。配备了四颗摄像头,包括一颗潜望式长焦镜头,以及超广角、广角摄像头,另外一颗很可能是微距镜头。这样的摄像头配置足以应对日常绝大多数的拍摄场景,为摄影爱好者带来了全新的拍摄体验。

华为Mate60系列手机在硬件配置上同样引人瞩目。其采用了6.76英寸的双曲面瀑布屏幕,这一设计不仅带来了极具震撼力的视觉享受,更在操作体验上有所突破。同时,该款手机还支持120Hz LTPO4.0自适应刷新率以及2160Hz高频PWM调光技术,使得显示效果和护眼功能都达到了业界领先水平。

在核心配置方面,华为Mate60系列标准版搭载了高通骁龙8+芯片,而Pro版本则搭载了高通骁龙8 Gen2芯片。这种差别化配置不仅凸显了华为Mate60系列手机的多样性,也为了满足不同用户群体的需求。

在通信能力方面,华为Mate60系列表现突出。其不仅支持传统的地面通讯网络,更具备了前所未有的卫星通讯能力。据了解,该款手机在中国大陆地区支持双向北斗卫星消息功能,可在没有地面基站提供网络信号的情况下进行紧急通信。这一创新功能无疑将为消费者提供更多的通信自由和便利。

此外,华为Mate60系列手机还具备了强大的软件支持。出厂即搭载了HarmonyOS 4系统,这一系统不仅使得手机的运行更加流畅,也为用户提供了丰富的应用场景和智能体验。

定价方面,华为Mate60 Pro的售价为XXXX元起,而华为Mate60则为XXXX元起。虽然价格相对较高,但是考虑到其高端的配置和精湛的设计,这一价格也在情理之中。销售方面,自9月3日预售开始以来,华为Mate60系列手机就受到了热烈的追捧。仅仅18分钟,华为商城、淘宝、天猫、京东等在线平台就已经售罄所有颜色的上架库存。而在全国各地,消费者们也纷纷在华为的线下门店排队购买,一度出现排队热潮。

总的来说,华为Mate60系列手机的出现不仅为消费者带来了全新的视觉和操作体验,更展示了华为在移动通信和智能手机领域的前瞻性和技术实力。未来,我们期待华为继续引领行业潮流,为我们带来更多前沿的科技和精良的设计。

讯飞星火生成的新闻通稿:

标题:华为Mate 60系列手机全球热销,中国供应链展现自主研发能力

2023年8月30日,华为商城上架了备受期待的Mate 60标准版预售页面。仅一天后,9月3日,Mate 60 Pro全面开售首日,许多用户前往预定门店取机。令华为意外的是,18点08分,华为商城、淘宝、天猫、京东等在线平台开售仅1分钟,所有上架库存便被抢购一空。全国各地线下的华为门店也出现了排队购买热潮。

作为华为旗舰系列的一员,Mate 60系列手机在外观设计和芯片设计制造工艺方面引领潮流。Mate 60 Pro采用居中三挖孔微曲屏,背面上半部分采用类似Mate 40系列的「星环设计」,下半部分采用弧形色卡设计。该系列提供雅川青、白沙银、南糯紫和雅丹黑四种配色,其中南糯紫和雅丹黑为素皮材质。而Mate 60 Pro+则提供砚黑和宣白两种配色。

Mate 60 Pro搭载的麒麟9000S处理器采用了中芯国际N+2工艺(等效7nm),并显示有丝印标注「2035-CN」。根据TechInsights对Mate 60 Pro的拆解分析,麒麟9000S处理器具备强大的性能。据安兔兔发布的信息,该处理器采用了12核心设计,最高主频达到2.62GHz,CPU性能强于骁龙888,略逊于骁龙8。Geekbench的测试结果显示,单核分数高达914分,多核分数达到2896分。此外,该处理器还支持超线程技术,具备8核12线程的强大计算能力。

除了出色的硬件配置,Mate 60 Pro在通信能力方面也引人注目。尽管插入手机卡后系统状态栏不显示5G标识,但实际测速表明下载速率接近1Gbps,上传速率可达100Mbps左右,实现了真正的5G通信速度。此外,Mate 60 Pro还具备卫星通讯能力,是首款能够实现地面与遥远上空卫星之间进行语音连接的手机。在中国大陆地区,Mate 60 Pro支持双向卫星通话功能,借助天通一号卫星实现无基站网络信号情况下的拨打和接听卫星电话。而在中国大陆地区,Mate 60支持双向北斗卫星消息功能,可在无基站网络信号情况下进行紧急通信。此外,Mate 60系列还具备星闪功能,可替代蓝牙实现无线短距离通信。

这一全球热销的背后离不开中国供应链的强大支撑。据统计,向华为提供Mate 60系列手机零部件的供货商中至少有46家来自中国大陆地区,中国大陆供应商提供了整机配件的90%以上。这标志着中国已具备独立生产高性能智能手机的能力。然而,韩国内存生产商海力士近日回应称,其生产的内存和闪存芯片出现在了华为Mate 60 Pro拆解中,并表示自美国宣布制裁华为以来未与华为合作,正在调查该芯片在华为手机设备使用情况。

Mate 60系列出厂搭载HarmonyOS 4系统,为用户提供了流畅的使用体验。虽然华为官方表示不会考虑在海外市场推出Mate 60系列手机,但该系列在苹果App Store购物类别免费应用榜单上连续多日登顶第一。

综上所述,华为Mate 60系列手机凭借出色的设计、强大的性能以及领先的通信能力在全球范围内取得了巨大成功。这不仅展示了华为在技术创新方面的实力,也彰显了中国供应链的强大竞争力。随着Mate 60系列的热销,华为将继续巩固其在高端智能手机市场的地位,并为消费者带来更多创新产品和体验。

小结

对比两个平台基于文字材料生成的新闻通稿,小编进行了简单的对比,仅供参考:

  • 事件时间 – 文心一言将新闻事实时间从八月改为九月,这是不应该犯的错误;讯飞星火也出现了时间表述错误,如,仅一天后,9月3日……这与前面的8月30日明显对不上。
  • 内容完整性 – 两个平台在新闻稿的完整性,都做得不错,标题、段落和归纳都做到了。
  • 文字表述 – 在标题方面,个人认为讯飞星火生成的更佳;在上下文逻辑上,则文心一言略胜一筹;但文心一言居然还存在事实错误,将华为Mate 60手机配备CPU描述为高通芯片;当然讯飞星火也直接将Mate 60采用手机芯片描述为中芯国际N+2工艺,也是不严谨的。

整体而言,讯飞星火在这方面略胜于文心一言,文心一言出现的时间错误和事实错误,有点……。

英文新闻稿生成对比

文心一言根据材料生成的英文新闻稿如下:

Huawei Mate 60 Series: A Triumphant Return to the Global Smartphone Market

Huawei, the leading Chinese information and communication technology (ICT) company, has made a triumphant return to the global smartphone market with its Mate 60 series. The announcement of the highly anticipated device series was greeted with great enthusiasm by both industry insiders and consumers, who have been waiting for Huawei's return to the forefront of the smartphone world.

The Huawei Mate 60 series, which includes the Mate 60, Mate 60 Pro, and Mate 60 Pro+, represents a significant step forward not just for Huawei but also for China's growing technological capabilities. As a domestic production with over 90% Chinese components, the Mate 60 series smartphone is a testament to the nation's evolving ability to produce world-class consumer electronics.

The Huawei Mate 60 Pro, in particular, has received rave reviews for its bezel-less display, unique camera system, and cutting-edge performance. The device's camera system, which includes a main camera with optical image stabilization (OIS), an ultra-wide angle camera, and a macro camera, is one of the most advanced seen on any smartphone today. The Pro version's 6.74-inch Curved OLED display boasts a 120Hz refresh rate and a 1440Hz高频PWM调光, providing users with seamless visual experiences.

The Mate 60 series is not only significant for Huawei's comeback but also for China's position in the global smartphone market. Huawei's rise to the top of the industry has always been linked to its home country's booming economy and increasing technological capabilities. The Mate 60 series' success further solidifies China's standing as a global leader in high-end smartphones.

The Mate 60 series' announcement also comes at a time when the global smartphone market is witnessing a shift towards more innovative and feature-rich devices. Samsung, Apple, and other major players are constantly looking for ways to differentiate their products and offer consumers something new. Huawei's entry into the market with the Mate 60 series is a timely reminder that innovation and technological expertise are key to remaining competitive in today's fast-paced environment.

The Mate 60 series represents a significant milestone for Huawei, which has been grappling with various challenges in recent years. The company's comeback is not only a testament to its resilience and perseverance but also a reminder of its commitment to excellence and innovation.

With the Mate 60 series now正式上市,Huawei is poised to make a significant impact on the global smartphone market in the coming years. The announcement of the device series has not only generated a lot of excitement among consumers but also reaffirmed Huawei's position as one of the leading players in the industry. The Mate 60 series' success will go a long way towards solidifying Huawei's standing as a global icon in the smartphone industry.

讯飞星火生成的英文新闻稿如下:

Huawei's Mate 60 series of smartphones has been highly anticipated since its launch on August 30, 2023. The series features a range of impressive specifications and cutting-edge technologies, making it a top contender in the high-end smartphone market.

The Mate 60 Pro, which went on sale on September 3, 2023, sold out within minutes of its release due to overwhelming demand. Pre-ordered customers were able to pick up their devices at designated stores the same day. The online sales of the phone also sold out within a minute, with all colors being completely sold out. This phenomenon was not limited to online platforms but was also observed in physical stores across the country.

In terms of design, the Mate 60 Pro boasts a stunning full-screen display with a hole-punch cutout in the center. The front camera is located in the cutout and can be customized to change its appearance to "Capsule Island." The back of the phone features a ring design reminiscent of the Mate 40 series, while the bottom half has a gradient color scheme. The Mate 60 and Mate 60 Pro are available in four colors - Yachuan Blue, Baiyun Silver, Nanguan Purple, and Xuanwu Black - with Nanguan Purple and Xuanwu Black featuring a leather back cover. The Mate 60 Pro+ is available in Ink Black and Xuanwu White.

Under the hood, the Mate 60 Pro is powered by Huawei's own Kirin 9000S chipset, which is built using the Chinese company's N+2 process technology equivalent to 7nm. The chipset is equipped with 12 cores and is capable of reaching a maximum frequency of 2.62GHz. In terms of performance, the chipset outperforms both the Kirin 980 and Kirin 8 processors.

In terms of communication capabilities, the Mate 60 Pro supports 5G communication but does not show the signal strength indicator on the status bar. However, users have reported speeds of close to 1Gbps for download and upload when using third-party apps like Weather Speedtest and Speedtest.net. The phone also has satellite communication capabilities, allowing users to make calls and send messages through satellite networks when there is no cellular coverage available.

The Mate 60 series is equipped with HarmonyOS 4, Huawei's latest operating system. It features a range of innovative features such as intelligent computing, seamless integration with smart devices, and an improved user experience.

According to media reports, at least 46 companies based in mainland China provide components for Huawei's Mate 60 series phones, contributing to over 90% of the overall device parts. This demonstrates China's ability to independently produce high-performance smartphones.

However, there have been some concerns regarding the supply chain of the Mate 60 series since Samsung warned that some of its memory and flash memory chips used in Huawei devices may violate US sanctions against the company. Samsung has denied any such cooperation and is investigating the matter.

Despite these concerns, the Mate 60 series has been a massive success since its launch, with the iOS version of the Huawei App Store consistently ranking at the top of free app charts across multiple countries.

In conclusion, Huawei's Mate 60 series smartphones have impressed consumers with their advanced features, cutting-edge technologies, and impressive performance. With its focus on innovation and quality, the Mate 60 series has solidified Huawei's position as a leading player in the global smartphone market.

小结

首先需要说明的是,小编不是一位英文专家,无法从英文文章的句法,语法等专业层面来对比两个平台在英语表述方面的能力。但小编尝试从其翻译的基本、完整性及准确性来对比。

  • 中英混杂 – 文心一言居然在一份英文新闻稿混杂了中文,这对于百度来说,着实不可原谅;
  • 内容完整性 – 讯飞星火的新闻稿缺少了标题;文心一言的英文新闻稿更像是一篇经过思考和整理的文章,讯飞星火则更新精简文字材料,进行翻译,有点流水账的味道。
  • 表述准确性 – 文心一言在英文新闻稿的表述上做得非常不错,唯一让人感到遗憾的是,新闻稿居然对麒麟芯片绝口不提;讯飞星火则在新闻稿中存在两处明细的错误,其一是Pre-ordered customers were able to pick up their devices at designated stores the same day(预购用户当天就能在指定商店取到自己的设备);其二是with the iOS version of the Huawei App Store consistently ranking at the top of free app charts across multiple countries(其 iOS 版华为应用商店在多个国家的免费应用排行榜上一直名列前茅)。

就这三个方面而言,文心一言除了出现了中英混合的错误外,其他方面均比讯飞星火好一些。

商业文案生成

文心一言基于文字材料生成的商业文案如下:

华为Mate 60系列:跨越时代的科技魅力,实现中国智慧的全球领先

在科技世界的浩瀚星空中,华为Mate 60系列无疑是最耀眼的明星。这款集尖端科技与艺术美感于一体的智能手机,一经发布便引发了全球科技爱好者的热烈讨论和极大关注。它不仅仅是一款拥有卓越性能的手机,更是中国科技力量的象征,是华为对未来科技趋势的独到理解和创新精神的体现。

华为Mate 60系列,延续了华为一贯的设计理念,并在外观设计上大胆创新。Mate 60 Pro的居中三挖孔微曲屏设计,不仅美观大方,而且极具个性化。背面的上半部分采用了Mate 40系列的“星环设计”,科技感十足,而下半部分则采用弧形色卡设计,流露出典雅的质感。配色方面,Mate 60及Mate 60 Pro提供了雅川青、白沙银、南糯紫、雅丹黑四种配色,其中南糯紫、雅丹黑配色后盖材质为素皮,为消费者提供了丰富的选择。而Mate 60 Pro+则提供了砚黑、宣白两种配色,展现出独特的个性。

在芯片制造工艺上,华为Mate 60 Pro搭载的麒麟9000S处理器,采用了中芯国际N+2工艺(等效7nm)的特征,这无疑是中国芯片制造技术的一大突破。而在性能方面,麒麟9000S处理器表现更是卓越,其12核心的设计,包括2颗A34核心、6颗定制A78AE核心和4颗A510核心,最高主频达到2.62GHz。尽管由于GPU采用了新构架,安兔兔未能正确识别测试,但从CPU性能方面看,麒麟9000S强于骁龙888,略逊于骁龙8。

华为Mate 60系列的通信能力值得称赞。实测下载速率非常接近1Gbps,上传速率可达100Mbps左右,这意味着它可以轻松支持5G通信速度。尽管华为方面并未明确宣传这一功能,但已经引起了广大用户的极大关注。

在这个时代,卫星通信能力的突出显得尤为重要。华为Mate 60 Pro支持双向卫星通话功能,借助天通一号卫星,即使在偏远地区没有地面基站提供网络信号的情况下,也可以进行紧急通信。这一创新功能无疑将为消费者带来前所未有的使用体验。

华为Mate 60系列不仅在硬件上表现出色,软件方面同样引人瞩目。出厂即搭载了HarmonyOS 4系统,使得这款手机在系统运行流畅性和功能性上都有显著提升。

定价及销售方面,Mate 60 Pro自2023年8月29日开售后就受到热烈追捧。华为对此表示,不会考虑将Mate 60系列在海外市场推出。这一决策一方面显示出华为对国内市场的重视和自信,另一方面也展现了其面对外部压力时的决心与坚韧。

华为Mate 60系列的成功发布和销售,充分体现了中国在全球科技领域的领导地位和影响力。它不仅代表了华为的创新实力和研发实力,更展示了中国制造业的高水平和高素质。在全球化的舞台上,华为Mate 60系列以其卓越的性能和前沿的技术,为中国赢得了荣誉。

华为Mate 60系列是华为创新实力的象征,它开启了全新的智能设备体验,引领了科技潮流。我们期待华为在未来能够继续发挥其研发实力和创新精神,为全球消费者带来更多惊喜和卓越的产品。

讯飞星火则给出下列文案:

华为Mate 60系列:超越想象的科技巅峰

2023年8月30日,华为商城上架了令人期待已久的Mate 60标准版预售页面。而仅仅三天后,9月3日,Mate 60 Pro全面开售首日,无数用户涌向预定门店,争相取走心心念念的宝贝。线上平台更是在开售仅1分钟内,就售罄了所有颜色的上架库存。全国各地的华为门店也纷纷出现排队购买热潮,人们为了这一部科技巅峰之作,挤满了门店,热情洋溢。

而在这个炙手可热的时刻,9月8日,华为商城又上架了备受瞩目的Mate 60 Pro+预售页面。然而,正当人们对Mate 60系列充满期待之时,美国商务部却决定对华为Mate 60系列手机处理器展开调查。这一消息如一颗重磅炸弹,让人们对未来的发展充满了担忧。

然而,无论外界风云如何变幻,Mate 60系列的卓越性能和创新设计始终让人心驰神往。Mate 60 Pro正面采用居中三挖孔微曲屏,背面上半部分采用类似Mate 40系列的「星环设计」,下半部分则采用弧形色卡设计。四种雅川青、白沙银、南糯紫、雅丹黑配色可供选择,其中南糯紫、雅丹黑更是采用素皮材质。而Mate 60 Pro+则以砚黑、宣白两种配色彰显尊贵品味。

麒麟9000S芯片作为Mate 60 Pro的核心动力,其设计制造工艺更是令人惊叹。根据TechInsights的拆解结果,这款SoC采用了中芯国际N+2工艺,相当于等效7nm的先进工艺。核心最高主频高达2.62GHz,GPU则为Maleoon 910,为Mate 60 Pro带来了强大的计算和图形处理能力。

除了卓越的硬件配置,Mate 60 Pro还拥有令人瞩目的通信能力和卫星通讯功能。插入手机卡后,系统状态栏不显示5G标识,但实际下载速率接近1Gbps,上传速率可达100Mbps左右,实现了真正的5G通信速度。而卫星通讯能力更是突出,用户可以在没有地面基站信号的地区进行双向卫星通话,畅享无拘无束的通信体验。

华为Mate 60系列还支持星闪功能,作为一种可替代蓝牙的无线短距离通信技术,为用户带来更加便捷的物联网和车联网体验。同时,该系列出厂搭载HarmonyOS 4系统,为用户提供了流畅智能的使用体验。

虽然华为Mate 60系列在国际市场上的发展前途未卜,但其卓越的性能和创新设计已经赢得了全球消费者的青睐。无论是外观设计还是硬件配置,都展现出华为对于科技的追求和执着。让我们共同期待华为Mate 60系列的未来发展,相信它将不断超越想象,创造更多的科技巅峰!

小结

个人认为,讯飞星火的更像一份商业文案,简明精炼;文心一言给出的答案有点啰嗦累赘,流水账。

营销方案生成

要求两个平台根据以上文字描述,创作多种形式的营销方案。

文心一言提供了五个营销方案参考:

  1. 社交媒体营销:利用微博、微信、抖音等社交媒体平台,发布关于Mate 60系列手机的介绍、外观设计、芯片设计制造工艺、构架与性能、通信能力、供应链等方面的内容,吸引消费者的关注。同时,可以邀请一些科技博主、手机评测达人等进行产品体验,以口碑带动销售。
  2. 线下门店推广:利用华为在全国各地的实体门店,开展Mate 60系列手机的展示和体验活动,吸引消费者的关注。此外,可以开展一些促销活动,如预订购机送礼品、打折优惠等,提高消费者的购买欲望。
  3. 电商平台营销:在华为商城、淘宝、天猫、京东等电商平台开设Mate 60系列手机的销售专区,提供详细的产品介绍、图片展示和售后服务,吸引消费者的购买。同时,可以开展一些促销活动,如限时特价、满减优惠等,提高消费者的购买欲望。
  4. 定向营销:针对不同的消费群体,如年轻人、商务人士、摄影爱好者等,推出不同版本的Mate 60系列手机,如增加内存、存储容量等配置,满足不同消费者的需求。
  5. 合作营销:与一些知名的手机保护套、手机壳等配件厂商合作,推出专属的Mate 60系列手机配件,增加产品的附加值和销售渠道。同时,可以开展一些联合营销活动,如买手机送配件等,提高消费者的购买欲望。

讯飞星火则多出一个:

  1. 社交媒体营销方案: 在各大社交媒体平台上发布有关Mate 60系列的广告和宣传内容,包括高清渲染图、产品亮点介绍、用户评价等。通过吸引用户关注和参与讨论,增加品牌知名度和产品的关注度。
  2. KOL合作营销方案: 与知名科技博主、KOL合作,邀请他们使用并评测Mate 60系列,并在其社交媒体平台上分享使用心得和观点。借助KOL的影响力和粉丝群体,扩大产品影响力,提高购买意愿。
  3. 体验活动营销方案: 举办线下体验活动,让消费者亲身感受Mate 60系列的卓越性能和创新设计。可以设置专门的体验区供消费者试用,并提供专业的解说员解答疑问。同时,还可以推出限量版礼品或优惠券等,增加用户购买的动力。
  4. 联合营销方案: 与其他品牌或企业进行跨界合作,共同推出限量版或特别套餐的Mate 60系列手机。比如与体育品牌合作推出定制款手机壳或配件,与音乐流媒体平台合作提供独家优惠等。通过与其他品牌的合作,吸引更多消费者的关注和购买欲望。
  5. 明星代言营销方案: 找到具有影响力和号召力的明星代言人,让他们成为Mate 60系列的代言人,并在广告、宣传片等媒体中展示该系列产品的特点和优势。借助明星的粉丝基础和影响力,提高产品的知名度和美誉度。
  6. 电商平台促销方案: 在淘宝、天猫、京东等主要电商平台上开展促销活动,比如限时抢购、满减优惠、赠品等。通过价格优势和促销手段,刺激用户的购买欲望,提高销售量和市场份额。

小结

在营销方案这一块,小编认为讯飞星火全面性更好一些。

对比结果

在文本生成能力上的测试,小编尝试喂一份文字材料,然后由两个自然语言模型来生成新闻通稿、英文稿、商业文案和营销方案等。最终结果如下:

测试项 文心一言 讯飞星火
新闻通稿 略胜一筹
英文稿 胜出
商业文案 胜出
营销方案 胜出

数学能力

小编的数学早就还给了数学老师,为此,从网上找两个数学问题,一个相对简单,2023行政执法卷第70题:

一个圆柱体零件A和一个圆锥体零件B分别用甲、乙两种合金铸造而成。A的底面半径和高相同,B的底面半径是高的2倍,两个零件的高相同,质量也相同。问甲合金的密度是乙合金的多少倍?

A. 4/3 B. 3/4 C. 2/3 D. 3/2

另外一道是2023年第64届国际数学奥林匹克(IMO)试题的第2题:

在锐角三角形ABC中,AB<AC。设 Ω 为三角形 ABC 的外接圆。点 S 是 Ω 上包含点 A 的弧 CB 的中点。过点 A 作垂直于 BC 的直线与 BS 交于点 D,与圆 Ω 交于另一点 E≠A,过点 D 且平行于 BC 的直线与直线 BE 交于点 L,记 ω 为三角形 BDL 的外接圆。设 ω 与 Ω 交于另一点 P≠B。

证明:ω 在点 P 处的切线与直线 BS 的交点在 ∠BAC 的内角平分线上。

基础计算

我们先来看看第一道题,文心一言和讯飞星火是如何作答的。

文心一言的回答:

edae1d597e7f90efa657ceb8fefef31e讯飞星火的回答:

文心一言和讯飞星火深度对比评测插图2

小结

从两个平台返回的结果来看,这一块旗鼓相当,不过感觉讯飞星火在计算公式输出方面比较正规一些。

奥数解题

国际奥数题,这两自然语言模型能否攻破呢?一起来看看最终答案。

文心一言的回答:

5fcf7cbc7286ed82130a23a2811cd011

讯飞星火的回答:

a3a4b3f53b1d0c1bc5132a1973266949小结

由于这一题奥数题,小编自认为没有能力去解答,也无法求证文心一言和讯飞星火,在这一题目上到底是一本正经的胡说八道,还是正儿八经地解题。

最后,附上该题目的一个解题过程,有兴趣的朋友可以研究一下:

文心一言和讯飞星火深度对比评测插图5

如果就上述参考答案来看,小编认为文心一言和讯飞星火都是在正儿八经地胡说八道。

对比结果

从上述的测试来看,无论文心一言还是讯飞星火对于一些基础计算来说,是完全没有问题的。

但如果数学问题稍微复杂,非纯计算可得,比如,几何图形、立体空间及函数与图形相结合等,可能就无法胜任了。

因此,在这一环节,权当两个平台打成平手。

逻辑推理

逻辑推理能力也是评估自然语言模型水平的重要一环,从网上随便搜索了两道逻辑推理的题目。

题目一:国考真题

海棠红:南瓜橙,请选择与之最接近的答案。

A. 苏丹红:景泰蓝 B. 孔雀蓝:柠檬黄 C. 橄榄绿:梅子青 D. 日落黄∶鱼肚白

题目二:2023年国考

6天休假期间,单位需要每天安排一人值班。财务、研发、人事、后勤、法务和销售6个部门各推荐了2人,值班人员从这12人中选择,每人至多值班一天。安排要求:

(1)第二天和第四天不安排法务部门的人值班;

(2)若安排后勤部门的人值班,则只能安排在法务部门的人值班的前一天;

(3)若安排研发部门的人值班,则只能安排在后勤部门的人值班的前一天。

如果在第三天、第五天分别安排财务部门的人值班,则第一天、第六天可安排的值班人员可能分别来自:

(A)后勤部门和法务部门 (B)法务部门和销售部门 (C)财务部门和销售部门 (D)研发部门和人事部门 请分析该题目并选择正确的答案。

类比推理

知乎上对该题目的点评是:类比推理字数少得很,难度很惊人。那么文心一言或者讯飞星火,能否顺利过关呢?

文心一言的回答如下:

题干中“海棠红”和“南瓜橙”都是偏红色的颜色,而选项B中的“孔雀蓝”和“柠檬黄”都是偏黄色的颜色,与题干不符。选项A中的“苏丹红”和“景泰蓝”都是偏红色的颜色,但与题干的颜色顺序不同。选项D中的“日落黄”和“鱼肚白”都是偏黄色的颜色,与题干不符。选项C中的“橄榄绿”和“梅子青”都是偏绿色的颜色,与题干不符。因此,正确答案是A. 苏丹红:景泰蓝。

讯飞星火的回答如下:

解析:本题考查的是颜色搭配的相关知识。海棠红和南瓜橙都是暖色系的颜色,而鱼肚白是暖色系里最接近白色的颜色。因此,与之最接近的答案是D选项。 答案:D

小结

首先,让我们一起来看看正确答案是什么。

海棠红是一种介于洋红和红色之间的颜色;南瓜橙是一种介于橙色与黄色之间的色彩,海棠红与南瓜橙均描述颜色,二者属于并列关系,海棠和南瓜均属于植物,均以植物来命名颜色。

A项:苏丹红是一种化学染色剂,主要呈现出红色,景泰蓝是因其在明朝景泰年间盛行,使用的珐琅釉多以蓝色为主,红色和蓝色,二者属于并列关系,苏丹和景泰并非植物,排除;

B项:孔雀蓝是瓷器釉色之一,烧制后呈现亮蓝色调的低温彩釉,柠檬黄呈鲜艳的嫩黄色,蓝色和黄色,二者属于并列关系,但孔雀是动物,柠檬是植物,排除;

C项:橄榄绿像橄榄果实那样的青绿色,梅子青是南宋龙泉窑创制的杰出青釉品种,犹如青梅颜色,青绿色和青梅颜色,二者属于并列关系,橄榄和梅子均属于植物,均以植物命名,当选;

D项:日落黄是一种常用的人工食用色素,类似日落橙红色,鱼肚白是一种介于白色和淡粉色之间的颜色,近似于鱼腹部的颜色,二者为并列关系,但日落属于自然现象,鱼属于动物,排除。

因此本题选C。

也就是说,在这个题目上,文心一言和讯飞星火均没有给出正确的答案。老实说,对于这个题目,很多人估计也没能正确作答。

连续推理

该题目也是在知乎上找来的,题目点评为:单个步骤不难,连续推理有一定难度。我们一起看看两大平台的连续推理能力如何。

文心一言的回答:

答案选D。

根据题目的要求,我们可以逐一分析每个部门的值班情况:

  1. 财务部门:第三天和第五天分别安排了财务部门的人值班,因此财务部门的两个人都已经安排了值班时间。
  2. 研发部门:根据题目要求,研发部门的人只能安排在后勤部门的人值班的前一天。而第五天已经安排了财务部门的人值班,因此研发部门的人只能安排在第四天。
  3. 人事部门:人事部门有两个人,根据题目要求,每个人至多值班一天。因此,人事部门的两个人都还没有安排值班时间。
  4. 后勤部门:根据题目要求,如果安排后勤部门的人值班,则只能安排在法务部门的人值班的前一天。而第二天和第四天不安排法务部门的人值班,因此后勤部门的人只能安排在第一天或第三天。但是第三天已经安排了财务部门的人值班,因此后勤部门的人只能安排在第一天。
  5. 法务部门:根据题目要求,第二天和第四天不安排法务部门的人值班。因此法务部门的两个人只能安排在第一天、第三天、第五天和第六天。但是第一天和第三天已经安排了财务部门和后勤部门的人值班,因此法务部门的两个人只能安排在第五天和第六天。
  6. 销售部门:销售部门的两个人还没有安排值班时间。

综上所述,第一天可以安排后勤部门和人事部门的人值班,第六天可以安排研发部门和人事部门的人值班。因此,选项D为正确答案。

讯飞星火的回答:

解析: 根据题目要求,第三天和第五天分别安排财务部门的人值班,那么第一天和第六天只能由剩下的四个部门(研发、人事、后勤、法务和销售)的人来值班。

根据条件(2),后勤部门的人值班只能在法务部门的人值班的前一天,所以后勤部门的人不能在第五天值班,只能在第四天或者第二天。

根据条件(3),研发部门的人值班只能在后勤部门的人值班的前一天,所以研发部门的人不能在第四天或者第五天值班,只能在第三天。

根据以上分析,我们可以得出以下结论:

  1. 第三天是研发部门的值班日。
  2. 根据条件(1),第四天不能是法务部门的值班日,所以第四天只能是后勤部门的值班日。
  3. 根据条件(2),第五天不能是后勤部门的值班日,所以第五天只能是法务部门的值班日。
  4. 根据以上结论,第一天和第六天只能由剩下的两个部门(人事和销售)的人来值班。

因此,第一天和第六天可安排的值班人员可能分别来自人事部门和销售部门,选项为(B)。

小结

正确答案是B,由于该题目的解析篇幅较长,就不在这里贴了。感兴趣的朋友可以移步知乎查阅。

这一轮,讯飞星火胜出。

对比结果

如果仅从上述的测试来看,在逻辑能力方面,讯飞星火略胜一筹。

当然,对于逻辑能力的全面测试,需要更更广泛的数据支撑。后续,有机会,小编将持续关注这两个平台的发展和加入更多的测试。

知识问答

在知识问答方面,小编随机找来了10条题目,覆盖生活常识、历史、医学和法律等多个维度。

1. 蚊子会不会传播艾滋病?

2. 黄帝陵公祭活动在每年的什么时间举行?

3. 世界上最早种植水稻的国家是哪个国家?

4. 根据发酵程度不同,茶可以分为哪几类?

5. 当风向与火焰传播方向相同时,火焰移动的速度将提高还是降低?

6. “四君子画”中的“四君子”分别指的是什么?

7. 制作馒头等面食时,家里没有酵母,小苏打,应该怎么解决?

8. 根据中国的法律,人员密集场所发生火灾,该场所的现场工作人员不履行组织、引导在场人员疏散的义务,情节严重,尚不构成犯罪的,具体处罚是什么?

9. 流行性感冒最主要的传播途径是什么?

10. 就目前的研究成果,导致人类产生抑郁症的主要原因有哪些?其具体病理是什么?

文心一言给出的回答,如下图所示:

文心一言和讯飞星火深度对比评测插图6

讯飞星火的回答则稍微简单:

文心一言和讯飞星火深度对比评测插图7

对比结果

在这方面的测试,显然在问答上积累更多数据的百度略胜一筹。

也就是说,如果您打算利用自然语言模型来做知识问答相关的产品服务时,可能会优先考虑文心一言。

语言理解

小编给出文字材料为诗经里的《四月》:

四月维夏,六月徂暑。先祖匪人,胡宁忍予?
秋日凄凄,百卉具腓。乱离瘼矣,爰其适归?
冬目烈烈,飘风发发。民莫不榖,我独何害!
山有嘉卉,侯栗侯梅。废为残贼,莫知其尤!
相彼泉水,载清载浊。我日构祸,曷云能谷?
滔滔江汉,南国之纪。尽瘁以仕,宁莫我有?
匪鹑匪鸢,翰飞戾天!匪鱣匪鲔,潜逃于渊!
山有蕨薇,隰有杞桋。君子作歌,维以告哀。

要求文心一言和讯飞星火分别作出以下回答:

  • 仿照诗经里的节选《四月》,写一篇题目为《八月》的诗歌。
  • 使用英文翻译给出的文字材料。
  • 请使用现代散文文体重写文字材料。
  • 请从历史、意境、情感等多维度鉴赏《四月》。

分别考察自然语言大模型的文体格式模仿,翻译,写作及鉴赏等能力。

诗歌仿写

文心一言以《八月》为题仿写诗经里的《四月》,结果如下:

5be245788e3b5213bf2177f2662a0e63

讯飞星火给出的答案有点让人大跌眼镜:

文心一言和讯飞星火深度对比评测插图9

小结

相信大家一眼就能看出胜负,讯飞星火给出的答案可不是仿写,甚至可以称之为抄写。

这一轮,文心一言完胜。

诗词翻译

对中国古代诗歌进行英文翻译,绝对可以考验一个自然语言模型的语言理解及文字翻译能力。

文心一言

再次出现中英混杂的情况,不应该啊。

文心一言和讯飞星火深度对比评测插图10

讯飞星火

以下是讯飞星火的翻译结果:

815eecc2c577d9db79afe1d47ad40fc0

小结

OMG,文心一言再次出现中英混合的情况,不应该啊!

如果抛开中英文混合这个情况,从上述两个平台的回答来看,文心一言的对诗歌的翻译完胜讯飞星火。

为什么?讯飞星火的翻译直接将诗歌改成了散文。文心一言至少没有改变文体。

内容重写

同时要求两大平台,使用现代散文文体重写诗经里的《四月》。

文心一言,以散文重写诗经《四月》的回答如下:

7f0f1d31e4b43c5ed69df6aa8688ea58

讯飞星火的回答如下:

4c58e0c5825ad67c8f34033e6025a4ee

小结

我们知道散文应该具备三大特点:形散而神不散;注重内心感情的表达;语言优美自然

从上述两个自然语言模型平台的回答来看:

  • 两个平台所生成的内容都做到了散文基本特点。
  • 感觉讯飞星火生成的散文有点词不达意-“比如四月的夏天,六月就迎来了酷夏”明显就不如文心一言的“四月的夏天刚刚降临,六月的暑气已经侵袭”;“不是鸽子也不是老鹰,却被射向天空!”这一句也不如文心一言的“那些鹌鹑和鸢鸟高高飞翔,向着天空展翅。
  • 抛开词不达意,讯飞星火的文字更优美一些,只可惜对诗经《四月》的理解不够。

个人感觉,这一轮是文心一言胜出。

文字鉴赏

文心一言的理解如下:

文心一言和讯飞星火深度对比评测插图14

讯飞星火的见解:

f51236fc4b8eeb42d6c666ae653ccacd

小结

关于诗经的《四月》的解读,百度百科上是这样描述的。

《小雅·四月》是中国古代第一部诗歌总集《诗经》中的一首诗。这是一首政治讽谕诗,写周朝一个小官吏行役江南,遭遇变乱,滞留难归,作诗以诉说痛苦的心情。全诗八章,每章四句。前三章叙述自己自初夏被逐,历经秋冬,孤苦无告;第四章以比喻说明自己无过受害;第五章叹息自己前途可悲;第六章为自己忠而见逐不平;第七章恨自己无计逃祸;第八章自叙作诗的目的。此诗写得情景交融,脉络清晰,层次井然。——百度百科

文心一言或者讯飞星火在对诗歌的理解和见解,就上述的测试而言,旗鼓相当吧!

对比结果

这一环节,同时要求文心一言和讯飞星火分别对诗经的《四月》进行仿写,翻译,改写和鉴赏,最终得出的结论如下:

测试项 文心一言 讯飞星火
诗歌仿写 胜出
诗歌翻译 胜出
诗歌改写 胜出
诗歌鉴赏 平手

总结

本文通过代码能力、文本生成、数学能力、逻辑推理、知识问答和语言理解多个维度对文心一言和讯飞星火两大自然语言大模型进行了有限的测试。

务必说明的是,上述测试是片面的,肯定未能够覆盖这两个平台的全部能力。因此,测试结果只能作为大家的参考。要深挖这两个平台的能力,还需大家亲自体验,以选择最适合自己的产品。

本次最终测试结果如下:

测试项 文心一言 讯飞星火
代码能力 胜出
文本生成 胜出
数学能力 平手 平手
逻辑推理 胜出
知识问答 胜出
语言理解 胜出

也就是说,从本次测试的范围来看,文心一言在代码、问答和语言三个方面更胜一筹;讯飞星火则在文本生成和逻辑两大块,占据优势。即综合实力,文心一言在目前阶段处于领跑阶段。

评论留言